机器人

进化的机器人

通过进化和人工选择自动设计的机器人有时比人类设计的更有效。

Jean-Arcady Meyer和AgnèsGuillot 对于Science N°284
本文保留用于科学用户

1859年,查尔斯达尔文出版了 通过自然选择来源的原点他描述了进化原则。从那时起,已经指定了相应的机制:在经历环境的选择性压力的生物体的基因组中随机出现突变。当一个突变有利时,它赋予了一个新的角色和身体,获得它更有可能重现并将其传递给其后代;相反,当它是不利的时,身体死亡并且新角色消失了。因此,超过几代人,新角色出现,维护,积累和产生新物种。

根据这个理论,人类和所有生活物种都是由于地球上生命的外观以来发生的这种机制,大约有大约35亿年前的机制。今天,它是机器:计算机科学家将进化原则应用于机器人!因此,通过选择变得人为,机器人的种群进化:它们的形态及其行为从代代产生改善,而且机器人有时比人类设计的机器更有效。例如,丹麦奥胡斯大学的学生已经进化了设计用于踢足球的机器人控制系统。由人工选择开发的机器人于1999年参加了丹麦机器人足球锦标赛,在此期间,它反对由计算机科学家设计的程序控制的机器人。他达到了决赛,因为电池失效,他丢失了。当非官方复仇时,他以零的目标击败了他的胜利者。

我们将在这篇文章中审查,管理机器人演变的原则,演变的机器人的类型以及改善方式。然后,通过各种例子,我们将描述实施这些原则的经验以及他们授予的行为。我们还将讨论进化机器人的前景和限制。

人工选择

能够在不断变化的环境中“幸存”并执行简单任务的机器人的设计很困难,因为有很少的理论原则,无法预测机器人在其存在期间可能遇到的所有困难是不可能的。这就是为什么设计机器人适应他们的环境,机器人受到自然和研究的启发,在这种情况下,这些机器人可以自动设计。由于人工演进的程序,这是一种最大限度地减少人为进化的措施,这些人工演进程序将连续几代机器人面对给定的环境,并更好地选择机器人并更好地改编。在每一代之间,IT过程修改某些机器人,因此具有新的字符,并将它们提交给“选择压力”,以促进机器人搜索的字符的外观。

不过,与可能的宇宙的性质不同,几乎是无限的,人类干预仍然很重要:实验者确定要完成的任务,决定什么需要进化(控制系统,结构机器人......)并指定机器人工作的环境。然而,尽管有这些限制,所以不断发展的机制的随机性质允许许多可能性。

例如,在六角摄藏机器人已经进化并且已经重复几次实验中,第一群机器人有“重新发现”昆虫的三脚架步骤,而第二次已经发明了未发表的位移模式,连续跳跃。

进化机器人的大多数应用都集中在简单的机器人上,最常是小型移动机器人,名为 khepera. (见图3)。这些机器人在联邦理工学院设计,这些机器人相当于生物学家的实验室大鼠。它们具有圆柱形,直径约为6厘米,高度为三厘米。在其标准版本中,它们配备了两个轮子和八个红外辐射接收器,它们通过其移动和检测其环境的元素,例如障碍物或光源。除了相机和夹具,它们有时还配备了它们所处的夹子,带走和放松小物体。然而,更多复杂的机器人有时用于进化机器人。

至于生物体,一个人区分其表型的机组。基因型是该机器人的编码描述或其一个部分:例如,它是描述其控制系统的位链(0或1)。从生成到生成的这种描述是人工演进适用的对象。该表型是机器人的材料组织,尤其是其形式,其受体及其执行器,也就是说它与其感知世界的元素并作用于其,以及其控制系统及其行为。

人工神经元网络

机器人的行为由几种类型的可能的控制系统引导,其连接到其接收器及其致动器。最常用的控制系统是人工神经元网络,其运作受到活性的神经系统的启发。在我们的大脑中,由许多分支延伸,名为Dendrites,神经元以电脉冲形式接收信号,由其他神经元发出。作为响应,它通过单个延伸,轴突向其他神经元发出信号,也分支。通过突触从一个神经元传递到另一个神经元的信号是刺穿器或抑制剂:取决于化学反应的性质,并根据涉及的阈值效应,神经元透射或不会向神经元的神经元传输电脉冲他是联系的。每个天然神经元不断处理数千个突触信号。

类似地,在人工神经元网络中,神经元 (见图2) 从上游接收来自神经元的几个输入信号。根据分配给相应的连接的系数,将变量重要性给予每个信号中的每一个,该信号被指定为其“权重”。由于这些系数,神经元计算这些信号的加权和,然后通过函数转换为输出信号 f 由实验者选择。

在某些网络中,神经元在几层中组织:层的神经元从上游的层接收信息,并向下游层的那些。然而,还使用了具有更简单或更复杂的配置的神经元网络:例如,某些网络很少连接,而其他网络则具有反馈循环。

在机器人的情况下,神经元,所谓的感觉,直接从接收器接收数据,而其他神经元,所谓的电动机,发射到机器人的有源部分,例如车轮的发动机。例如,机器人的控制系统 khepera. 可以采用由两个运动神经元和八个感官神经元组成的神经元网络的形式。每个电动机神经元连接到操作一个机器人轮子的电动机之一。这种神经元的活动越高,车轮越快就越快。类似地,每个红外辐射辐射受体连接到网络的一个感觉神经元之一:当该接收器检测到障碍物时,相应的神经元是从机器人到障碍物的距离更加激活的。

最后,在这样的网络中,每个感官神经元可以连接到每个电动机神经元。在这些条件下,16个连接将感觉神经元层连接到电动机神经元层。 16个连接中的每一个的权重由机器人基因型确定,例如,通过机器人基因型确定:这种基因型是以80比特链的形式确定。每个感官神经元对每个电动机神经元的影响,因此,其对机器人的整体行为的影响取决于每个连接的重量值。在每个基因型对应于连接重量的特定组合,因此机器人的适当行为。

进化算法

根据命令它的神经网络,它仍有衡量每个机器人的性能。这些性能由英文中的值,名为选择性值的值量化 健康,由实验者在真实机器人上测量,或在模拟机器人上自动确定。例如,对于能够移动和避免障碍物的机器人,选择性值对应于它们在给定时间的情况下没有障碍的距离。更具体地,在机器人的情况下 khepera.选择性值可能取决于每个车轮的旋转速度,这些转速之间的差异和最激活的感觉神经元的激活程度。因此,当轮子快速转向相同的方向时,选择性将更大,并且机器人将避免进一步避免障碍物。

虽然人类实验者决定了机器人代码的基因型如何,但是如何自动进化算法的IT进化的IT过程,是自动的。在人工演进过程中仅改变了基因型编码表型的一部分:大多数情况下,它是控制系统。基因型进化使它们描述的表型获得了越来越多的选择性值,并且对应于越来越有效的机器人。

进化算法创造了连续几代机器人。它对基因型的群体运行,通常位链,其选择性值被系统地评估,并选择最强大的个体,其相应的基因型在下一代内保持。相反,消除了最低有效个体的基因型。它们被高效机器人的基因型所取代,该基因型经历了“突变”和“重组”。因此,新一代由前一代的最有效的基因型组成,其保持完整,以及已经改变的相同基因型。

“突变”和“重组分子”,通过进化算法自动进行,向系统引入新颖性 (见图5)。在保留的高选择性值基因型中,突变在随机选择的比特链中改变1个,其中0或反之亦然,而两种基因型之间的比特序列的重组交换。这些改变通过算法随机进行,该算法通过由此获得的新基因型来自动取代低性能基因型。使用的进化算法根据表型编码而变化,授权维持的基因型的选择模式,低性能基因型等的替代方案等。

因为演变的初始基因型通常在随机创建,第一代,模拟或真正的机器人,不太可能是有效的:它们的选择性低。然而,一些机器人的表现不如他们的同源者的伤害较小,因此被允许维持,而其改进的版本取代最低有效的个体;该人群的平均选择性通常从一代增加到下一个。

整个过程 - 对一代机器人的所有机器人的性能评估,选择最佳,通过突变和重组的较少和创造新的个人 - 被重复到生成。在这个人工演进过程中,越来越高的机器人出现。例如,在步行的腿部机器人的演变过程中,第一代的个人,他们的腿不支持并且没有做出任何运动,被机器人取代,升起,移动和搅动一条或多条腿,然后由其他人在遭受或多或少地震死中。在变量的数量之后,后者留出机器人的空间越来越快地移动,其身体不再触及地面。当已经达到预定的性能水平并且机器人具有预定的性能并且机器人遍历给定时间时,整个过程通常被捕。

此外,人工演进有时适用于神经元数量,其内部运作的细节和其联系的组织。它还用于其他控制系统,例如直接确定机器人行为的计算机程序。另外,根据实验,基因型使用或多或少的表型细节使用代码,因此或多或少复杂。因此,相应的计算时间有时是很长的。

为了解决这个缺点,可以进化不再计算的控制系统,但是电子。为此,使用电路,其中最常见的名称 FPGA. (为了 可编程字段门数组),其在含有64到超过10,000个计算块的网格上组织,基于基本逻辑功能。这些块的各个功能,而且还通过安装在相应电路上的存储器的内容来指定。在可以通过基因型描述该存储器的内容的程度上,这种电路的操作是可编程的并且可以经受人工演进。特别地,该操作可以等同于神经元网络的网络,但相应的控制系统比计算机程序快得多,因为这里只执行应用程序的特定计算,并且不受那些施加的应用程序的特定计算计算机操作系统。

开发机器人

一些进化机器人实验专注于更详细的机器人 Khepera。例如,作为哥德堡大学和伦敦大学之间的合作的一部分,人形机器人的控制计划 埃尔维斯 (见图1),已经受到人工演变。由于该程序根据上述原理自动创建,机器人协调其两只眼睛提供的视觉信息,并且传输到其成员的电机订单以指向发光源。正在进行的工作旨在以同样的方式创建一个机器的计划 埃尔维斯 当电池几乎耗尽时,将加入充电站。在长期内,这个机器人应该与人类沟通。

同样,公司的工程师 索尼 已经进化了狗运动的控制系统 AIBO(见图4)。在这些实验期间,机器人经常损失平衡,并且在测试第一代控制器时有必要改变许多部件。然而,由此获得的步骤或小跑的控制系统自动优于工程师编程的步骤,因为它们允许机器人在给定时间浏览更大的距离。

人工选择也用于苏塞克斯大学,以发展视觉系统和机器人控制系统的形态。对这种联合演变的需求是解决问题的问题:机器人在将其区分开于隔壁的矩形之后,机器人是加入墙上显示的三角形。该机器人的基因型编码了其视觉系统的受体的数量和尺寸,以及其控制系统的神经元的数量和连接。获得的强大机器人只需要两个接收场,以将矩形的垂直侧与三角形的倾斜侧面区分开。然后由控制系统操作该信息,该系统将机器人引导到三角形。

在各种先前的示例中,机器人彼此独立地发展。然而,其他应用实施了群体的共同进展,其中物种的演化取决于一种或多种其他物种的同时演变。

因此,在洛桑大学,两个机器人 khepera. 已经进化在一起:第一次发挥了猎物的角色,第二个发挥了捕食者的作用。当捕食者配备有相机时,猎物是盲目的,因为他在距离左右检测到猎物。另一方面,猎物比捕食者移动得更快。由于其红外辐射受体,机器人确定了它们进化的环境的固定或移动障碍,而在额外的接触传感器中,当捕食者“捕获”猎物时,可以检测到的机器人,触摸它。要解决的问题是选择逃离捕获长时间的猎物,以及快速抓住猎物的捕食者。这些机器人的基因型编码了将接收器连接到发动机的预定架构神经元网络连接的重量 (见图6).

在此类经验期间,进化过程通常在连续周期中组织,在此期间,各种起诉和逃脱的策略都是区分。因此,对于几代,直接追求猎物的捕食者出现。然而,猎物,更快,“学习”逃离与掠食者相反的方向,因为需要一个新的狩猎策略。因此,我们看到了新的掠夺者,他们不再追求他们的猎物,但谁在避免障碍时观察他的旅行并融化并融化它,它暂时向他们前进。后来在参与区间,猎物策略可以改变:掠夺者然后直接追求它们,因为它是最有效的行为。作为回报,猎物以直线逃离捕食者,循环重复。

在这样的实验中,两个物种的选择性值循环地发展。另一方面,在其他条件下,在地缘政治背景下定居了一个被称为“军备竞赛”的内容:每个竞争对手吸收并积累了前几代人所发现的行为“提示”,以及定期增加的选择性值。

在另一种经验中,布兰纽斯大学的计算机科学家已经进化了神经元网络,该网络确定了八个机器人的行为,该机器人放置在一个方形舞台上的中心被布置在一个光源,其地板被带电,以确保能量自治机器人 (见图7)。每个机器人的任务是将其受体光和其两个电动车轮使用,以便从竞技场的周边到达光源。当发生这种事件时,机器人的选择性值达到其最大值。但是,不受进化的行为计划,然后迫使他加入周边,他必须再次加入光线。在本课程中,机器人的选择性值随着加入光的时间而减小。

另一方面,当一个机器人从另一方面接近时,他通过红外辐射通信设备传达,他的基因型的一部分随着他的选择性巨大的概率而越来越高:“捐赠者的重量的代码描述“然后连接在”受体“机器人基因型中替换等同的描述,因此改变了”接受者“的行为。因此,这种实验模拟了人工生态系统,其中机器人的选择性,也不是它们中的每一个可以传递基因型片段的伴侣,由实验者确定。然而,在这种自动过程结束时,群体中获得的控制系统与光源高于用人类设计的控制系统的平均会议速率。

本质上,基因型的编码是间接的:转录程序在发展过程中发生,在此期间,通过所谓的表观机制,环境影响表型的最终组织。这种显影过程介于基因型和表型之间通常限制基因型必须包含的信息量,因此降低了进化算法探索的搜索空间的大小。因此,可以进行简单的基因型代码是一种形态和非常复杂的控制系统。

在这内animatlab.从计算机科学实验室Paris 6中,我们已经进化了机器人,其基因型编码了控制这些机器人的神经元网络的发展规则。这些开发规则由一个程序描述,其指令具有复制,删除或修改神经元的效果,在两个神经元之间的连接的创建或修改。由于这一过程,我们在两个阶段生产了机车的控制系统以及避免六足球机中的障碍物 (见图8)。在第一步中,在通过在给定时间行进的距离测量机器人的选择性值的情况下,进化发现了一个协调机器人腿的移动的神经元网络的显影程序,以便他直接移动线。在第二步中,发达了另一个神经元网络,谢谢机器人避免沿其轨迹遇到的障碍物。连接到第一,该第二网络使用的接收器检测到机器人的两个天线之一的接触以障碍物。在那一刻,机器人将能够改变其腿的运动节奏,以便在检测到接触的天线的相对方面。在这种情况下,个人的选择性就越大,他长期以来,没有他的身体击中障碍。在仿真中,我们使用连接到前两个的第三个神经元的第三网络获得了额外的行为,追求了一种光源来源。然后,相应的选择性值同时依赖于行进的距离而不击中机器人和源之间的距离。在一晚计算中自动获得了这种行为,而兰德尔啤酒需要三年,从西方大学设计具有相同行为的人造昆虫的神经系统。

展望和限制

如果进化机器人已经获得的结果是有前途的,那么仍然存在失败。例如,尝试进化Robokoneko的神经系统 (见图9),于1994年在公司的实验室开始 ATR, 在京都,最近被布鲁塞尔的Starlab接管,到目前为止已经失败了。这是一个让年轻猫的特征行为的问题,例如玩帽子,喵喵掌握着注意力,咕噜声等。

控制系统 Robokoneko. 应该包括32,768个模块,每个模块由1,152个神经元组成,记录在72个FPGA电路上。但是,出于技术原因,不可能一次演变多个模块。虽然已经建立了一种特殊机器,以确保尽可能多的这种模块的快速发展,但到目前为止,没有让您喜致的行为让人联系到幼猫。此故障的原因之一与确定应如何更改选择性值以更改给定模块,然后了解该模块的内部操作,最后,决定如何协调“通过手动”其活动成千上万的其他模块,它们独立于它进化。

项目的困难 Robokoneko. 提出了进化机器人的限制问题:可以成功解决问题的复杂性程度?今天,这种学科的行为可以实施简单的反应,使得可以走路,游泳,飞,避免障碍物,或继续对象。另一方面,更精致的行为的演变,例如那些需要记忆的人,环境或计划的表示,如果我们可以解决它们,仍然未知的概念,方法论和技术困难。

理解和利用自然实施当物种的演变与个人的发展和学习时的协同作用是进化机器人的另一个挑战。最终,由于等同的机制,机器人不仅将是 改编 他们的环境的特征缓慢地改变,还要改变 适应 要快速更改的功能。此类机器人“将生存”,并将继续他们的使命,即使在他们的接收者或其执行者的情况发生的情况下,如果在破坏他们的控制系统的一部分或在新环境中转移的情况下,也是如此。进化正在运行。

订阅和ACC.édez à plus de 20 ans d'archives !

12号éros + 4 hors-série
在纸张版本+ numérique

+ ACC.ès illimité à plus de 20 ans d'archives

我是'abonne

订阅和ACC.édez à plus de 20 ans d'archives !

12号éros + 4 hors-série
在纸张版本+ numérique

+ ACC.ès illimité à plus de 20 ans d'archives

我是'abonne

我们的上一篇出版物

回到顶部