机器人获得的报酬该怎样编程

时间:2023-11-29 20:09:03

让机器人学习动作的时候,报酬这个概念是关键要素之一。就像我们玩电脑游戏的时候,打倒敌人就会获取积分,这种积分的上升就相当于报酬。

如果每当机器人达成人类指定的目标时,积分就会增加,机器人就会思考:“在目前为止的动作中,哪些是获得此次成功的决定性因素?”

机器人获得的报酬该怎样编程

比方说,让机器人进行飞机的组装工作,如果机器人完成某项作业,就得到1分,失败就给0分。把这种报酬体系编入程序中,对于机器人的学习来说是非常必要的。

阿比贝尔先生还表示,对于这种报酬的编程并非易事。例如,想让扫地机器人知道“大量吸起灰尘和垃圾”是正确的行为——这种情况下,机器人可能会认为“吸起一定量的垃圾和灰尘之后喷出来,再吸起来”就是吸起大量的灰尘或垃圾。进行了错误学习的人工智能,会用错误的方法,做出人意想不到的行动。