Nvidia如何使用GPT-4让AI在Minecraft中变得更好

  • 发布时间:2023-08-21 10:57:56 来源:
标签:
导读 Nvidia的Voyager与其他自动化代理的比较,通过游戏所谓的科技成就树进行。该程序在完成新任务方面速度明显更快,并且它是迄今为止Minecraft

Nvidia的Voyager与其他自动化代理的比较,通过游戏所谓的科技成就树进行。该程序在完成新任务方面速度明显更快,并且它是迄今为止Minecraft中唯一可以解锁高度珍贵的钻石级别工具的自动化程序。图形底部的数字表示程序的提示迭代次数。

就像国际象棋中的过牌和交配一样,视频游戏《我的世界》中打造钻石工具的能力(游戏的高级挑战之一)对于人工智能来说正变得司空见惯。

现在,像记忆这样的东西正在流行的电脑游戏中成为人工智能的能力。

人工智能程序已被广泛开发,可以在无需人工干预的情况下玩《我的世界》,并在各种方法上进行了大量投资。例如,ChatGPT的创建者OpenAI花费巨资聘请了游戏的人类玩家,以便捕捉视频片段,从而可以开发AI通过模仿人的动作来玩游戏。

今年2月,北京大学的ZihaoWang领导的团队描述了该团队认为的“第一个可以稳健地完成70多项Minecraft任务的多任务代理”。

但最先进的技术发展得很快。英伟达领导的一个团队上周表示,他们已经提出了第一个“终身学习代理”,该代理通过尝试不同的技术来改进其游戏方法,然后将其成果保存到技术库中。

与其他自动系统相比,该技术始终能够更快地实现Minecraft中的里程碑。

这个名为Voyager的程序在一篇论文中进行了描述,该论文发布在arXiv预印本服务器上,由Nvidia和加州理工学院的guanzhiWang以及来自UTAustin、斯坦福大学和亚利桑那州立大学的同事撰写。该团队的顾问是Nvidia人工智能研究高级总监AnimaAnandkumar。(Nvidia还在其配套网站上发布了该论文和其他材料。)

Voyager使用ChatGPT创建者OpenAI最新的“大语言模型”GPT-4。GPT-4已于3月份推出,但OpenAI拒绝描述该计划的技术方面。根据OpenAI的说法,GPT-4代码比以前的版本更好,并且在使用ChatGPT的许多任务上比许多其他大型语言模型或法学硕士更好,例如回答自然语言挑战和编写代码。

GPT-4在Voyager中以三种方式使用。一是获取Minecraft中当前的财产清单,并利用它们为Voyager计划提出新的挑战。在提示时以自然语言为GPT-4提供库存描述,并采用易于解析的格式,例如,

库存(5/36):{'oak_planks':3,'stick':4,'crafting_table':1,'stone':3,'wooden_pickaxe':1},

GPT-4将输出新挑战的自然语言描述,例如制作石镐,以及为什么这是一个合适的新任务的说明,例如,

推理:由于您有木镐和一些石头,因此将镐升级为石镐会更有利于提高效率。

任务:制作1把石镐。

Voyager中GPT-4的第二个功能是输入新挑战并生成代码以在Minecraft中进行下一步操作。GPT-4编写程序代码在Minecraft中运行,每一位代码都在Minecraft中进行测试,然后将反馈反馈到GPT-4中,GPT-4再对代码进行细化。

众所周知,GPT-4可以细化程序代码。作者将这种代码试错过程描述为“迭代提示”,因为通过GPT-4提示进行代码/反馈/重新编码的循环。GPT-4的第二个实例用作批评者来测试每个代码发明并确定其是否成功。这就是所谓的“自我验证”。

例如,如果最初的程序代码是向Minecraft发送指令来制作一把“金合欢斧”(一把由金合欢植物制成的斧头),那么它会失败,因为Minecraft中不存在金合欢斧这样的东西。该指令的失败由Voyager处理为“执行错误”,程序会修改其Minecraft代码并重试。

最有趣的部分是所谓的库,Voyager在其中存储它已经尝试和测试并发现成功的代码片段,这些代码被称为“技能”。

就像GPT-4预测句子中的下一个单词一样,Voyager可以挖掘这个库以获取未来建议的操作。GPT-4以“查询”开始——比如“制作一把铁镐”——然后它在库中搜索“密钥”——存储的技能描述——并检索所需的技能作为输出,该查询键组合的“值”,很像数据库搜索。

通过所谓的消融研究(删除部分程序),王和团队发现整个Voyager构建中最关键的元素是批评者,即自我验证单元。

“删除模块会导致发现的项目数量显着下降(−73%)”,他们从中推断出“自我验证是决定何时继续执行新任务或重新尝试以前不成功的任务的关键机制”任务。”

为了测试Voyager与自动化《我的世界》中最新技术的对比,作者拼凑了一些其他人工智能程序,因为正如他们所说,“没有法学硕士可以开箱即用地玩《我的世界》。”

他们测试的程序构成了他们的基线,包括MineDojo,这是去年由一些相同的贡献者开发的程序,在NeurIPSAI会议上获得了“杰出论文奖”;ReAct是谷歌今年推出的一项发明,它促使大型语言模型在解决问题时“执行动态推理”,在本例中是《我的世界》;AutoGPT是GPT-4的改编版,可自动执行语言模型的下一步操作,发布在GitHub上,由合同开发公司SignificantGravitas开发。

  • 免责声明:本文由用户上传,如有侵权请联系删除!