
相较Saycan的主要改进:
●更高效的搜索算法:LLM-MCTS算法采用MCTS算法,相比于Saycan系统,显著提高了搜索效率和决策质量。
●更好的泛化能力:通过使用LLMs作为常识世界模型,LLM-MCTS在处理复杂和新颖的任务时,展现出了更好的泛化能力。
●结合常识知识与启发式策略:LLM-MCTS不仅利用LLMs的常识知识来构建世界模型,还将其作为启发式策略来指导搜索过程,这在Saycan系统中并未充分利用。
■2.1 LLM作为常识世界模型(L-Model)
■2.3 结合L-Model和L-Policy
●MCTS框架:在MCTS的框架内,算法首先从由LLMs生成的初始状态信念中采样一个状态。
●搜索过程:然后,算法使用LLMs作为启发式策略来指导树搜索过程中的动作选择。
●探索与利用:通过探索(搜索可能的状态空间)和利用(选择最有可能的行动路径)的平衡,LLM-MCTS找到一条从初始状态到目标状态的路径。

■2.4 MDL原则指导模型与策略选择
模型与策略的权衡:
英文版本:
1)You need to generate a high-level plan for completing a household task using the allowed actions and visible objects.
2)Allowed actions: walk to <object>, walk to <room>, walk to <container>, walk to <surface>, grab <object>, open <container>, close <container>, put <object> on <surface>, put <object> inside <container>.
3)Rooms in the house: bedroom, bathroom, living room, kitchen.
4)You need to strictly follow the format in the following examples:
5)Goal: Put one apple inside the fridge.
6)Completed actions: walk to the kitchen, walk to the apple.
7)Current Observation: A kitchen table is inside the kitchen, a kitchen counter is inside the kitchen, an apple is on the kitchen counter, a plate is on the kitchen table, a banana is on the kitchen counter, a fridge is inside the kitchen and fridge is closed, a kitchen cabinet is inside the kitchen and kitchen cabinet is closed, a cutlery knife is on the kitchen table, a microwave is inside the kitchen and microwave is closed, a dishwasher is inside the kitchen and dishwasher is closed.
8)Next actions: grab the apple, walk to the fridge, open the fridge, put the apple inside the fridge, done.
9)Now, finish the next following task.
10)Goal: Put one apple on the kitchen table.
11)Completed actions: walk to the kitchen.
12)Current observation: A kitchen table is inside the kitchen, an apple is on the kitchen table, a kitchen counter is inside the kitchen, an apple is on the kitchen counter, a cutlery knife is on the kitchen table, a fridge is inside the kitchen and fridge is closed, a kitchen cabinet is inside the kitchen and kitchen cabinet is closed, a kitchen table is inside the kitchen, a plate is on the kitchen table, a pounding cake is on the kitchen table, a microwave is inside the kitchen and microwave is closed, a dishwasher is inside the kitchen and dishwasher is closed.
13)Next actions:
中文版本:
1)你需要生成一个高级计划来完成一个家庭任务,使用允许的动作和可见的物体。
2)允许的动作:走向<物体>,走向<房间>,走向<容器>,走向<表面>,抓取<物体>,打开<容器>,关闭<容器>,把<物体>放在<表面>,把<物体>放进<容器>。
3)房间:卧室,浴室,客厅,厨房。
4)你需要严格遵循以下示例中的格式:
5)目标: 将一个苹果放入冰箱。
6)已完成的动作: 走到厨房,走到苹果处。
7)当前观察: 厨房里有一张厨房桌子,厨房柜台上有一个苹果,厨房桌子上有一个盘子,厨房柜台上有一根香蕉,厨房里有一台冰箱并且冰箱是关闭的,厨房里有一个橱柜并且橱柜是关闭的,厨房桌子上有一把刀具,厨房里有一个微波炉并且微波炉是关闭的,厨房里有一个洗碗机并且洗碗机是关闭的。
8)下一个动作: 抓住苹果,走向冰箱,打开冰箱,把苹果放入冰箱,完成。
9)现在,完成接下来的任务。
10)目标: 将一个苹果放在厨房桌子上。
11)已完成的动作: 走到厨房。
12)当前观察: 厨房桌子上有一个苹果,厨房里有一个厨房柜台,柜台上有一个苹果,厨房桌子上有一把刀具,厨房里有一个冰箱并且冰箱是关闭的,厨房里有一个橱柜并且橱柜是关闭的,厨房桌子上有一个盘子和一个蛋糕,厨房里有一个微波炉并且微波炉是关闭的,厨房里有一个洗碗机并且洗碗机是关闭的。
13)下一个动作:
■4.1 对象重排任务


●实验设置:实验在VirtualHome平台上进行,该平台模拟了一个包含多个房间和数百个可交互物品的家庭环境。
●评估指标:主要通过完成任务的成功率和所需步骤来评估性能。
●结果:LLM-MCTS算法在简单任务和复杂任务中均显示出比基线方法更高的成功率,并且在未见过的家庭环境中表现尤为出色。


■4.2 旅行规划任务
●实验设置:研究者们使用了一个包含多个城市和飞行路线的数据库来模拟旅行规划问题。
●评估指标:主要通过路线的准确性和规划所需时间来评估性能。
●结果:LLM-MCTS算法在规划准确路线方面优于简单的LLM策略,特别是在涉及多个中转站的复杂路线规划中。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/bian-cheng-ri-ji/38141.html