PaLM-E:多模态具身模型

2023/03/17 AI 论文 共 445 字,约 2 分钟

前言

PaLM-E:An Embodied Multimodal Language Model

PaLM-E paper

方法

PaLM-E 的架构思想是将 连续的具身观察结果(例如图像、状态估计或其他传感器模态) 注入到预训练语言模型的语言嵌入空间中。具体来说,PaLM-E 将连续信息以 类似于语言 token 的方式注入到语言模型 中。

它不是那种常见的编码器-解码器架构模型,而是一种 只具有解码器 的 LLM。

具体到输入上,PaLM-E 的输入包括文本和(多个)连续观察。与这些观察相对应的多模态 token 与文本交错形成多模态句子。例如多模态句子 Q(给出一个提问):What happened between <img_1> and <img_2> ?,其中 <img_i> 表示图像的嵌入。

PaLM-E 的输出是由 模型自回归 生成的文本,可以是 问题的答案,也可以是 PaLM-E 以文本形式生成的 应该由机器人执行的一系列决策

PaLM-E 整体框架

参考

文档信息

-->

Search

    Table of Contents