前言
PaLM-E:An Embodied Multimodal Language Model
方法
PaLM-E 的架构思想是将 连续的具身观察结果(例如图像、状态估计或其他传感器模态) 注入到预训练语言模型的语言嵌入空间中。具体来说,PaLM-E 将连续信息以 类似于语言 token 的方式注入到语言模型 中。
它不是那种常见的编码器-解码器架构模型,而是一种 只具有解码器 的 LLM。
具体到输入上,PaLM-E 的输入包括文本和(多个)连续观察。与这些观察相对应的多模态 token 与文本交错形成多模态句子。例如多模态句子 Q(给出一个提问):What happened between <img_1> and <img_2> ?
,其中 <img_i>
表示图像的嵌入。
PaLM-E 的输出是由 模型自回归 生成的文本,可以是 问题的答案,也可以是 PaLM-E 以文本形式生成的 应该由机器人执行的一系列决策。
参考
文档信息
- 本文作者:Bookstall
- 本文链接:https://bookstall.github.io/2023/03/17/PaLM-E/
- 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证)