Multimodal Transformer 综述

2023/05/28 Multimodal 共 301 字,约 1 分钟

《Multimodal Learning with Transformers: A Survey》

  • URL:https://arxiv.org/abs/2206.06488

  • 单位:Tsinghua University & University of Surrey & University of Oxford

  • 会议:TPAMI 2022

Transformer 的标准结构

多模态 Transformer 的各种预训练代理任务如下图所示:

多模态 Transformer 对不同输入模态采取的 Tokenization 和 Token Embedding 方式如下图所示:

模态融合方式

六种模态融合方式的示意图

六种模态融合方式的计算过程

参考

文档信息

-->

Search

    Table of Contents