就业锦囊 - 就业桥

北京智源研究院发布原生多模态世界模型Emu3

2024-10-24

来源：人民网－人民日报海外版

次

本报电（记者刘峣）近日，北京智源人工智能研究院正式发布原生多模态世界模型Emu3。该模型实现了视频、图像、文本三种模态的统一理解与生成，成功验证了基于下一个token（词元）预测的多模态技术范式，释放其在大规模训练和推理上的潜力。

　　据了解Emu3只基于下一个token预测，无需扩散模型或组合式方法，把图像、文本和视频编码为一个离散空间，在多模态混合序列上从头开始联合训练一个Transformer。

　　智源研究院院长王仲远表示，Emu3为构建多模态通用人工智能提供了广阔的技术前景，有机会将基础设施建设收敛到一条技术路线上，为大规模多模态训练和推理提供基础。未来，多模态世界模型将促进机器人大脑、自动驾驶、多模态对话和推理等场景应用。

① “就业桥”注明稿件来源为其他媒体的文/图等稿件均为转载稿，本站转载出于非商业性的教育和科研之目的，并不意味着赞同其观点或证实其内容的真实性。如转载稿件涉及版权等问题，请作者在两周内速来电或来函联系。

② 稿件来源为“就业桥”的所有文字、图片和音视频稿件，版权归就业桥所有，任何媒体、网站或个人未经本网协议授权不得转载、链接、转贴或以其他方式复制发表。已经本站协议授权的媒体、网站，在下载使用时必须注明“稿件来源: 就业桥”，违者本站将依法追究责任。

收起