全域智慧就业资讯服务平台
全国
全国
安徽
北京
重庆
福建
甘肃
广东
广西
贵州
海南
河北
河南
黑龙江
湖北
湖南
吉林
江苏
江西
辽宁
内蒙古
宁夏
青海
山东
山西
陕西
上海
四川
天津
西藏
新疆
云南
浙江
香港
澳门
台湾
400-633-0111
北京智源研究院发布原生多模态世界模型Emu3
就业桥时间图标 2024-10-24
就业桥来源图标 来源:人民网-人民日报海外版
就业桥时间图标

本报电  (记者刘峣)近日,北京智源人工智能研究院正式发布原生多模态世界模型Emu3。该模型实现了视频、图像、文本三种模态的统一理解与生成,成功验证了基于下一个token(词元)预测的多模态技术范式,释放其在大规模训练和推理上的潜力。

  据了解Emu3只基于下一个token预测,无需扩散模型或组合式方法,把图像、文本和视频编码为一个离散空间,在多模态混合序列上从头开始联合训练一个Transformer。

  智源研究院院长王仲远表示,Emu3为构建多模态通用人工智能提供了广阔的技术前景,有机会将基础设施建设收敛到一条技术路线上,为大规模多模态训练和推理提供基础。未来,多模态世界模型将促进机器人大脑、自动驾驶、多模态对话和推理等场景应用。


免责声明:

① “就业桥”注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿件涉及版权等问题,请作者在两周内速来电或来函联系。

② 稿件来源为“就业桥”的所有文字、图片和音视频稿件,版权归就业桥所有,任何媒体、网站或个人未经本网协议授权不得转载、链接、转贴或以其他方式复制发表。已经本站协议授权的媒体、网站,在下载使用时必须注明“稿件来源: 就业桥”,违者本站将依法追究责任。

收起

意见收集

关闭

您对就业桥有任何建议意见都可以给我们留言哦~

取消
确定