首页 > 汽车笔记 > 汽车笔记 > 扩散语言模型也有MoE版本!蚂蚁&人大从头训练LLaDA-MoE,即将开源

扩散语言模型也有MoE版本!蚂蚁&人大从头训练LLaDA-MoE,即将开源

发布时间:2025-09-13 22:41:09来源: 18811119908

万万没想到,做奥数题都能拿金牌的模型,却不会「倒着背诗」。



说完全不会,倒也不严谨。因为如果允许模型「深度思考」,给诗的每个字都编上号,然后倒着排一下,这诗也能背出来。然而,这与人类倒背文本的方式并不一样 —— 人类记忆诗词时,往往不是逐字死记,而是以句子、意境、节奏为单位,而倒背时则是在脑中「反向调用」这些单元。





研究者们在 2023 年的一篇论文中就提到了这个现象,并将其命名为「Reversal Curse(反转诅咒)」。类似的表现还包括模型学习了「A is B(如巴黎是法国的首都)」之后,却无法自然地推出「B is A(如法国的首都是哪里)」。

这个问题之所以被拎出来讨论,是因为它会在一些需要模型同时理解前后文或逆向推理的场景中影响性能。

两年过去,AI 大模型能力突飞猛进,但这一问题始终没有得到本质上的解决。究其原因,这是当前大模型普遍采用的自回归(AR)生成范式所造成的 —— 模型天然是单向建模的,从前往后依次生成下一个 token。这导致它们难以捕捉 token 之间的双向依赖关系。

而且,自回归的天然缺陷还不止这一个 —— 长文本的计算成本高、生成速度慢是常被诟病的问题,而且它缺乏直接修正错误的能力,还会导致错误产生连锁反应。

面对这些问题,大量研究者选择继续改进自回归,但也有人另辟蹊径,尝试新的建模范式。

蚂蚁集团和中国人民大学高瓴人工智能学院组成的联合研究团队选择的就是后者,他们探索的语言建模方向是「扩散(diffusion)」。

 在他们之前,也有不少研究者在这一方向发力。但今年 2 月份,他们首次将扩散语言模型(dLLM)扩展至 8B 参数规模,推出了性能对标 LLaMA 3 的 LLaDA 模型

汽车笔记更多>>

6999起三星S26系列发布丨硬件防窥屏 安卓机皇? 三星研发部门负责人解释Galaxy S26系列手机未原生集成磁吸功能 魅族科技宣布战略转型,将暂停国内手机新产品自研硬件项目 魅族第一个停更!内存涨价潮下手机厂商承压 华为清华联手,研发28nm存内计算芯片 又一国产全模态视频大模型杀入Artificial Analysis榜单Top 2 苹果警告旧版Home家庭架构今起停用 OPPO K14x 5G手机海外发布,配置与售价全曝光 华为nova16系列再次确认:三芯分层+方形前摄革新,定价诚意拉满 OPPO Find X10系列配置曝光:2nm芯、双2亿主摄,堆料不讲武德 ColorOS再次发力:二月体验升级大揭秘,覆盖众多机型! 小米17 Max再次被确认:取消副屏和加大电池,两亿像素也没跑了 iQOO Z11系列突然入网:90W+9000mAh,还有LCD屏幕! 三星Galaxy S26系列完整规格曝光,预计2月25日正式发布 京东高端手机Top10,华为Mate 80六连冠,iQOO 15 Ultra大亮 CounterPoint报告2025全球手机存量:8大品牌破2亿 分析师:苹果iPhone 18 Pro系列起售价将与前代持平 苹果即将移除iTunes愿望清单功能,提醒用户迁移内容 苹果预计本月推出搭载M5 Pro/Max芯片的新款MacBook Pro笔记本电脑 联想拯救者Y700 2026款小平板配置曝光:骁龙8E5处理器配8.8英寸3K LCD屏 SK海力士、闪迪:2025Q4 NAND闪存平均单价上涨30%以上 PGYTech蒲公英RetroVa摄影套件亮相,适配苹果iPhone多机型 Mate 80卖爆!华为拿到1月中国手机市场份额第一名:份额提升至18.6% 人民日报头版力挺,OPPO折叠屏技术引苹果学习! 《后厂村AI派》正式启动:Pitch Your Next Move! 中途退学的艺术生,开发Web 3D项目,周下载量破400万 印奇挂帅后,阶跃星辰最强开源模型登场!六大国产AI芯片已适配 Moltbook漏洞大到可以冒充Karpathy发帖,黑客都急了 苹果妙控键盘固件更新,覆盖M4/M5款iPad Pro与M3 Air机型 昔日HDD巨头Conner重生回归!进军外置存储与手机周边