DeepSeek的模型,让AI第一次学会了反思
发布时间:2025-11-28 20:32:21来源:
18811119908
昨天有一个有趣的事,真的太魔幻了,感觉剧本都不会写的这么巧。
就在昨天晚上,DeepSeek悄悄地上了一个新模型,DeepSeekMath-V2。
一个基于DeepSeek-V3.2-Exp-Base构建的685B的数学专用模型。
这个模型特殊的点,说人话就是,它不仅能给出答案,还能自己检查自己的解题步骤,自己给自己挑错,自己跟自己辩论,直到它自己觉得自己整个推理过程,完美无瑕。
并在 IMO 2025(解决了 5/6 道题)和 Putnam 2024(接近满分 118/120 分)等竞赛中表现出色。
同时,按照DeepSeek传统,直接开源+送论文。
论文名字很直接:《DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning》。
就在2天前,大洋彼岸,被誉为AI教父之一、前OpenAI首席科学家Ilya Sutskever,刚刚出来发声,录了一期播客。
一方面,它们在各种评测集上刷出了逆天的分数,什么考试、什么竞赛,都能名列前茅。
但另一方面,你把它扔到真实世界里去解决实际问题,它又蠢得让人想砸电脑。
就是你让AI帮你修一个代码里的bug A,它说“好嘞”,然后给你引入了一个新的bug B。
你再让它修bug B,它又说“没问题”,然后转身就把bug A又给改回来了。
就这么来来回回,修了半天修不好,我相信大家玩vibe coding的人,都遇到过这个问题。
Ilya自己一直在思考,为什么会这样?为什么评测表现和真实世界表现之间,有这么大的鸿沟?
他说,现在的AI模型,就像一个特长生A,这个学生的目标呢,就是成为最牛逼的算法竞赛选手。
于是他花了一万个小时,刷遍了所有竞赛题,背熟了所有解题技巧。最后,他确实成了这个领域的王者。
但还有一个通才生B。他对竞赛也感兴趣,但只花了100个小时去练习,成绩也不错。
但他把更多的时间,花在了理解世界、广泛阅读、与人交流这些务虚的事情上。
特别声明:以上内容(如有图片或视频亦包括在内)为“车评报用户上传并发布",本平台仅提供信息存储服务。