DeepSeek的模型，让AI第一次学会了反思

昨天有一个有趣的事，真的太魔幻了，感觉剧本都不会写的这么巧。

就在昨天晚上，DeepSeek悄悄地上了一个新模型，DeepSeekMath-V2。

一个基于DeepSeek-V3.2-Exp-Base构建的685B的数学专用模型。

这个模型特殊的点，说人话就是，它不仅能给出答案，还能自己检查自己的解题步骤，自己给自己挑错，自己跟自己辩论，直到它自己觉得自己整个推理过程，完美无瑕。

而且，能力上，达到了奥林匹克金牌水平。

并在 IMO 2025（解决了 5/6 道题）和 Putnam 2024（接近满分 118/120 分）等竞赛中表现出色。

同时，按照DeepSeek传统，直接开源+送论文。

论文名字很直接：《DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning》。

而我之所以说魔幻的原因在于。

就在2天前，大洋彼岸，被誉为AI教父之一、前OpenAI首席科学家Ilya Sutskever，刚刚出来发声，录了一期播客。

在这期播客里，他抛出了一个非常有意思的担忧。

就是，现在的AI模型很奇怪。

一方面，它们在各种评测集上刷出了逆天的分数，什么考试、什么竞赛，都能名列前茅。

但另一方面，你把它扔到真实世界里去解决实际问题，它又蠢得让人想砸电脑。

他举了个例子，特别写实：

就是你让AI帮你修一个代码里的bug A，它说“好嘞”，然后给你引入了一个新的bug B。

你再让它修bug B，它又说“没问题”，然后转身就把bug A又给改回来了。

就这么来来回回，修了半天修不好，我相信大家玩vibe coding的人，都遇到过这个问题。

Ilya自己一直在思考，为什么会这样？为什么评测表现和真实世界表现之间，有这么大的鸿沟？

他在这个播客里面，给出了一个非常深刻的类比。

他说，现在的AI模型，就像一个特长生A，这个学生的目标呢，就是成为最牛逼的算法竞赛选手。

于是他花了一万个小时，刷遍了所有竞赛题，背熟了所有解题技巧。最后，他确实成了这个领域的王者。

但还有一个通才生B。他对竞赛也感兴趣，但只花了100个小时去练习，成绩也不错。

但他把更多的时间，花在了理解世界、广泛阅读、与人交流这些务虚的事情上。

汽车笔记更多>>