物理测试暴击AI圈,DeepSeek R1稳超o1、Claude,咱们
作者:[db:作者]日期:2025/01/26 浏览:
DeepSeek R1 真是太凶猛了!
近来,‘奥秘的西方力气’DeepSeek 正在‘硬控’硅谷。
我让 R1 具体说明勾股定理。这所有都是 AI 在不到 30 秒时光里一次性实现的,没出任何错。简略来说,its over.
在海内外 AI 圈,一般网友发明了神奇的强盛新 AI(还开源),学界专家纷纭喊出‘要踌躇不前’,另有大道新闻称海内的 AI 公司曾经如临年夜敌。
就说这个本周刚宣布的 DeepSeek R1,它不任何监视练习的纯强化进修道路令人震动,从客岁 12 月 Deepseek-v3 基座开展到现在堪比 OpenAI o1 的头脑链才能,仿佛是很快告竣的事。
但在 AI 社区热气腾腾的读技巧讲演、对照实测之余,人们仍是对 R1 有所猜忌:它除了能跑赢一堆 Benchmark 以外,真的能当先吗?
能自建模仿‘物理法则’
你不信?来让年夜模子玩玩弹球?
近来多少天,AI 社区的一些人开端陷溺一项测试 —— 测试差别的 AI 年夜模子(尤其是所谓的推理模子)来处置一类成绩:‘编写一个 Python 剧本,让一个黄色球在某个外形内弹跳。让该外形迟缓扭转,并确保球停顿在外形内。’
一些模子在这项‘扭转球形’基准测试中的表示优于其余模子。据 CoreView CTO Ivan Fioravanti 称,海内人工智能试验室 DeepSeek 的开源年夜模子 R1 完胜 OpenAI 的 o1 pro 形式,后者作为 OpenAI ChatGPT Pro 打算的一局部,每月收费 200 美元。
右边是 OpenAI o1,左边是 DeepSeek R1。如上所述,这里的 Prompt 是:‘write a python script for a bouncing yellow ball within a square, make sure to handle collision detection properly. make the square slowly rotate. implement it in python. make sure ball stays within the square.’
依据另一位网友在 X 上的说法,Anthropic 的 Claude 3.5 Sonnet 跟谷歌的 Gemini 1.5 Pro 模子对物理道理断定过错,招致球偏离了外形。也有效户讲演称,谷歌最新的 Gemini 2.0 Flash Thinking Experimental,以及绝对更旧的 OpenAI GPT-4o 都一次性经由过程了评价。
但这外面也是能分出高低的:
在这个推文底下的网友表现:o1 的才能底本很好,在 OpenAI 优化速率当时就变弱了,即便是每月 200 美元的会员版也一样。
模仿弹跳球是一个经典的编程挑衅。准确的模仿联合了碰撞检测算法,其算法须要去辨认两个物体(比方一个球跟一个外形的正面)何时产生碰撞。编写不当的算法会影响模仿的机能或招致显明的物理过错。
AI 始创公司 Nous Research 的研讨员 N8 Programs 表现,他花了大概两个小时重新开端编写一个扭转七边形中的弹跳球。‘必需跟踪多个坐标系,懂得每个体系中的碰撞是怎样停止的,并重新计划代码以使其存在鲁棒性。’
固然弹跳球跟扭转外形是对编程技巧的公道测试,但对年夜模子来说仍是个新名目,即便是提醒中的轻微变更也可能发生出差别的成果。以是假如想让它终极成为 AI 年夜模子基准测试的一局部的话,还须要改良。
无论怎样,经由这一波实测之后,咱们对年夜模子之间的才能差别有了不雅感。
DeepSeek 是新的‘硅谷神话’
DeepSeek 正让年夜洋此岸堕入‘惊恐’。
Meta 员工发帖称‘Meta 工程师们正在猖狂地剖析 DeepSeek,试图从中复制任何可能的货色。’
而 AI 科技始创公司 Scale AI 开创人 Alexandr Wang 也公然表现,中国人工智能公司 DeepSeek 的 AI 年夜模子机能大抵与美国最好的模子相称。
他还以为,从前十年来,美国可能始终在人工智能比赛中当先于中国,但 DeepSeek 的 AI 年夜模子宣布可能会‘转变所有’。
X 博主 @8teAPi 则以为,DeepSeek 并不是一个‘副业名目’,而是像洛克希德・马丁从前的‘臭鼬工场’。
所谓‘臭鼬工场’,就是现在洛克希德・马丁公司(Lockheed Martin)为了研发诸多进步飞翔器专门建立的一个高度秘密、绝对自力的小团队,从事尖端或十分规的技巧研讨与开辟。从 U-2 侦查机、SR-71 黑鸟,到 F-22 猛禽、F-35 闪电 II 战役机都是从这里走出来的。
厥后,这个词逐步演化成一个通用术语,用来描述在至公司或构造外部设破的‘小而精’、绝对自力且自在度更高的翻新团队。
他给出的来由有两个:
一方面是 DeepSeek 领有大批的 GPU,据称有超越一万块,而 Scale AI 的 CEO Alexandr Wang 乃至表现可能到达 5 万块。
另一方面,DeepSeek 只从中国排名前三的年夜学应聘人才,这象征着 DeepSeek 与阿里巴巴跟腾讯存在等同的竞争力。
仅凭这两个现实,就能够看出,显然 DeepSeek 在贸易上获得了胜利,而且曾经充足著名,可能取得这些资本。
至于 DeepSeek 的开辟本钱,该博主表现,中国科技公司能够取得种种百般的补助,比方低用电本钱跟用地。
因而,DeepSeek 十分有可能年夜局部本钱都被‘安顿’在中心营业之外的某个账目上,或许以某种数据核心建立补助的情势存在。乃至除了开创人之外,没人完整明白全部财政部署。有些协定可能只是‘行动协议’,只靠名誉就能敲定。
不论怎么,有多少点是明白的:
这个模子十分杰出,与 OpenAI 两个月前宣布的版原形当,固然也有可能不如 OpenAI 跟 Anthropic 尚未宣布的新模子。
从现在来看,研讨偏向仍重要由美国公司主导,DeepSeek 模子属于对 o1 版本的‘疾速跟进’,但 DeepSeek 的研发进度十分迅猛,比预期更快地奋起直追,他们并不剽窃或舞弊,最多只是逆向工程。
与美国公司比拟,DeepSeek 在常识产权允许、隐衷、保险、政治等方面遭到的束缚较少,缭绕过错地应用那些不想被练习的数据的担心也较少。诉讼更少,状师更少,也更少顾忌。
毫无疑难,越来越多的人以为 2025 年将会是决议性的一年。与此同时各家公司都在跃跃欲试,比方 Meta 就正在树立一个 2GW+ 的数据核心,估计在 2025 年投资 600-650 亿美元,岁尾领有超越 130 万块 GPU。
Meta 乃至用一张图表展现了 2 千兆瓦数据核心与纽约曼哈顿的对照。
但当初 DeepSeek 用更低的本钱,更少的 GPU 做到了更好,怎能不让人焦急?
Yann LeCun:要感激开源
Hyperbolic 的 CTO、结合开创人 Yuchen Jin 发帖表现,在仅 4 地利间里,DeepSeek-R1 向咱们证实了 4 个现实:
由 DeepSeek 激发的连锁反映仍在持续,比方 OpenAI o3-mini 收费可用、社区中盼望能增加对于 AGI/ASI 的含混探讨以及风闻 Meta 堕入惊恐等。
他以为,当初很难猜测终极谁会得胜,但不要忘却后发上风的力气,究竟咱们都晓得是 Google 发现了 Transformer,而 OpenAI 解锁了其真正潜力。
别的,图灵奖得主、Meta 首席人工智能迷信家 Yann LeCun 也表白了本人的见解。
‘对那些看到 DeepSeek 的机能就以为“中国正在超出美国的 AI”的人,你懂得错了。准确的懂得是:开源模子正在超出专有模子。’
LeCun 表现,DeepSeek 之以是此次一举成名,是由于他们从开放研讨跟开源(如 Meta 的 PyTorch 跟 Llama)中获益。DeepSeek 提出了新主意,并在别人任务的基本上构建。由于他们的任务是公然宣布跟开源的,每团体都能够从中受益,这就是开放研讨跟开源的力气。
网友们的反思还在持续,在对新技巧开展高兴的同时,也能感触到一点点忧愁的氛围,究竟 DeepSeek 们的呈现,可能会带来真金白银的影响。
参考内容:
https://x.com/ivanfioravanti/status/1881969391547683031
https://x.com/Aadhithya_D2003/status/1882105009548222953
https://x.com/8teAPi/status/1882836551866204656
https://x.com/Yuchenj_UW/status/1882840436974428362
https://x.com/ylecun/status/1882943244679709130
https://venturebeat.com/ai/tech-leaders-respond-to-the-rapid-rise-of-deepseek/
新浪财经大众号
24小时转动播报最新的财经资讯跟视频,更多粉丝福利扫描二维码存眷(sinafinance)
相关文章