外媒聚焦国产开源大模型DeepSeek,为何让美国科技巨头坐立难安
腾讯科技特约编译 金鹿
编辑 郝博阳
一周前,DeepSeek 这个名字对多数人来说还很陌生,如今却成为全球科技媒体的头版热点。从 MIT 技术评论到《连线》,从 VentureBeat 到 CNBC,各大媒体纷纷对这家中国 AI 初创公司投以高度关注。这家成立于 2015 年的公司,因其新发布的开源模型 R1 在性能和成本效率上的突破性表现,引发了整个 AI 行业的广泛讨论。
总结起来,外媒的关注主要有三点。
首先是核心技术创新方面,DeepSeek 采用了独特的"思维链"推理架构。据 MIT 技术评论报道,R1 模型通过重新设计训练流程,在保持高准确性的同时显著降低了内存占用和计算开销。
其次是对美国芯片管制失效的讨论。面对美国收紧的芯片出口管制,DeepSeek 采取了双管齐下的应对策略。一方面,公司提前储备了大量英伟达 A100 芯片;另一方面,通过创新性地结合高性能和低功耗芯片,开发出更高效的训练方案。《连线》杂志评价这种方式 " 重塑了 AI 模型的基础架构 "。
最后一点,从全球 AI 格局来看,DeepSeek 的成功正在改变行业发展路径。VentureBeat 指出,这打破了此前 OpenAI、Anthropic 和 Google 主导的专有闭源模型竞争格局。
CNBC 认为,这种低成本、高效能的创新模式,正在挑战美国通过大规模资本投入推动 AI 发展的传统路径。
让我们来具体看看各大媒体是如何评价这一现象的。
MIT 技术评论:美国出口限制未能如预期般削弱中国 AI 能力
DeepSeek 的成功尤为令人瞩目,因为中国人工智能公司面临着日益严峻的美国芯片出口管制。然而,早期证据显示,这些制裁措施并未如预期般削弱中国的 AI 能力,反而迫使像 DeepSeek 这样的初创公司在效率、资源共享和合作方面进行创新。
为了开发 R1,DeepSeek 必须重新设计其训练过程,以减轻 GPU 的负担。该公司使用的是英伟达为中国市场定制的 GPU,其性能被限制在顶级产品的半速。因此,DeepSeek 不得不通过技术创新来克服这些硬件瓶颈。
微软 AI 前沿研究实验室的首席研究员迪米特里斯 · 帕帕利奥普洛斯表示,令他最为惊讶的是 R1 的工程简洁性。" DeepSeek 更注重准确答案,而不是详细列出每一个逻辑步骤,这大大减少了计算时间,同时保持了高效性。"
训练大语言模型需要一支高水平的研究团队和大量的计算资源。著名企业家、前谷歌中国总裁李开复曾在接受媒体采访时表示,只有"前排玩家"才有能力投入到构建基础模型的工作中,因为这一过程资源消耗极大。加之美国的芯片出口管制政策,局势变得更加复杂。
然而,DeepSeek 的成功恰恰源于这种困境。早在美国制裁预期到来之前,该公司就提前囤积了大量的英伟达 A100 芯片,数量可能超过 1 万颗甚至 5 万颗。正是基于这一战略性的资源积累,DeepSeek 才能够利用这些高性能芯片和低功耗芯片的组合,开发出其创新性的 AI 模型。
DeepSeek 通过创新,找到了一种既能减少内存使用又能加快计算速度的方法,且不会显著影响准确性。卡内基国际和平基金会 AI 研究员马特 · 希恩表示:"美国的出口管制实际上将中国公司逼入了一个角落,它们必须在有限的计算资源下更加高效。这将促使更多的 AI 企业通过更精细的资源分配和协作生存下来。"
《连线》:DeepSeek 正向西方 AI 巨头发起挑战
事实上,在许多关键指标上,如性能、成本和开放性等方面,DeepSeek 正在向西方 AI 巨头发起挑战。
DeepSeek 的成功凸显了美中科技冷战中的一个意外结果。美国的出口管制严重限制了中国科技公司在西方方式上与 AI 竞争的能力——即通过不断购买更多芯片并延长训练时间来无限扩展。因此,大多数中国公司将重点放在下游应用上,而不是打造自己的模型。
但通过最新的发布,DeepSeek 证明了赢得竞争的另一种方式:通过重塑 AI 模型的基础结构,使用有限的资源更加高效。
悉尼科技大学的副教授 Marina Zhang 解释道:"与许多依赖高端硬件的中国 AI 公司不同,DeepSeek 专注于最大化软件驱动的资源优化。DeepSeek 拥抱开源方法,汇聚集体智慧并促进协同创新。这种方式不仅缓解了资源限制,还加速了前沿技术的开发,使 DeepSeek 与更封闭的竞争者有所不同。"
DeepSeek 愿意与公众分享这些创新,赢得了全球 AI 研究社区的广泛好感。对于许多中国 AI 公司而言,开发开源模型是追赶西方同行的唯一途径,因为开源能够吸引更多的用户和贡献者,进而帮助模型成长。
"他们现在已经证明,尖端模型可以用相对较少的资金甚至更低的资源来打造,而当前的模型构建规范仍然有很大的优化空间," Marina Zhang 表示。"未来,我们肯定会看到更多的类似尝试。"
VentureBeat:DeepSeek 打乱了 AI 模型市场格局
DeepSeek R1 的问世,已经彻底打乱了 AI 模型市场的格局。之前几个月,OpenAI、Anthropic 和 Google 之间一直在争夺最强的专有模型,而 Meta 也常常推出"差不多"的开源竞争者。但这一次的不同之处在于,DeepSeek 位于中国,这个与美国关系复杂的"竞争友好"国,其科技行业直到目前为止一直被视为逊色于硅谷。
因此,DeepSeek 的迅速崛起引发了美国和西方科技圈的广泛担忧,许多科技从业者开始怀疑 OpenAI 以及整个"大科技"战略,即通过投入更多资金和算力(GPU)来推动更强大模型的诞生。
然而,一些西方科技领袖对 DeepSeek 的崛起表达了积极的看法。
Netscape 浏览器联合创始人、著名风险投资公司 Andreessen Horowitz(a16z)的普通合伙人马克 · 安德森发帖称:" DeepSeek R1 是我见过的最令人惊叹和印象深刻的突破之一——作为开源,它是送给世界的巨大礼物!"
MetaAI 研究部门 FAIR 首席科学家杨立昆也称:"对于那些看到 DeepSeek 表现后认为:‘中国在 AI 上超过了美国’的人:你们的解读错了。正确的理解是:‘开源模型超过了专有模型。’ DeepSeek 受益于开放研究和开源(例如 Meta 的 PyTorch 和 Llama)。他们提出了新的想法,并在其他人工作的基础上构建。由于他们的工作是公开的,所有人都可以从中受益。这就是开放研究和开源的力量。"
即便是 Meta 的创始人和 CEO 马克 · 扎克伯格似乎也想通过自己的帖子来回应 DeepSeek 的崛起。他在 Facebook 上承诺,Meta 今年发布的新版本开源 AI 模型家族 Llama 将成为"领先的最先进模型"。
扎克伯格写道:" 2025 年将是 AI 发展的关键年份。我预期 Meta AI 将成为领先的助手,为超过 10 亿人服务,Llama 4 将成为领先的最先进模型,我们将打造一个 AI 工程师,开始为我们的研发工作贡献越来越多的代码。为了支撑这一目标,Meta 正在建设一个 2GW+ 的数据中心,它的规模足以覆盖曼哈顿的大部分区域。我们将在 2025 年上线约 1GW 的计算能力,年底时将拥有超过 130 万颗 GPU。我们计划今年投资 600-650 亿美元的资本支出,同时大幅扩展我们的 AI 团队,并且我们拥有继续投资的资本。这个努力规模巨大,未来几年将推动我们的核心产品和业务,释放历史性的创新,并延续美国的技术领导地位。让我们一起努力打造!"
CNBC:中国新兴 AI 模型威胁美国主导地位
DeepSeek 的崛起引发了硅谷的恐慌,因为它发布的 AI 模型不仅能超越美国顶尖技术,且成本远低于美国同行,使用的芯片也远不如美国的高端产品强大。
这一进展让人担忧美国在人工智能领域的全球领先地位是否正在缩小,同时也质疑了大型科技公司在 AI 模型和数据中心建设上投入巨额资金的策略。
微软 CEO 萨提亚 · 纳德拉在达沃斯世界经济论坛上表示:"看到 DeepSeek 的新模型,令人印象深刻,尤其是在它们如何有效地构建开源模型,推理时的计算非常高效,计算资源使用得非常优化。我们应该非常认真地对待中国在这一领域的进展。"
Benchmark 公司的普通合伙人 Chetan Puttagunta 则表示:" DeepSeek 通过一种叫做‘蒸馏’的方法,利用一个大模型来帮助小模型在特定领域变得更智能。这实际上非常具备成本效益。"
Perplexity 公司 CEO 阿拉文 · 斯里尼瓦斯也指出:"需求是发明之母。因为 DeepSeek 必须找到解决办法,最终它们创造出了更高效的技术。"
- 上一篇:《我是刑警》不起眼的8位“女配角”,个个拥有性感“少妇身材”
- 下一篇:没有了