点评:
1. 抹黑中国AI发展,渲染“中国威胁论”
文章作者站在美国立场,刻意渲染 DeepSeek 等中国AI企业的技术进步对美国的所谓“威胁”,并将其与所谓的“XXX威胁”强行关联,这种论调充斥着冷战思维和意识形态偏见。
- 作者承认 DeepSeek 的创新和效率,但话锋一转,将其成功归因于“受制于一个侵犯XX的XXXX”,这种无端指责完全无视中国AI企业依靠自身努力和市场化机制取得成功的客观事实。
- 作者以“防止中国获得XX优势”为借口,为美国实施芯片出口管制政策辩护,却对自身利用技术优势打压竞争对手的行为避而不谈,这种双重标准暴露无遗。
2. 维护美国科技霸权,企图遏制中国AI发展
文章的核心目的是维护美国在AI领域的全球主导地位,并试图通过以下方式实现:
- 夸大出口管制的作用: 作者声称出口管制是“防止中国获得数百万芯片的唯一途径”,并将其视为决定未来世界格局的关键因素。这种说法忽视了全球产业链的复杂性和中国自身的技术进步。
- 事实上,中国正在加大芯片研发投入,并已取得显著进展。美国的出口管制虽然对中国AI发展造成一定影响,但无法阻止中国AI技术的持续进步。
- 鼓吹“技术脱钩”: 作者暗示美国应继续加强对华技术封锁,甚至暗示美国应利用AI技术优势建立“持久优势”,这无疑是在鼓吹“技术脱钩”,与全球化趋势背道而驰。
- 这种做法不仅损害中国利益,也将损害美国自身利益,并阻碍全球科技进步和经济发展。
3. 忽视AI发展的本质,误导公众认知
文章对AI发展的理解存在偏差,过度强调“扩展定律”和“规模效应”,而忽视了以下重要因素:
- AI发展的多极化趋势: AI技术发展并非只有美国一条路径,中国、欧洲等国家和地区都在积极探索AI发展道路,并取得了各自的优势。
- AI伦理与安全: AI发展带来的伦理和安全问题需要全球合作共同应对,而不是通过单边主义和技术封锁来解决。
- AI对人类社会的影响: AI技术最终应服务于人类社会的发展和进步,而不是成为大国博弈的工具。
4. 呼吁理性看待中美AI竞争,推动全球合作
面对AI发展的机遇与挑战,中美两国应:
- 摒弃零和博弈思维: 中美在AI领域并非只有竞争关系,更应加强合作,共同推动全球AI技术进步和产业发展。
- 加强沟通与对话: 双方应就AI发展中的关键问题进行深入交流,增进理解,避免误解和误判。
- 共同制定AI治理规则: 中美应与其他国家一道,推动建立公平、公正、包容的全球AI治理体系,确保AI技术造福全人类。
快速阅读
1. DeepSeek 的技术进展与成本优势
- 性能接近美国前沿 AI 模型: DeepSeek 发布的模型(尤其是 DeepSeek-V3)在某些重要任务上接近美国最先进模型的性能,例如编码、数学竞赛和推理任务【原文第二部分“DeepSeek 的模型”】。
- 成本显著降低: DeepSeek 的模型训练成本远低于美国公司。例如,DeepSeek-V3 的训练成本约为 600 万美元,而 Anthropic 的 Claude 3.5 Sonnet 训练成本为数千万美元【原文第二部分“DeepSeek 的模型”】。
- 并非“颠覆性”突破: 作者认为 DeepSeek 的成就并非“独特的突破”,而是处于 AI 成本下降的预期曲线之内【原文第二部分“DeepSeek 的模型”】。
2. AI 发展的三大动态
- 扩展定律: AI 系统的训练规模扩大,认知任务的表现会平滑提升。例如,模型规模从 100 万美元增加到 1 亿美元,任务解决率从 20% 提升到 60%【原文第一部分“三大动态”】。
- 曲线转移: 通过改进模型架构、提高硬件效率等方式,可以降低训练成本。例如,Claude 3.5 Sonnet 的 API 价格比 GPT-4 低约 10 倍【原文第一部分“三大动态”】。
- 范式转移: 新的训练方法(如强化学习)被引入 AI 训练过程。例如,Anthropic、DeepSeek 等公司正在探索使用强化学习来训练模型,以提高推理能力【原文第一部分“三大动态”】。
3. DeepSeek 与美国 AI 公司的资源对比
- 芯片数量: DeepSeek 拥有约 50,000 个 Hopper 代芯片(包括 H100、H800 和 H20),与美国主要 AI 公司拥有的芯片数量相差约 2-3 倍【原文第二部分“DeepSeek 的模型”】。
- 资金投入: DeepSeek 和美国 AI 公司在资金投入上并没有太大差距,都投入了大量资金用于 AI 研发【原文第二部分“DeepSeek 的模型”】。
4. 美国对华芯片出口管制
- 管制措施: 美国已实施多轮对华芯片出口管制措施,例如禁止向中国出口 H100 芯片,并限制 H800 芯片的出口【原文第二部分“DeepSeek 的模型”】。
- 管制效果: 作者认为出口管制措施是有效的,DeepSeek 使用的芯片大部分是未被禁止的或是在禁令之前运出的【原文第二部分“DeepSeek 的模型”】。
- 未来展望: 作者认为严格的出口管制是阻止中国获得数百万芯片的关键,并认为这将决定未来世界格局是单极还是两极【原文第二部分“出口管制”】。
5. 对 AI 发展的地缘政治影响
- 中美 AI 竞争: 作者认为 AI 发展将导致中美之间的竞争加剧,并可能形成“数据中心里的天才国家”的两极格局【原文第二部分“出口管制”】。
- 美国优势: 作者认为美国应利用 AI 技术优势建立持久优势,以防止中国在 AI 领域取得主导地位【原文第二部分“出口管制”】。
6. 对 AI 发展的其他看法
- AI 成本与价值: AI 模型的训练成本虽然随着技术进步而下降,但 AI 模型的智能水平提升带来的经济价值更高,导致公司愿意投入更多资金【原文第一部分“三大动态”】。
- AI 发展的不确定性: 作者承认 AI 发展存在不确定性,例如 AI 系统可以帮助制造更智能的 AI 系统,这可能导致暂时的领先转化为持久的优势【原文第二部分“出口管制”】。
批判阅读 Anthropic CEO 发表的:《关于DeepSeek与出口管制》全文
几周前,我撰文主张美国应加强对中国芯片出口的管制。自那时起,一家名为DeepSeek的中国人工智能公司已经——至少在某些方面——接近美国前沿人工智能模型的性能,同时成本更低。
在这里,我不会关注DeepSeek是否对美国人工智能公司如Anthropic构成威胁(尽管我确实认为关于他们对美国人工智能领导地位的威胁的说法被严重夸大了)。相反,我将关注DeepSeek的发布是否削弱了芯片出口管制政策的理由。我认为并非如此。实际上,我认为它们使得出口管制政策比一周前更加至关重要。
出口管制有一个至关重要的目的:保持民主国家在人工智能发展中的领先地位。明确地说,它们不是一种躲避美国与中国之间竞争的方式。最终,如果我们要取得胜利,美国和其他民主国家的人工智能公司必须拥有比中国更好的模型。但在我们没有必要的时候,我们不应该把技术优势交给中国XXX。
人工智能发展的三大动态
在我提出政策论点之前,我将描述人工智能系统的三个基本动态,这些动态至关重要:
- 扩展定律。 人工智能的一个特性——我与我的联合创始人在OpenAI工作时是最早记录这一特性的人之一——是,在其他条件相同的情况下,扩大人工智能系统的训练规模会在一系列认知任务上带来平稳的更好结果。例如,一个价值100万美元的模型可能解决20%的重要编码任务,一个价值1000万美元的模型可能解决40%,一个价值1亿美元的模型可能解决60%,以此类推。这些差异在实践中往往有巨大的影响——另一个数量级的提升可能对应于从本科生到博士技能水平的差异——因此公司在训练这些模型上投入了大量资金。
- 曲线转移。 该领域不断提出大大小小的想法,使事情变得更有效或更高效:它可能是对模型架构的改进(对当今所有模型使用的Transformer架构的调整),或者只是以更高效的方式在底层硬件上运行模型。新一代硬件也有同样的效果。这通常会转移曲线:如果创新是一个2倍的“计算乘数”(CM),那么它允许你在一个编码任务上花费500万美元而不是1000万美元达到40%;或者花费5000万美元而不是1亿美元达到60%,等等。每一家前沿人工智能公司都经常发现许多这样的CM:通常是小的(约1.2倍),有时是中等大小的(约2倍),偶尔是非常大的(约10倍)。因为拥有一个更智能系统的价值如此之高,这种曲线的转移通常导致公司花费更多,而不是更少,来训练模型:成本效率的提升最终完全用于训练更智能的模型,仅受公司财务资源的限制。人们自然会被“首先某物是昂贵的,然后它会变得更便宜”的想法所吸引——就好像人工智能是一个恒定质量的东西,当它变得更便宜时,我们将使用更少的芯片来训练它。但重要的是扩展曲线:当它转移时,我们只是更快地遍历它,因为曲线末端的价值如此之高。在2020年,我的团队发表了一篇论文,表明由于算法进步,曲线转移的速度约为每年1.68倍。自那时起,这可能已经显著加快;它也没有考虑到效率和硬件。我猜今天这个数字可能是每年约4倍。另一个估计是这里。训练曲线的转移也转移了推理曲线,因此多年来在保持模型质量不变的情况下,价格的大幅下降一直在发生。例如,Claude 3.5 Sonnet比原始的GPT-4晚发布15个月,在几乎所有基准测试中得分都超过GPT-4,同时API价格降低了约10倍。
- 范式转移。 每隔一段时间,被扩展的底层事物会发生一些变化,或者在训练过程中添加了一种新的扩展类型。从2020年到2023年,主要被扩展的是预训练模型:在不断增加的互联网文本上进行训练的模型,再加上一点点其他的训练。2024年,使用强化学习(RL)来训练模型以生成思维链已成为扩展的新焦点。Anthropic、DeepSeek和许多其他公司(或许最值得注意的是OpenAI在9月份发布了他们的o1-preview模型)都发现,这种训练极大地提高了在某些特定的、可客观测量的任务(如数学、编码竞赛以及与这些任务相似的推理)上的性能。这种新的范式涉及从普通的预训练模型开始,然后作为第二阶段使用RL来添加推理技能。重要的是,因为这种类型的RL是新的,我们仍然处于扩展曲线的非常早期阶段:在所有参与者中,第二阶段RL阶段的支出都很小。花100万美元而不是10万美元足以获得巨大的收益。公司现在正在非常快速地努力将第二阶段扩展到数亿甚至数十亿美元,但至关重要的是要理解我们处于一个独特的“交叉点”,在这里有一个强大的新范式处于扩展曲线的早期阶段,因此可以迅速取得巨大收益。
DeepSeek的模型
上述三个动态可以帮助我们理解DeepSeek最近的发布。大约一个月前,DeepSeek发布了一个名为“DeepSeek-V3”的模型,这是一个纯粹的预训练模型——如上所述的第一阶段。然后上周,他们发布了“DeepSeek-R1”,增加了第二阶段。从外部无法确定这些模型的所有细节,但以下是我对这两个发布的最佳理解。
DeepSeek-V3实际上是真正的创新,并且应该在一个月前就引起人们的注意(我们当然注意到了)。作为一个预训练模型,它似乎在某些重要任务上接近美国最先进模型的性能,同时训练成本大大降低(尽管,我们发现Claude 3.5 Sonnet在某些其他关键任务上,如现实世界的编码,仍然要好得多)。DeepSeek团队通过一些真正令人印象深刻的创新实现了这一点,主要集中在工程效率上。在管理一个名为“键值缓存”的方面以及在推动一种称为“专家混合”的方法方面都有特别创新的改进。
然而,重要的是要仔细观察:
- DeepSeek并没有“用600万美元完成美国人工智能公司数十亿美元才能完成的事情”。我只能代表Anthropic发言,但Claude 3.5 Sonnet是一个中型模型,训练成本为数千万美元(我不会给出确切的数字)。此外,3.5 Sonnet的训练并没有以任何方式涉及一个更大或更昂贵的模型(与一些谣言相反)。Sonnet的训练是在9-12个月前进行的,而DeepSeek的模型是在11月/12月训练的,而Sonnet在许多内部和外部评估中仍然明显领先。因此,我认为一个公平的说法是“DeepSeek生产了一个与美国模型7-10个月前的性能相近的模型,成本要低得多(但远没有人们所暗示的比例)”。
- 如果成本曲线下降的历史趋势是每年约4倍,这意味着在正常的商业活动中——在2023年和2024年发生的正常的历史成本下降趋势中——我们预计现在会有一个比3.5 Sonnet/GPT-4o便宜3-4倍的模型。由于DeepSeek-V3比那些美国前沿模型差——让我们在扩展曲线上说大约差2倍,我认为这对DeepSeek-V3已经相当慷慨了——这意味着如果DeepSeek-V3的训练成本比一年前开发的当前美国模型少约8倍,那将是完全正常的,完全“符合趋势”的。我不会给出具体的数字,但从前一个要点中可以清楚地看出,即使你按表面价值接受DeepSeek的训练成本,他们最多也就是符合趋势,可能甚至还不到。例如,这比原始GPT-4到Claude 3.5 Sonnet的推理价格差异(10倍)要平缓,而3.5 Sonnet是一个比GPT-4更好的模型。**所有这些都表明,DeepSeek-V3并不是一个独特的突破,也没有从根本上改变LLM的经济性;它是一个持续成本降低曲线上的预期点。不同的是,这一次首先展示预期成本降低的是一家中国公司。**这从未发生过,并且具有重要的地缘政治意义。然而,美国公司很快就会跟上——他们不会通过复制DeepSeek来做到这一点,而是因为他们也在实现通常的成本降低趋势。
- DeepSeek和美国人工智能公司都比以前拥有更多的资金和更多的芯片。额外的芯片被用于研发,以开发模型背后的想法,有时也用于训练尚未准备好(或需要多次尝试才能正确的)更大的模型。有报道称——我们不能确定这是真的——DeepSeek实际上拥有50,000个Hopper代芯片,我猜这与主要美国人工智能公司拥有的数量相差约2-3倍(例如,它比xAI的“Colossus”集群少2-3倍)。这50,000个Hopper芯片的成本约为10亿美元。因此,DeepSeek作为一个公司的总支出(与训练单个模型的支出不同)与美国人工智能实验室的支出并没有太大差别。
- 值得注意的是,“扩展曲线”分析有点过于简化,因为模型有些不同,具有不同的优势和劣势;扩展曲线数字是一个粗略的平均值,忽略了很多细节。我只能谈论Anthropic的模型,但正如我上面所暗示的,Claude在编码和与人的互动方式上有很好的设计(许多人用它来寻求个人建议或支持)。在这些和一些额外的任务上,与DeepSeek根本没有可比性。这些因素在扩展数字中并没有出现。
R1,这是上周发布的模型,引发了公众的广泛关注(包括英伟达股价下跌约17%),从创新或工程角度来看,远不如V3有趣。它增加了第二阶段的训练——强化学习,如上一节第3点所述——并基本上复制了OpenAI对o1所做的(它们似乎在相似的规模上取得了相似的成果)^8^。然而,因为我们处于扩展曲线的前期阶段,只要它们从强大的预训练模型开始,就可能有几家公司生产这种类型的模型。鉴于V3生产R1可能非常便宜。因此,我们正处于一个有趣的“交叉点”,暂时有几家公司在生产好的推理模型。随着所有公司在这类模型上进一步扩展曲线,这种情况将迅速停止。
出口管制
所有这些只是我主要兴趣话题的前奏:对中国的芯片出口管制。鉴于上述事实,我对该情况的看法如下:
- 有一个持续的趋势,即公司花费越来越多来训练强大的人工智能模型,即使曲线定期转移,训练给定水平模型智能的成本迅速下降。只是训练更智能模型的经济价值如此之大,以至于任何成本收益几乎立刻被完全抵消——它们被重新投入到以我们最初计划花费的同样巨大的成本来制造更智能的模型上。由于美国实验室尚未发现它们,DeepSeek开发的效率创新很快就会被美国和中国的实验室应用到训练价值数十亿美元的模型上。这些模型将比他们之前计划训练的数十亿美元模型表现得更好——但他们仍然会花费数十亿美元。这个数字将继续上升,直到我们达到人工智能在几乎所有事情上都比几乎所有人类更智能。
- 制造在几乎所有事情上都比几乎所有人类更智能的人工智能将需要数百万个芯片,至少需要数百亿美元,并且最有可能在2026-2027年发生。DeepSeek的发布并没有改变这一点,因为它们大致符合这些计算中一直考虑的成本降低曲线。
- 这意味着在2026-2027年,我们可能会生活在两个截然不同的世界。在美国,多家公司肯定会有所需的数百万个芯片(代价是数百亿美元)。问题是,中国是否也能获得数百万个芯片。
- 如果他们能,我们将生活在一个两极世界,美国和中国都有强大的人工智能模型,这将导致科学和技术的极其快速的进步——我称之为“数据中心里的天才国家”。两极世界并不一定永远平衡。即使美国和中国的AI系统处于对等状态,中国可能会将更多的人才、资本和注意力投入到技术的军事应用中。结合其庞大的工业基础和军事战略优势,这可能有助于中国在全球舞台上取得主导地位,不仅是在AI方面,而是在所有方面。
- 如果中国不能获得数百万个芯片,我们将(至少暂时地)生活在一个单极世界,只有美国及其盟友拥有这些模型。目前尚不清楚单极世界会持续多久,但至少有这种可能性,因为AI系统最终可以帮助制造更智能的AI系统,一个暂时的领先可以转化为持久的优势。因此,在这个世界上,美国及其盟友可能会在全球舞台上取得主导和持久的领先。
- 严格执行出口管制是唯一可以阻止中国获得数百万个芯片的因素,因此是决定我们最终生活在单极还是两极世界的最重要因素。
- DeepSeek的性能并不意味着出口管制失败了。正如我上面所说的,DeepSeek拥有中等至大量的芯片,因此他们能够开发和训练一个强大的模型并不奇怪。他们并没有比美国AI公司受到更多的资源限制,出口管制并不是导致他们“创新”的主要因素。他们只是非常有才华的工程师,并显示了为什么中国是美国的一个严重竞争对手。
- DeepSeek也没有表明中国总是能够通过走私获得所需的芯片,或者管制总是有漏洞。我不相信出口管制曾经被设计用来阻止中国获得几万个芯片。10亿美元的经济活动可以隐藏,但要隐藏1000亿甚至100亿美元是很难的。100万个芯片也可能很难走私。同样,有启发性的是看看DeepSeek目前报告拥有的芯片。根据SemiAnalysis的说法,这是一个H100、H800和H20的混合体,总数达到50,000个。H100自发布以来就受到出口管制的禁止,所以如果DeepSeek有任何,他们必须是通过走私获得的(注意,NVIDIA已经声明DeepSeek的进展是“完全符合出口管制合规的”)。H800在2022年出口管制的第一轮中是被允许的,但在2023年10月更新管制时被禁止,所以这些可能是在禁令之前运出的。H20对训练效率较低,对采样效率较高——但仍然被允许,虽然我认为应该禁止。所有这些都表明,DeepSeek的AI芯片舰队的大部分由未被禁止的芯片(但应该被禁止);在禁止之前运出的芯片;以及一些似乎非常可能是走私的芯片组成。这表明出口管制实际上是在工作并且正在适应:漏洞正在被关闭;否则,他们可能有一个完整的顶级H100舰队。如果我们可以足够快地关闭它们,我们可能能够阻止中国获得数百万个芯片,增加美国领先的单极世界的可能性。
鉴于我对出口管制和美国国家安全的关注,我想明确一点。我不认为DeepSeek本身是对手,重点也不是特别针对他们。在他们所做的采访中,他们看起来像是聪明、好奇的研究人员,只是想制造有用的技术。
但他们受制于一个侵犯XX的XXXX,在世界舞台上采取了侵略性行为,如果他们能够在AI领域与美国匹敌,他们将在这些行为上更加不受约束。出口管制是我们最强大的工具之一来防止这种情况,而认为技术变得更强大,性价比更高,是一个理由来解除我们的出口管制,这是完全没有道理的。