斯坦福2025 AI报告出炉：PDF全文下载

1.3K 00

斯坦福大学以人为本人工智能研究所（HAI）发布了第八版《人工智能指数报告（2025）》。这份报告描绘了过去一年人工智能在研发、应用和投资方面显著加速的图景，同时也指出了在负责任AI实践、公众信任以及技术发展全球分布不均等方面依然面临的挑战。

AI性能突飞猛进，技术格局变化快

2025年的报告显示，AI在各种高难度基准测试中的表现持续快速提升。像MMMU、GPQA和SWE-bench这些新推出的高难度测试，AI系统搞定它们的速度比以往快得多。报告还提到，AI模型在生成高质量视频方面（比如OpenAI的SORA和谷歌的Veo 2）进步巨大，在特定编程任务上甚至能限时超越人类程序员。

技术方面，变化也很快。顶尖的闭源模型和开源模型之间的性能差距大大缩小，过去一年里，在聊天机器人竞技场（Chatbot Arena）这个平台上，差距从8.0%降到了1.7%。同样，排行榜前十名模型之间的性能差异也从11.9%缩小到5.4%，说明高质量模型越来越普及。微软的Phi-3-mini这样的小模型也表现出色，达到了以前需要大100多倍的模型才能达到的水平，这显示了算法效率的提升。

效率提升也很明显。AI模型的使用成本（推理成本）大幅下降，比如在MMLU基准上达到GPT-3.5水平的模型，使用成本自2022年底以来降低了280多倍。硬件成本每年下降约30%，能源效率每年提升约40%。但报告也提醒，复杂的逻辑推理和规划能力仍然是当前AI系统面临的主要难题。

投资热潮涌动，经济融合加深

2024年，全球对AI的企业投资达到创纪录的2523亿美元。私人投资激增44.5%，是自2021年以来首次同比增长。生成式AI尤其吸金，获得了339亿美元的私人投资，占AI总投资的20%以上。

美国在AI私人投资领域的领先优势进一步扩大，投资额达到1091亿美元，差不多是中国的12倍、英国的24倍。在生成式AI领域，美国的投资额更是超过了中国、欧盟和英国的总和。

企业采用AI的比例也大幅跃升。麦肯锡的调查数据显示，2024年有78%的企业在至少一个业务环节使用了AI，远高于2023年的55%。生成式AI的使用率更是翻了一倍多，达到71%。虽然企业开始看到AI带来的财务效益，但大多还处于初级阶段（成本节约或收入增加普遍低于10%）。研究继续证实AI能提高生产力，并且在很多情况下有助于缩小高低技能员工之间的差距。

负责任AI进展不均，挑战犹存

尽管技术飞速发展，但负责任AI（RAI）的生态系统发展并不均衡。AI相关的负面事件（根据AI事件数据库统计）在2024年急剧增加56.4%，达到历史新高的233起。然而，针对大模型的负责任AI评估标准仍然缺乏统一，尽管像HELM Safety和AIR-Bench这样的新基准正在出现。

根据基础模型透明度指数，模型开发的透明度有所改善（平均分从2023年10月的37%提高到2024年5月的58%），但仍有很大的提升空间。企业虽然意识到了像数据不准确、网络安全这样的RAI风险，但报告指出，从意识到风险到采取实际的缓解措施之间仍有很大差距。

公众信任也面临挑战。全球范围内，人们对AI公司保护个人数据的信心有所下降，同时，认为AI系统没有偏见或歧视的人也比去年更少了。研究还发现，即使是那些明确设计为无偏见的模型，仍然会表现出潜在的社会偏见。此外，“数据共享”资源正在萎缩，因为越来越多的网站开始限制AI训练的数据抓取，这可能影响未来模型的多元性和能力。

地缘政治、治理与全球情绪

在地缘政治方面，美国在2024年仍然是产出最多顶尖AI模型的国家（40个），远超中国（15个）和欧洲（3个）。但报告强调，中国模型在主要基准测试上的性能差距已迅速缩小，到2024年底几乎与美国模型持平。中国在AI论文发表总量和专利数量上领先，而美国机构则贡献了最多的高被引研究。

全球各国政府都在加紧布局AI，不仅有大规模的投资计划（如加拿大、中国、法国、印度、沙特阿拉伯），监管活动也日益频繁。报告显示，全球75个国家的立法议程中提及AI的次数增加了21.3%，而美国的联邦AI相关法规数量在2024年比2023年翻了一倍多。美国各州也非常活跃，尤其是在规范深度伪造（deepfake）技术方面。国际合作也在加强，OECD、欧盟、联合国、非盟等组织发布了负责任AI框架，国际AI安全研究所网络也已建立。

公众情绪方面，全球范围内呈现出谨慎乐观的趋势，尤其是在德国、法国等以前比较怀疑的国家。但地区差异依然巨大，中国、印尼等国的大多数人对AI非常看好，而加拿大、美国、荷兰等国民众的乐观情绪则低得多。

AI在科学和日常生活中的角色日益重要

报告突显了AI正日益融入我们的日常生活，并对科学领域产生变革性影响。2023年，美国食品药品监督管理局（FDA）批准了223款AI赋能的医疗设备，相比2015年的仅6款，增幅巨大。自动驾驶汽车也走出了试验阶段，Waymo在美国多个城市广泛运营，百度的Apollo Go也在中国快速扩张。

AI对科学的深刻影响得到了诺贝尔奖的认可：物理学奖和化学奖分别颁给了与深度学习及蛋白质折叠（AlphaFold）相关的成果，图灵奖则授予了强化学习领域的奠基人。AI持续驱动科学发现，蛋白质测序模型（如ESM3, AlphaFold 3）不断进步，基础模型也开始应用于医学领域。

总而言之，斯坦福2025 AI指数报告描绘了一个高速发展的AI领域：它带来了实实在在的好处，吸引了前所未有的投资，但同时也面临着深刻的伦理问题、治理挑战，以及建立更广泛公众信任和确保公平发展的迫切需求。