专家普遍认为,2024 年是“AGI 元年。这一年,大模型行业发生了翻天覆地的变化:
OpenAI 的 GPT-4 已不再望尘莫及;图像、视频生成模型的作品愈发逼真;多模态大语言模型、推理模型、智能体(agent)取得突破性进展;人类与 AI 的关心也愈发紧密了......
那么,对于一个资深业内人士而言,大模型行业在这一年中又发生了什么变化呢?
日前,知名独立程序员、社交会议目录 Lanyrd 联合创始人、Django Web 框架联合创建者 Simon Willison 在题为 Things we learned about LLMs in 2024 的文章中详细回顾了 2024 年大模型行业的变化、惊喜与不足。
部分观点如下:
- 在 2023 年,训练一个 GPT-4 级的模型是一件大事。然而,在 2024 年,这甚至不是一个特别值得一提的成就。
- 在过去一年中,我们取得了令人难以置信的训练和推理性能提升。
- 推动价格下降的因素有两个:竞争加剧和效率提高。
- 那些抱怨 LLM 进展缓慢的人,往往忽略了多模态模型的巨大进步。
- prompt 驱动的 app 生成,已经成为一种商品。
- 免费使用 SOTA 模型的日子一去不复返了。
- 智能体,仍未真正诞生。
- 为 LLM 驱动的系统编写优秀的自动评估,是在这些模型之上构建有用 app 最需要的技能。
- o1 引领扩展模型新方法:通过在推理上花费更多计算量来解决更难问题。
- 美国对中国出口 GPU 的规定似乎激发了一些非常有效的训练优化。
- 在过去几年里,运行 prompt 的能耗和对环境的影响都大大降低了。
- 人工智能生成的未经请求和未经审查的内容,即为“泔水”。
- 最大限度利用 LLM 的关键在于,学会如何使用不可靠但强大的技术。
- LLM 有真正的价值,但实现这种价值并不直观,需要指导。
在不改变原文大意的情况下,对整体内容做了精编,如下:
2024 年,大语言模型(LLM)领域发生了很多事情。以下是我们在过去 12 个月中对这一领域所发现的事情的回顾,以及我对关键主题和关键时刻的识别尝试。包括 19 个方面:
1.GPT-4 的护城河,被「突破」了
我在 2023 年 12 月的回顾中写道:“我们还不知道如何构建 GPT-4——当时,GPT-4 已经问世近一年了,但其他人工智能实验室还没有做出更好的模型。OpenAI 知道些什么,而我们其他人却不知道?
让我感到欣慰的是,在过去的 12 个月里,这种情况已经完全改变了。现在,Chatbot Arena Leaderboard 上已经有来自 18 个组织的模型排名高于 2023 年 3 月发布的原始版本 GPT-4(GPT-4-0314),这一数量达到了 70 个。
最早的挑战者是谷歌于 2024 年 2 月发布的 Gemini 1.5 Pro。除了提供 GPT-4 级别的输出外,它还为这一领域带来了几项全新功能,其中最引人注目的是 100 万(后来是 200 万)token 输入上下文长度,以及输入视频的能力。
Gemini 1.5 Pro 引发了 2024 年的关键主题之一:增加上下文长度。2023 年,大多数模型只可以接受 4096 或 8192 个 token,但 Claude 2.1 是个例外,它可接受 20 万个 token。如今,每个模型提供商都有一个接受 10 万以上 token 的模型,谷歌的 Gemini 系列可以接受多达 200 万的 token。
更长的输入,大大增加了使用 LLM 解决问题的范围:你现在可以输入一整本书并就其内容提问,但更重要的是,你可以输入大量示例代码来帮助模型正确解决编码问题。对我来说,涉及长输入的 LLM 用例要比纯粹依赖模型权重信息的简短提示词(prompt)有趣得多。我的许多工具都是采用这种模式构建的。
继续说一说「击败」GPT-4 的模型:Anthropic 的 Claude 3 系列于 3 月份推出,Claude 3 Opus 很快成为我最喜欢的模型。6 月份,他们又推出了 Claude 3.5 Sonnet——六个月后,它仍然是我的最爱。
当然,还有其他的。如果你今天浏览一下 Chatbot Arena Leaderboard,你就会发现,GPT-4-0314 已经跌至第 70 位左右。模型得分较高的 18 家机构是:谷歌、OpenAI、阿里巴巴、Anthropic、Meta、Reka AI、零一万物、亚马逊、Cohere、DeepSeek、英伟达、Mistral、NexusFlow、智谱、xAI、AI21 Labs、普林斯顿大学和腾讯。
在 2023 年,训练一个 GPT-4 级的模型是一件大事。然而,在 2024 年,这甚至不是一个特别值得一提的成就,不过每当有新的组织加入这个名单时,我个人还是会庆祝一番。
2.笔记本电脑,可以运行 GPT-4 级模型了
我的个人笔记本电脑是 2023 年的 64GB M2 MacBook Pro。它是一台功能强大的机器,但也已经用了近两年了——更重要的是,自从 2023 年 3 月我第一次在自己的电脑上运行 LLM 以来,我一直用的就是这台笔记本电脑。
2023 年 3 月,这台笔记本电脑还只能运行一个 GPT-3 级模型,现在已经能运行多个 GPT-4 级模型了!
这仍然令我感到惊讶。我以为,要实现 GPT-4 的功能和输出质量,需要一台或多台价值 4 万多美元 GPU 的数据中心级服务器。
这些模型占用了我 64GB 的内存,所以我并不经常运行它们——它们没有给其他东西留下太多空间。
它们能够运行,证明了我们在过去一年中取得了令人难以置信的训练和推理性能提升。事实证明,在模型效率方面,我们收获了很多看得见的果实。我希望未来还会有更多。
Meta 的 Llama 3.2 系列模型值得特别一提。它们可能不是 GPT-4 级,但在 1B 和 3B 大小上,它们展现出了超乎预期的效果。
3.由于竞争和效率的提高,LLM 的价格大幅下降
在过去的十二个月里,LLM 的使用成本急剧下降。
2023 年 12 月,OpenAI 对 GPT-4 收取 30 美元/百万输入 token(mTok)的费用,对当时新推出的 GPT-4 Turbo 收取 10 美元/mTok 的费用,对 GPT-3.5 Turbo 收取 1 美元/mTok 的费用。
如今,30 美元/mTok 就能买到 OpenAI 最贵的 o1 模型。GPT-4o 的价格为 2.50 美元(比 GPT-4 便宜 12 倍),GPT-4o mini 的价格为 0.15 美元/mTok——比 GPT-3.5 便宜近 7 倍,而且功能更强。
其他模型提供商的收费甚至更低。Anthropic 的 Claude 3 Haiku 的价格为 0.25 美元/mTok。谷歌的 Gemini 1.5 Flash 为 0.075 美元/mTok,Gemini 1.5 Flash 8B 为 0.0375 美元/mTok,比 2023 年时的 GPT-3.5 Turbo 便宜 27 倍。
推动价格下降的因素有两个:竞争加剧和效率提高。对于所有关注 LLM 对环境影响的人来说,提高效率非常重要。这些价格下降与运行 prompt 所消耗的能源直接相关。
关于人工智能数据中心建设对环境的影响,仍有很多问题需要担心,但对单个 prompt 的能源成本的担忧已不再可信。
我们做一个有趣的计算:如果使用谷歌最便宜的 Gemini 1.5 Flash 8B,为我个人照片库中的 68000 张照片逐一生成简短描述,需要多少钱?
每张照片需要 260 个输入 token 和大约 100 个输出 token。
260 * 68000 = 17680000 输入 token
17680000 * 0.0375 美元/million = 0.66 美元
100 * 68000 = 6800,000 输出 token
6800000 * 0.15 美元/million = 1.02 美元
处理 68000 张图片的总成本为 1.68 美元。这简直太便宜了,我甚至计算了三次,以确认我的计算是否正确。
这些描述究竟有多好?我从这条命令中得到了信息:
llm -m gemini-1.5-flash-8b-latest describe -a IMG_1825.jpeg
这是一张加州科学院的蝴蝶照片:
图片中有一个红色的浅盘,可能是蜂鸟或蝴蝶喂食器。盘子里有一片片橙色的水果片。
喂食器里有两只蝴蝶,一只是深棕色/黑色的蝴蝶,身上有白色/奶油色的斑纹。另一只是体型较大的棕色蝴蝶,身上有浅棕色、米色和黑色斑纹,包括突出的眼斑。这只较大的棕色蝴蝶似乎正在吃盘子里的水果。
260 个输入 token,92 个输出 token,成本约为 0.0024 美分(不到 1 美分的 400 分之一)。
效率提高和价格降低,是我最喜欢的 2024 年发展趋势。我希望以极低的能源成本获得 LLM 的效用,而这正是我们正在实现的目标。
4.多模态视觉已很常见,音频和视频开始「涌现」
我上面举的蝴蝶例子,也说明了 2024 年的另一个关键趋势:多模态大语言模型(MLLM)的兴起。
一年前,在 2023 年 11 月 OpenAI 的 DevDay 上发布的 GPT-4 Vision 是其中最引人注目的例子。谷歌则在 2023 年 12 月 7 日发布了多模态 Gemini 1.0。
2024 年,几乎所有模型提供商都发布了多模态模型。我们在 3 月看到了 Anthropic 的 Claude 3 系列,在 4 月看到了 Gemini 1.5 Pro(图像、音频和视频),在 9 月又看到了 Mistral 的 Pixtral 12B,以及 Meta 的 Llama 3.2 11B 和 90B 视觉模型。我们在 10 月份从 OpenAI 获得了音频输入和输出,在 11 月份从 Hugging Face 获得了 SmolVLM,在 12 月份从 Amazon Nova 获得了图像和视频模型。
我认为,那些抱怨 LLM 进展缓慢的人,往往忽略了这些多模态模型的巨大进步。能够针对图像(以及音频和视频)运行 prompt 是应用这些模型的一种令人着迷的新方法。
5.语音和实时视频模式,让科幻照进现实
特别值得一提的是,音频和实时视频模型开始出现。
与 ChatGPT 对话的功能于 2023 年 9 月首次出现,但这主要是一种假象:OpenAI 使用其出色的 Whisper 语音转文本模型和一个新的文本转语音模型(命名为 tts-1)来实现与 ChatGPT 的对话,但实际模型只能看到文本。
OpenAI 于 5 月 13 日发布的 GPT-4o 包括一个全新语音模型的演示,真正的多模态 GPT-4o(“o”代表“omni”)模型可以接受音频输入,并输出令人难以置信的逼真语音,而无需单独的 TTS 或 STT 模型。
当 ChatGPT 高级语音模式终于推出时,其效果非常惊人。我经常在带狗散步时使用这种模式,音调已经得到了很大的改善,这真是令人惊叹。在使用 OpenAI 音频 API 的过程中,我还体验到了很多乐趣。
OpenAI 并不是唯一拥有多模态音频模型的团队。谷歌的 Gemini 也接受音频输入,也可以用类似 ChatGPT 的方式说话。亚马逊也提前宣布了 Amazon Nova 的语音模式,但该模式将于 2025 年第一季度推出。
谷歌的 NotebookLM 于 9 月份发布,它将音频输出提升到了一个新的水平,两个“播客主持人”可以就你输入的任何内容进行逼真对话,后来也添加了自定义指令。
最近的新变化也是从 12 月开始的,那就是实时视频。ChatGPT 语音模式现在提供了与模型分享相机画面的选项,并可实时谈论你所看到的内容。谷歌的 Gemini 也推出了具有相同功能的预览版。
6.prompt 驱动的 app 生成,已经成为一种商品
GPT-4 在 2023 年就已经可以实现这一点,但它的价值在 2024 年才显现出来。
众所周知,LLM 在编写代码方面有着惊人的天赋。如果你可以正确地写出 prompt,它们就能使用 HTML、CSS 和 JavaScript 为你构建一个完整的交互式 app——通常只需要一次 prompt。
Anthropic 在发布 Claude Artifacts 时将这一理念推向了高潮,这是一个开创性的新功能。有了 Artifacts,Claude 可以为你编写一个按需交互式 app,然后让你直接在 Claude 界面中使用它。
这是一个提取 URLs 的 app,完全由 Claude 生成:
我经常使用它。我在 10 月份就注意到了我对它的依赖程度,我使用 Artifacts 在七天时间里创建了 14 个小工具。
从那以后,一大批其他团队也建立了类似的系统。10 月,GitHub 发布了他们的版本——GitHub Spark。11 月,Mistral Chat 将其添加为一项名为 Canvas 的功能。
来自 Val Town 的 Steve Krause 针对 Cerebras 构建了一个版本,展示了每秒 2000 个 token 的 LLM 如何迭代 app,并在不到一秒的时间内看到变化。
随后在 12 月,Chatbot Arena 团队为这项功能推出了一个全新的 leaderboard,由用户使用两种不同的模型构建相同的交互式 app 两次,并对答案进行投票。很难有比这更有说服力的论据来证明,这项功能现在已经成为一种商品,可以有效地与所有领先的模型进行竞争。
我一直在为我的 Datasette 项目琢磨这个版本,目的是让用户使用 prompt 来构建和迭代自定义小工具,并根据自己的数据进行数据可视化。我还发现了一种类似的模式,可以通过 uv 来编写一次性 Python 程序。
这种由 prompt 驱动的自定义界面功能非常强大,而且很容易构建(一旦你弄清了浏览器沙盒的复杂细节),我希望它能在 2025 年作为一项功能出现在各种产品中。
7.短短几个月,强大模型得以普及
在 2024 年短短几个月的时间里,世界上大多数国家都可以免费使用强大的模型。
OpenAI 在 5 月向所有用户免费提供 GPT-4o,而 Claude 3.5 Sonnet 则在 6 月发布后免费提供。这是一个重大变化,因为在过去的一年里,免费用户大多只能使用 GPT-3.5 级的模型,这在过去会导致新用户对 LLM 的实际能力并不清晰。
随着 OpenAI 推出 ChatGPT Pro,这个时代似乎已经结束了,很可能是永久性的。这项 200 美元/月的订阅服务是访问其最强模型 o1 Pro 的唯一途径。
o1 系列(以及毫无疑问会激发的未来模型)背后的关键是,花费更多的计算时间来获得更好的结果。因此,我认为免费使用 SOTA 模型的日子一去不复返了。
8.智能体,仍未真正诞生
我个人认为,“agent”这个词非常令人沮丧。它缺乏一个单一、明确和广为理解的含义......但使用这个术语的人似乎从来不承认这一点。
如果你告诉我你正在构建“智能体”(agent),那么你几乎没有向我传达任何信息。如果不读懂你的想法,我就无法知道你说的是几十种可能定义中的哪一种。
我看到的主要有两类人,一类人认为 agent 显然是代表你去行动的东西——旅行 agent;另一类人认为 agent 是可以获得工具的 LLM,可以循环运行作为解决问题的一部分。“autonomy”一词也经常被混在一起,但同样没有明确的定义。(几个月前,我还在推特上收集了关于 agent 的 211 个定义,并让 gemini-exp-1206 尝试对其进行总结)。
不管这个术语是什么意思,agent 仍然有一种永远“即将到来”的感觉。撇开术语不谈,我仍然对它们的实用性持怀疑态度,这是基于“轻信”(gullibility)的挑战。LLM 会相信你告诉它们的任何事情。任何试图代表你做出有意义决策的系统都会遇到同样的障碍:如果一个旅行 agent、或者一个数字助理,甚至一个研究工具都无法分辨真假,那么它还能有多大用处呢?
就在前几天,谷歌搜索被发现提供了关于不存在的电影《Encanto 2》的完全虚假的描述。
及时注入是这种轻信的自然后果。我看到 2024 年在解决这个问题上进展甚微,而我们从 2022 年 9 月就开始讨论这个问题了。
Prompt injection 攻击是这种“轻信”的自然结果。我看到 2024 年业内在解决这个问题上进展甚微,而我们从 2022 年 9 月起就一直在讨论这个问题。
我开始认为,最流行的 agent 概念将依赖于 AGI。让模型能够抵御“轻信”,确实是一个很高的要求。
9.评估,非常重要
Anthropic 的 Amanda Askell(负责 Claude’s Character 背后的大部分工作)曾说:
好的系统 prompt 背后有一个枯燥但至关重要的秘密,那就是测试驱动开发。你不是写下一个系统 prompt,然后想办法测试它。你要写下测试,然后找到能通过测试的系统 prompt。
在 2024 年的发展过程中,我们已经非常清楚地认识到,为 LLM 驱动的系统编写优秀的自动评估,是在这些模型之上构建有用 app 最需要的技能。如果你拥有强大的评估套件,你就能比竞争对手更快地采用新模型,更好地迭代,并构建更可靠、更有用的产品功能。
Vercel 的首席技术官 Malte Ubl 认为:
在 v0(一个网页开发 agent)刚问世时,我们还偏执地想用各种复杂的预处理和后处理来保护 prompt。
我们完全转向了让它自由发挥。没有评估、模型,尤其是用户体验的 prompt,就像一台坏掉的 ASML 机器没有说明书一样。
我仍然在尝试找到更好的模式来完成我自己的工作。每个人都知道评估很重要,但对于如何最好地实现评估,仍然缺乏很好的指导。
10.Apple Intelligence 很糟糕,但 MLX 却很出色
作为 Mac 用户,我现在对自己选择的平台感觉好多了。
2023 年,我感觉自己没有配备英伟达 GPU 的 Linux/Windows 机器,这对我试用新模型来说是一个巨大的劣势。
理论上,64GB 的 Mac 应该是运行模型的好机器,因为 CPU 和 GPU 可以共享相同的内存。实际上,许多模型都是以模型权重和库的形式发布的,与其他平台相比,英伟达的 CUDA 更受青睐。
llama.cpp 生态系统在这方面帮助很大,但真正的突破是苹果公司的 MLX 库,它太棒了。
苹果公司的 mlx-lm Python 支持在我的 Mac 上运行各种 mlx 兼容的模型,性能非常出色。Hugging Face 上的 mlx 社区提供了 1000 多个模型,这些模型已被转换为必要的格式。Prince Canuma 的 mlx-vlm 项目非常出色,进展迅速,也为 Apple Silicon 带来了视觉 LLM。
虽然 MLX 改变了游戏规则,但苹果公司自己的 Apple Intelligence 功能大多令人失望。我曾在 6 月份撰写过一篇关于他们最初发布的文章,当时我还乐观地认为,苹果公司已经把重点放在保护用户隐私并最大限度地减少用户被误导的 LLM app 上。
现在,这些功能已经推出,但效果还比较差。作为 LLM 的重度用户,我知道这些模型的能力,而苹果的 LLM 功能只是对前沿 LLM 功能的苍白模仿。相反,我们收到的通知摘要歪曲了新闻标题,我甚至认为写作助手工具一点用处都没有。不过,Genmoji 还是挺好玩的。
11.inference-scaling,“推理”模型的兴起
2024 年最后一个季度最有趣的进展是出现了一种新的 LLM 形态,OpenAI 的 o1 模型就是一个例子——o1-preview 和 o1-mini 于 9 月 12 日发布。思考这些模型的一种方法是思维链 prompt 技巧的延伸。
这个技巧主要在于,如果你让一个模型努力思考(talk out loud)它正在解决的问题,你通常会得到一个模型原本无法得到的结果。
o1 将这一过程进一步嵌入模型内。细节有些模糊:o1 模型花费了“推理 token”来思考问题,用户无法直接看到这些 token(尽管 ChatGPT UI 会显示一个总结),然后输出最终结果。
这里最大的创新在于,它开辟了一种扩展模型的新方法:模型现在可以通过在推理上花费更多的计算量来解决更难的问题,而不是纯粹通过在训练时增加计算量来提高模型性能。
o1 的继任者 o3 于 12 月 20 日发布,在 ARC-AGI 基准测试中取得了令人印象深刻的成绩,尽管其中可能涉及超过 100 万美元的计算时间成本!
o3 预计将于 1 月份发布。我怀疑是否有很多人的实际问题会受益于这种级别的计算支出,我当然没有!但它似乎是 LLM 架构的真正下一步,可以解决更难的问题。
OpenAI 并不是这里唯一的玩家。12 月 19 日,谷歌发布了他们在这一领域的第一个参赛者——gemini-2.0-flash-thinking-exp。
阿里巴巴的 Qwen 团队于 11 月 28 日在 Apache 2.0 许可下发布了 QwQ 模型。随后,他们于 12 月 24 日发布了名为 QvQ 的视觉推理模型。
DeepSeek 于 11 月 20 日通过聊天界面提供了 DeepSeek-R1-Lite-Preview 模型供试用。
编者注:智谱也于 2024 年最后一天发布了深度推理模型 GLM-Zero。
Anthropic 和 Meta 目前还没有任何进展,但如果他们没有自己的推理扩展模型,我会感到非常惊讶。
12.目前最好的 LLM,是在中国训练的吗?
不完全是,但差不多是!这的确是一个吸引眼球的好标题。
DeepSeek v3 是一个庞大的 685B 参数模型——是目前最大的公开授权模型之一,比 Meta 的 Llama 系列中最大的 Llama 3.1 405B 大得多。
基准测试结果显示,它与 Claude 3.5 Sonnet 不相上下。Vibe 基准测试目前将其排在第 7 位,在 Gemini 2.0 和 OpenAI 4o/o1 模型之后。这是迄今为止排名最高的公开授权模型。
真正令人印象深刻的是,DeepSeek v3 的训练成本。该模型在 2788000 个 H800 GPU 小时内进行了训练,估计成本为 5576000 美元。Llama 3.1 405B 训练了 30840000 个 GPU 小时,是 DeepSeek v3 的 11 倍,但模型的基准性能却更差一些。
美国对中国出口 GPU 的规定似乎激发了一些非常有效的训练优化。
13.运行 prompt 的环境影响,得以改善
无论是托管模型还是我在本地运行的模型,效率的提高都带来了一个可喜的结果,那就是在过去几年里,运行 prompt 的能耗和对环境的影响都大大降低了。
与 GPT-3 那时相比,OpenAI 自己的 prompt 收费低了 100 倍。我有可靠消息称,谷歌 Gemini 和 Amazon Nova(两家最便宜的模型提供商)都没有亏本运行 prompt。
这意味着,作为个人用户,我们完全不必为绝大多数 prompt 所消耗的能量感到内疚。与在街上开车,甚至在 YouTube 上观看视频相比,这种影响可能微不足道。
同样,训练也是如此。DeepSeek v3 的训练费用不到 600 万美元,这是一个非常好的迹象,表明训练成本可以而且应该继续下降。
14.新的数据中心,还有必要吗?
而更大的问题在于,这些模型未来所需的基础设施建设将面临巨大的竞争压力。
谷歌、Meta、微软和亚马逊等公司都在斥资数十亿美元建造新的数据中心,这对电网和环境造成了极大的影响。甚至还有人说要建立新的核电站,但这需要几十年的时间。
这种基础设施有必要吗?DeepSeek v3 的 600 万美元训练费用和 LLM 价格的持续降低,可能足以说明这一问题。但是,你是否愿意成为那个主张不要建立这种基础设施,却在几年后被证明是错误的大科技公司高管呢?
一个有趣的对比是,19 世纪铁路在世界各地的发展。修建这些铁路需要巨额投资,对环境造成了巨大的影响,而且许多修建的线路被证明是不必要的。
由此产生的泡沫导致了数次金融崩溃,它们给我们留下了大量有用的基础设施,也留下了大量的破产和环境破坏。
15.2024,“泔水”之年
2024 年是“泔水”(slop)一词成为艺术术语的一年。@deepfates 曾在 twitter 上写道:
就像“垃圾邮件”成为不受欢迎的电子邮件的专有名词一样,“泔水”也将作为人工智能生成的不受欢迎的内容的专有名词出现在字典中。
我在五月份写过一篇文章,把这个定义稍微扩展了一下:
“泔水”指的是人工智能生成的未经请求和未经审查的内容。
我喜欢“泔水”这个词,因为它简明扼要地概括了我们不应该使用生成式人工智能的一种方式!
16.合成训练数据,非常有效
令人惊讶的是,“模式崩溃”这一概念——即在递归生成的数据上进行训练时,人工智能模型会崩溃——似乎在公众意识中根深蒂固。
这个想法很有诱惑力:随着人工智能生成的“泔水”充斥互联网,模型本身也会退化,以自身的输出为食,最终导致不可避免的灭亡!
显然,这种情况没有发生。相反,我们看到人工智能实验室越来越多地对合成内容进行训练——通过创建人工数据,帮助引导其模型走向正确的方向。
我看到的最好的描述之一来自 Phi-4 技术报告,其中包括以下内容:
合成数据作为预训练的重要组成部分正变得越来越普遍,Phi 系列模型也一直强调合成数据的重要性。与其说合成数据是现实数据的廉价替代品,不如说合成数据与现实数据相比有几个直接优势。
结构化渐进学习。在现实数据集中,token 之间的关系往往复杂而间接。可能需要许多推理步骤才能将当前 token 与下一个 token 联系起来,这使得模型很难有效地从下一个 token 预测中学习。相比之下,语言模型生成的每个 token 都是由前面的 token 预测的,这使得模型更容易遵循由此产生的推理模式。
另一种常见的技术是使用较大的模型来帮助为较小、较便宜的模型创建训练数据,越来越多的实验室都在使用这种技巧。
DeepSeek v3 使用了 DeepSeek-R1 创建的 "推理 "数据。Meta 的 Llama 3.3 70B 微调使用了超过 2500 万个合成生成的示例。
精心设计用于 LLM 的训练数据似乎是创建这些模型的关键所在。从网络上抓取全部数据,然后不加选择地将其输入训练运行的时代,早已一去不复返了。
17.好好使用 LLM,并不容易
我一直在强调,LLM 是强大的用户工具——它们是伪装成菜刀的电锯。它们看起来简单易用——给聊天机器人输入信息能有多难?但实际上,要充分利用它们并避免它们的许多陷阱,你需要对它们有深入的理解和丰富的经验。
这个问题在 2024 年变得更加严重了。
我们已经建立了可以用人类语言与之对话的计算机系统,它可以回答你的问题,而且通常都能答对!......取决于问题的内容、提问方式,以及能否准确地反映在未记录的秘密训练集中。
如今,可用系统的数量正在激增。不同的系统有不同的工具,它们可以用来解决你的问题,比如 Python、JavaScript、网络搜索、图像生成,甚至数据库查询......所以你最好了解这些工具是什么,它们能做什么,以及如何判断 LLM 是否使用了它们。
你知道 ChatGPT 现在有两种完全不同的 Python 运行方式吗?
想要构建一个与外部 API 对话的 Claude Artifact?你最好先了解一下 CSP 和 CORS HTTP 标头。
这些模型的能力可能提高了,但大多数局限性依然存在。OpenAI 的 o1 可能终于可以(大部分)计算草莓中的“r”,但它的能力仍然受到其作为 LLM 的性质以及其运行线束对它的限制。o1 不能进行网络搜索或使用代码解释器,但 GPT-4o 可以——两者都在同一个 ChatGPT UI 中。
我们对此做了什么?没做什么。大多数用户都是“新手”。默认的 LLM 聊天 UI 就像是把全新的电脑用户扔进 Linux 终端,然后指望他们自己能搞定一切。
与此同时,终端用户对这些设备的工作原理和功能所形成的不准确的心智模型也越来越常见。我见过很多这样的例子,有人试图用 ChatGPT 的截图来赢得争论——这本来就是一个可笑的命题,因为这些模型本来就不可靠,再加上只要你给出正确的 prompt,就能让它们说出任何话。
也有一个反面:很多“老手”已经完全放弃了 LLM,因为他们不明白怎么会有人从一个有如此多缺陷的工具中获益。要想最大限度地利用 LLM,关键在于学会如何使用这种不可靠但又强大的技术。这显然不是一项显而易见的技能!
尽管有太多有用的教育内容,但我们需要做得更好,而不是把这些内容都外包给那些在推特上狂轰滥炸的人工智能骗子。
18.认知差,依然存在
现在,大多数人都听说过 ChatGPT,但又有多少人听说过 Claude?
积极关注这些问题的人与 99% 不关注这些问题的人之间,存在着巨大的知识鸿沟。
上个月,我们看到了实时界面的普及,你可以将手机相机对准某样东西,然后用声音谈论它......还可以选择让它假装成圣诞老人。大多数自我认证的人们(原文用词为“nerd”)还没试过。
考虑到这项技术对社会的持续(和潜在)影响,我认为当前这种鸿沟是不健康的。我希望看到更多的努力来改善这种状况。
19.LLM,需要更好的批评
很多人都非常讨厌有关 LLM 的东西。在我常逛的一些网站内,即使有人提出“ LLM 非常有用”,也足以引发一场大战。
我明白。人们不喜欢这项技术的理由有很多——环境影响、训练数据缺乏可靠性、不正面的应用、对人们工作的潜在影响。
LLM 绝对值得批评。我们需要对这些问题进行讨论,找到缓解这些问题的方法,帮助人们学会如何负责任地使用这些工具,使其正面应用大于负面影响。
我喜欢对这项技术持怀疑态度的人。两年多来,炒作的声音愈发多,大量的错误信息充斥其中。很多错误的决定都是在这种炒作的基础上做出的。敢于批评是一种美德。
如果我们想让有决策权的人在如何应用这些工具方面做出正确的决定,我们首先需要承认确实有好的应用,然后帮助解释如何将这些应用付诸实践,同时避免许多非实用性的陷阱。
我认为,告诉人们整个领域都是环境灾难性的剽窃机器,不断地胡编乱造,无论这代表了多少真理,都是对这些人的伤害。这里有真正的价值,但实现这种价值并不直观,需要指导。
我们这些了解这些东西的人,有责任帮助其他人弄明白。