Os especialistas geralmente concordam que 2024 é o ano da AGI. Esse é o ano em que o grande setor de modelagem mudará para sempre:
O GPT-4 da OpenAI não está mais fora de alcance; o trabalho em modelos de geração de imagens e vídeos está se tornando cada vez mais realista; foram feitos avanços em modelos multimodais de linguagem ampla, modelos de inferência e inteligências (agentes); e os seres humanos estão se preocupando cada vez mais com a IA ......
Então, para um especialista experiente do setor, como o setor de modelos grandes mudou ao longo do ano?
Há alguns dias, o renomado programador independente, cofundador do diretório de conferências sociais Lanyrd e cocriador da estrutura da Web Django Simon Willison no relatório intitulado O que aprendemos sobre os LLMs em 2024 O artigo analisa em detalhes os Mudanças, surpresas e deficiências no setor de modelos grandes em 2024.
Alguns dos pontos são apresentados a seguir:
- Em 2023, treinar um modelo classificado como GPT-4 é uma grande coisa. No entanto, em 2024, essa não é uma conquista particularmente digna de nota.
- No último ano, obtivemos ganhos incríveis de desempenho em treinamento e inferência.
- Há dois fatores que estão fazendo os preços caírem: aumento da concorrência e ganhos de eficiência.
- Aqueles que reclamam do progresso lento do LLM tendem a ignorar os grandes avanços na modelagem multimodal.
- A geração de aplicativos orientados por prompt tornou-se uma commodity.
- Já se foram os dias de acesso gratuito aos modelos SOTA.
- Intelligentsia, ainda não nasceu de fato.
- Escrever boas avaliações automatizadas para sistemas orientados por LLM é a habilidade mais necessária para criar aplicativos úteis com base nesses modelos.
- o1 Principais novas abordagens para modelos estendidos: resolver problemas mais difíceis gastando mais computação em inferência.
- As regulamentações dos EUA sobre as exportações de GPUs chinesas parecem ter inspirado algumas otimizações de treinamento muito eficazes.
- Nos últimos anos, o consumo de energia e o impacto ambiental do funcionamento de um prompt foram significativamente reduzidos.
- Conteúdo não solicitado e sem censura gerado por inteligência artificial é "lixo".
- O segredo para tirar o máximo proveito do LLM é aprender a usar técnicas não confiáveis, mas poderosas.
- O LLM tem valor real, mas perceber esse valor não é intuitivo e requer orientação.
Sem alterar a essência geral do texto original, o conteúdo geral foi condensado da seguinte forma:
Muita coisa está acontecendo no campo da Modelagem de Linguagem Grande (LLM) em 2024. Aqui está uma retrospectiva do que descobrimos sobre o campo nos últimos 12 meses, juntamente com minhas tentativas de identificar os principais temas e momentos importantes. Incluindo 19 Aspectos:
1. o fosso do GPT-4 foi "violado".
Em minha avaliação de dezembro de 2023, escrevi: "Ainda não sabemos como construir o GPT-4.-- Na época, o GPT-4 havia sido lançado há quase um ano, mas outros laboratórios de IA ainda não haviam criado um modelo melhor.
Para meu alívio, isso mudou completamente nos últimos 12 meses. A tabela de classificação do Chatbot Arena agora temModelos de 18 organizaçõesClassificado como superior à versão original do GPT-4 (GPT-4-0314) lançada em março de 2023, esse número chega a 70
O primeiro concorrente foi o lançamento do Google em fevereiro de 2024 do Gêmeos 1.5 Pro. Além de oferecer saída de nível GPT-4, ele traz vários novos recursos para o campo, entre eles oO mais notável é o comprimento do contexto de entrada de 1 milhão (posteriormente 2 milhões) de tokens e a capacidade de inserir vídeo.
O Gemini 1.5 Pro aciona um dos principais temas de 2024: aumentar a duração do contexto.Em 2023, a maioria dos modelos só poderá aceitar 4096 ou 8192 tokensJamahiriya Árabe Líbia Claude A exceção é o 2.1, que aceita 200.000 tokens. Atualmente, todos os provedores de modelos têm um modelo que aceita mais de 100.000 tokens. token modelo, a série Gemini do Google pode aceitar até 2 milhões de tokens.
Entradas mais longas aumentam muito a gama de problemas que podem ser resolvidos com o LLM: agora você pode digitar um livro inteiro e fazer perguntas sobre seu conteúdo, mas, mais importante, pode digitar uma grande quantidade de código de amostra para ajudar o modelo a resolver o problema de codificação corretamente. Para mim, os casos de uso de LLM que envolvem entradas longas são muito mais interessantes do que os prompts curtos que dependem puramente de informações sobre pesos de modelos. Muitas das minhas ferramentas são criadas usando esse modelo.
Passando para os modelos que "venceram" o GPT-4: a série Claude 3 da Anthropic foi lançada em março, e o Claude 3 Opus rapidamente se tornou meu modelo favorito. Em junho, eles lançaram o Claude 3.5 Sonnet e, seis meses depois, ele ainda é o meu favorito! Seis meses depois, ele ainda é o meu favorito.
É claro que há outros. Se você navegar pela tabela de classificação da Chatbot Arena hoje, verá que oGPT-4-0314 caiu para o 70º lugar.. As 18 organizações com altas pontuações de modelo são Google, OpenAI, Alibaba, Anthropic, Meta, Reka AI, Zero One Thing, Amazon, Cohere, DeepSeek, NVIDIA, Mistral, NexusFlow, Smart Spectrum, xAI, AI21 Labs, Princeton University e Tencent.
Treinar um modelo de nível GPT-4 em 2023 é uma grande coisa. No entanto, oEm 2024, essa não é nem mesmo uma conquista particularmente digna de notaMas eu, pessoalmente, ainda comemoro cada vez que uma nova organização entra na lista.
2. laptop, pronto para executar modelos de nível GPT-4
Meu laptop pessoal é um MacBook Pro 2023 M2 de 64 GB. É uma máquina potente, mas também tem quase dois anos de idade e, o que é mais importante, é o mesmo laptop que uso desde março de 2023, quando executei o LLM pela primeira vez em meu próprio computador.
Em março de 2023, esse laptop ainda será capaz de executar apenas um modelo de nível GPT-3O modelo GPT-4 agora é capaz de executar vários modelos de nível GPT-4!
Isso ainda me surpreende. Pensei que seria necessário um ou mais servidores de nível de datacenter com GPUs de mais de US$ 40.000 para alcançar a funcionalidade e a qualidade de saída do GPT-4.
Os modelos ocupam 64 GB de minha memória, portanto, não os executo com muita frequência, pois eles não deixam muito espaço para outras coisas.
O fato de eles funcionarem é uma prova dos incríveis ganhos de desempenho em treinamento e inferência que obtivemos no ano passado. Como se vê, colhemos muitos frutos visíveis em termos de eficiência do modelo. Espero que haja mais no futuro.
A série de modelos Llama 3.2 da Meta merece uma menção especial. Eles podem não ter a classificação GPT-4, mas nos tamanhos 1B e 3B, apresentam resultados que superam as expectativas.
3. os preços do LLM caíram significativamente devido à concorrência e aos ganhos de eficiência
Nos últimos doze meses, o custo de usar o LLM caiu drasticamente.
Dezembro de 2023, a OpenAI cobra US$ 30/milhão de tokens de entrada para o GPT-4(mTok) custosAlém disso, foi cobrada uma taxa de US$ 10/mTok para o então recém-introduzido GPT-4 Turbo e US$ 1/mTok para o GPT-3.5 Turbo.
Hoje, o modelo o1 mais caro da OpenAI está disponível por US$ 30/mTok!O GPT-4o custa US$ 2,50 (12 vezes mais barato que o GPT-4), e o GPT-4o mini custa US$ 0,15/mTok - quase sete vezes mais barato que o GPT-3.5 e mais potente.
Outros fornecedores de modelos cobram ainda menos, com o Claude 3 Haiku da Anthropic a US$ 0,25/mTok, o Gemini 1.5 Flash do Google a US$ 0,075/mTok e o Gemini 1.5 Flash 8B a US$ 0,0375/mTok, 27 vezes mais barato que o GPT-3.5 Turbo em 2023. Turbo em 2023.
Há dois fatores que estão fazendo os preços caírem: aumento da concorrência e ganhos de eficiência. As melhorias de eficiência são importantes para todos os que se preocupam com o impacto ambiental do LLM. Essas reduções de preço estão diretamente relacionadas à energia consumida para operar o equipamento.
Ainda há muito com que se preocupar em relação ao impacto ambiental da construção de data centers com IA, mas as preocupações com os custos de energia de prompts individuais não são mais confiáveis.
Vamos fazer um cálculo interessante: quanto custaria gerar descrições curtas para cada uma das 68.000 fotos em minha biblioteca pessoal de fotos usando o Gemini 1.5 Flash 8B mais barato do Google?
Cada foto requer 260 tokens de entrada e cerca de 100 tokens de saída.
260 * 68000 = 17680000 Digite o token
17680000 * $0,0375/milhão = $0,66
100 * 68000 = 6800.000 Token de saída
6800000 * US$ 0,15/milhão = US$ 1,02
O custo total para processar 68.000 imagens é de US$ 1,68. Foi tão barato que até fiz as contas três vezes para ter certeza de que estava certo.
Qual é a qualidade dessas descrições? Obtive as informações deste comando:
llm -m gemini-1.5-flash-8b-latest describe -a IMG_1825.jpeg
Esta é uma foto de uma borboleta da Academia de Ciências da Califórnia:
Há um prato raso vermelho na foto que pode ser um alimentador de beija-flor ou borboleta. O prato tem uma fatia de fruta laranja.
Há duas borboletas no comedouro, uma delas é marrom-escura/preta com marcas brancas/creme. A outra era uma borboleta marrom maior com marcas marrom-claro, bege e preto, incluindo manchas proeminentes nos olhos. Essa borboleta marrom maior parece estar comendo frutas de um prato.
260 tokens de entrada, 92 tokens de saída, a um custo de cerca de 0,0024 centavos (menos de 400 de um centavo).
O aumento da eficiência e os preços mais baixos são minhas tendências favoritas para 2024.Quero a utilidade do LLM com uma fração do custo de energia, e é exatamente isso que estamos conseguindo.
4. a visão multimodal se tornou comum, o áudio e o vídeo estão começando a "emergir
Meu exemplo de borboleta acima também ilustra outra tendência importante para 2024: o surgimento do MLLM (Multimodal Large Language Model).
O GPT-4 Vision, lançado há um ano no DevDay da OpenAI em novembro de 2023, é o exemplo mais notável disso. O Google, por outro lado, lançou o Gemini 1.0 multimodal em 7 de dezembro de 2023.
Em 2024, quase todos os fornecedores de modelos lançaram modelos multimodais.Vimos a série Claude 3 da Anthropic em março, o Gemini 1.5 Pro (imagem, áudio e vídeo) em abril e novamente em setembro. Mistral e os modelos visuais Llama 3.2 11B e 90B da Meta. Obtivemos entradas e saídas de áudio da OpenAI em outubro, SmolVLM da Hugging Face em novembro e modelos de imagem e vídeo da Amazon Nova em dezembro.
Acho que sim.Aqueles que reclamam do progresso lento dos LLMs tendem a ignorar os grandes avanços desses modelos multimodais. A capacidade de executar prompts em imagens (bem como em áudio e vídeo) é uma nova e fascinante maneira de aplicar esses modelos.
5. modos de voz e vídeo em tempo real para trazer a ficção científica para a realidade
Os modelos de áudio e vídeo em tempo real estão começando a surgir.
junto com ChatGPT A capacidade de manter um diálogo aparece pela primeira vez em setembro de 2023, mas isso é em grande parte uma ilusão: a OpenAI usa seu excelente modelo de fala para texto Whisper e um novo modelo de texto para fala (chamado tts-1) para permitir o diálogo com o ChatGPT, mas o modelo real só pode ver texto.
O GPT-4o da OpenAI, lançado em 13 de maio, inclui uma demonstração de um novo modelo de fala, o modelo GPT-4o ("o" significa "omni") verdadeiramente multimodal, que pode receber entrada de áudio e produzir uma fala incrivelmente e produzir uma fala incrivelmente realista sem a necessidade de um modelo TTS ou STT separado.
Quando o ChatGPT Advanced Voice Mode foi finalmente introduzido, os resultados foram surpreendentes.我经常在带狗散步时使用这种模式,音调已经得到了很大的改善,这真是令人惊叹。在使用 OpenAI 音频 API 的过程中,我还体验到了很多乐趣。
OpenAI 并不是唯一拥有多模态音频模型的团队。谷歌的 Gemini 也接受音频输入,也可以用类似 ChatGPT 的方式说话。亚马逊也提前宣布了 Amazon Nova 的语音模式,但该模式将于 2025 年第一季度推出。
谷歌的 NotebookLM 于 9 月份发布,它将音频输出提升到了一个新的水平,两个“播客主持人”可以就你输入的任何内容进行逼真对话,后来也添加了自定义指令。
最近的新变化也是从 12 月开始的,那就是实时视频。ChatGPT 语音模式现在提供了与模型分享相机画面的选项,并可实时谈论你所看到的内容。谷歌的 Gemini 也推出了具有相同功能的预览版。
6.prompt 驱动的 app 生成,已经成为一种商品
GPT-4 在 2023 年就已经可以实现这一点,但它的价值在 2024 年才显现出来。
众所周知,LLM 在编写代码方面有着惊人的天赋。如果你可以正确地写出 prompt,它们就能使用 HTML、CSS 和 JavaScript 为你构建一个完整的交互式 app——通常只需要一次 prompt。
Anthropic 在发布 Claude Artifacts 时将这一理念推向了高潮,这是一个开创性的新功能。有了 Artifacts,Claude 可以为你编写一个按需交互式 app,然后让你直接在 Claude 界面中使用它。
这是一个提取 URLs 的 app,完全由 Claude 生成:
我经常使用它。我在 10 月份就注意到了我对它的依赖程度,我使用 Artifacts 在七天时间里创建了 14 个小工具.
从那以后,一大批其他团队也建立了类似的系统。10 月,GitHub 发布了他们的版本——GitHub Spark。11 月,Mistral Chat 将其添加为一项名为 Canvas 的功能。
来自 Val Town 的 Steve Krause 针对 Cerebras 构建了一个版本,展示了每秒 2000 个 token 的 LLM 如何迭代 app,并在不到一秒的时间内看到变化。
随后在 12 月,Chatbot Arena 团队为这项功能推出了一个全新的 leaderboard,由用户使用两种不同的模型构建相同的交互式 app 两次,并对答案进行投票。很难有比这更有说服力的论据来证明,这项功能现在已经成为一种商品,可以有效地与所有领先的模型进行竞争。
我一直在为我的 Datasette 项目琢磨这个版本,目的是让用户使用 prompt 来构建和迭代自定义小工具,并根据自己的数据进行数据可视化。我还发现了一种类似的模式,可以通过 uv 来编写一次性 Python 程序。
这种由 prompt 驱动的自定义界面功能非常强大,而且很容易构建(一旦你弄清了浏览器沙盒的复杂细节),我希望它能在 2025 年作为一项功能出现在各种产品中。
7.短短几个月,强大模型得以普及
在 2024 年短短几个月的时间里,世界上大多数国家都可以免费使用强大的模型。
OpenAI 在 5 月向所有用户免费提供 GPT-4o,而 Claude 3.5 Sonnet 则在 6 月发布后免费提供。这是一个重大变化,因为在过去的一年里,免费用户大多只能使用 GPT-3.5 级的模型,这在过去会导致新用户对 LLM 的实际能力并不清晰。
随着 OpenAI 推出 ChatGPT Pro,这个时代似乎已经结束了,很可能是永久性的。这项 200 美元/月的订阅服务是访问其最强模型 o1 Pro 的唯一途径。
o1 系列(以及毫无疑问会激发的未来模型)背后的关键是,花费更多的计算时间来获得更好的结果。因此,我认为免费使用 SOTA 模型的日子一去不复返了。
8.智能体,仍未真正诞生
我个人认为,“agent”这个词非常令人沮丧。它缺乏一个单一、明确和广为理解的含义......但使用这个术语的人似乎从来不承认这一点。
如果你告诉我你正在构建“智能体”(agent),那么你几乎没有向我传达任何信息。如果不读懂你的想法,我就无法知道你说的是几十种可能定义中的哪一种。
我看到的主要有两类人,一类人认为 agent 显然是代表你去行动的东西——旅行 agent;另一类人认为 agent 是可以获得工具的 LLM,可以循环运行作为解决问题的一部分。“autonomy”一词也经常被混在一起,但同样没有明确的定义。(几个月前,我还在推特上收集了关于 agent 的 211 个定义,并让 gemini-exp-1206 尝试对其进行总结)。
不管这个术语是什么意思,agent 仍然有一种永远“即将到来”的感觉。撇开术语不谈,我仍然对它们的实用性持怀疑态度,这是基于“轻信”(gullibility)的挑战。LLM 会相信你告诉它们的任何事情。任何试图代表你做出有意义决策的系统都会遇到同样的障碍:如果一个旅行 agent、或者一个数字助理,甚至一个研究工具都无法分辨真假,那么它还能有多大用处呢?
就在前几天,谷歌搜索被发现提供了关于不存在的电影《Encanto 2》的完全虚假的描述。
及时注入是这种轻信的自然后果。我看到 2024 年在解决这个问题上进展甚微,而我们从 2022 年 9 月就开始讨论这个问题了。
Prompt injection 攻击是这种“轻信”的自然结果。我看到 2024 年业内在解决这个问题上进展甚微,而我们从 2022 年 9 月起就一直在讨论这个问题。
我开始认为,最流行的 agent 概念将依赖于 AGI。让模型能够抵御“轻信”,确实是一个很高的要求.
9.评估,非常重要
Anthropic 的 Amanda Askell(负责 Claude’s Character 背后的大部分工作)曾说:
好的系统 prompt 背后有一个枯燥但至关重要的秘密,那就是测试驱动开发。你不是写下一个系统 prompt,然后想办法测试它。你要写下测试,然后找到能通过测试的系统 prompt。
在 2024 年的发展过程中,我们已经非常清楚地认识到,为 LLM 驱动的系统编写优秀的自动评估,是在这些模型之上构建有用 app 最需要的技能。如果你拥有强大的评估套件,你就能比竞争对手更快地采用新模型,更好地迭代,并构建更可靠、更有用的产品功能。
Vercel 的首席技术官 Malte Ubl 认为:
在 v0(一个网页开发 agent)刚问世时,我们还偏执地想用各种复杂的预处理和后处理来保护 prompt。
我们完全转向了让它自由发挥。没有评估、模型,尤其是用户体验的 prompt,就像一台坏掉的 ASML 机器没有说明书一样。
我仍然在尝试找到更好的模式来完成我自己的工作。每个人都知道评估很重要,但对于如何最好地实现评估,仍然缺乏很好的指导.
10.Apple Intelligence 很糟糕,但 MLX 却很出色
作为 Mac 用户,我现在对自己选择的平台感觉好多了。
2023 年,我感觉自己没有配备英伟达 GPU 的 Linux/Windows 机器,这对我试用新模型来说是一个巨大的劣势。
理论上,64GB 的 Mac 应该是运行模型的好机器,因为 CPU 和 GPU 可以共享相同的内存。实际上,许多模型都是以模型权重和库的形式发布的,与其他平台相比,英伟达的 CUDA 更受青睐。
llama.cpp 生态系统在这方面帮助很大,但真正的突破是苹果公司的 MLX 库,它太棒了。
苹果公司的 mlx-lm Python 支持在我的 Mac 上运行各种 mlx 兼容的模型,性能非常出色。Hugging Face 上的 mlx 社区提供了 1000 多个模型,这些模型已被转换为必要的格式。Prince Canuma 的 mlx-vlm 项目非常出色,进展迅速,也为 Apple Silicon 带来了视觉 LLM。
虽然 MLX 改变了游戏规则,但苹果公司自己的 Apple Intelligence 功能大多令人失望。我曾在 6 月份撰写过一篇关于他们最初发布的文章,当时我还乐观地认为,苹果公司已经把重点放在保护用户隐私并最大限度地减少用户被误导的 LLM app 上。
现在,这些功能已经推出,但效果还比较差。作为 LLM 的重度用户,我知道这些模型的能力,而苹果的 LLM 功能只是对前沿 LLM 功能的苍白模仿。相反,我们收到的通知摘要歪曲了新闻标题,我甚至认为写作助手工具一点用处都没有。不过,Genmoji 还是挺好玩的。
11.inference-scaling,“推理”模型的兴起
2024 年最后一个季度最有趣的进展是出现了一种新的 LLM 形态,OpenAI 的 o1 模型就是一个例子——o1-preview 和 o1-mini 于 9 月 12 日发布。思考这些模型的一种方法是思维链 prompt 技巧的延伸。
这个技巧主要在于,如果你让一个模型努力思考(talk out loud)它正在解决的问题,你通常会得到一个模型原本无法得到的结果.
o1 将这一过程进一步嵌入模型内。细节有些模糊:o1 模型花费了“推理 token”来思考问题,用户无法直接看到这些 token(尽管 ChatGPT UI 会显示一个总结),然后输出最终结果。
这里最大的创新在于,它开辟了一种扩展模型的新方法:模型现在可以通过在推理上花费更多的计算量来解决更难的问题,而不是纯粹通过在训练时增加计算量来提高模型性能.
o1 的继任者 o3 于 12 月 20 日发布,在 ARC-AGI 基准测试中取得了令人印象深刻的成绩,尽管其中可能涉及超过 100 万美元的计算时间成本!
o3 预计将于 1 月份发布。我怀疑是否有很多人的实际问题会受益于这种级别的计算支出,我当然没有!但它似乎是 LLM 架构的真正下一步,可以解决更难的问题。
OpenAI 并不是这里唯一的玩家。12 月 19 日,谷歌发布了他们在这一领域的第一个参赛者——gemini-2.0-flash-thinking-exp。
阿里巴巴的 Qwen 团队于 11 月 28 日在 Apache 2.0 许可下发布了 QwQ 模型。随后,他们于 12 月 24 日发布了名为 QvQ 的视觉推理模型。
DeepSeek 于 11 月 20 日通过聊天界面提供了 DeepSeek-R1-Lite-Preview 模型供试用。
编者注:智谱也于 2024 年最后一天发布了深度推理模型 GLM-Zero.
Anthropic 和 Meta 目前还没有任何进展,但如果他们没有自己的推理扩展模型,我会感到非常惊讶。
12.目前最好的 LLM,是在中国训练的吗?
不完全是,但差不多是!这的确是一个吸引眼球的好标题。
DeepSeek v3 是一个庞大的 685B 参数模型——是目前最大的公开授权模型之一,比 Meta 的 Llama 系列中最大的 Llama 3.1 405B 大得多。
基准测试结果显示,它与 Claude 3.5 Sonnet 不相上下。Vibe 基准测试目前将其排在第 7 位,在 Gemini 2.0 和 OpenAI 4o/o1 模型之后。这是迄今为止排名最高的公开授权模型。
真正令人印象深刻的是,DeepSeek v3 的训练成本。该模型在 2788000 个 H800 GPU 小时内进行了训练,估计成本为 5576000 美元。Llama 3.1 405B 训练了 30840000 个 GPU 小时,是 DeepSeek v3 的 11 倍,但模型的基准性能却更差一些。
As regulamentações dos EUA sobre as exportações de GPUs chinesas parecem ter inspirado algumas otimizações de treinamento muito eficazes.
13.运行 prompt 的环境影响,得以改善
无论是托管模型还是我在本地运行的模型,效率的提高都带来了一个可喜的结果,那就是在过去几年里,运行 prompt 的能耗和对环境的影响都大大降低了。
与 GPT-3 那时相比,OpenAI 自己的 prompt 收费低了 100 倍。我有可靠消息称,谷歌 Gemini 和 Amazon Nova(两家最便宜的模型提供商)都没有亏本运行 prompt。
这意味着,作为个人用户,我们完全不必为绝大多数 prompt 所消耗的能量感到内疚。与在街上开车,甚至在 YouTube 上观看视频相比,这种影响可能微不足道。
同样,训练也是如此。DeepSeek v3 的训练费用不到 600 万美元,这是一个非常好的迹象,表明训练成本可以而且应该继续下降。
14.新的数据中心,还有必要吗?
而更大的问题在于,这些模型未来所需的基础设施建设将面临巨大的竞争压力。
谷歌、Meta、微软和亚马逊等公司都在斥资数十亿美元建造新的数据中心,这对电网和环境造成了极大的影响。甚至还有人说要建立新的核电站,但这需要几十年的时间。
这种基础设施有必要吗?DeepSeek v3 的 600 万美元训练费用和 LLM 价格的持续降低,可能足以说明这一问题。但是,你是否愿意成为那个主张不要建立这种基础设施,却在几年后被证明是错误的大科技公司高管呢?
一个有趣的对比是,19 世纪铁路在世界各地的发展。修建这些铁路需要巨额投资,对环境造成了巨大的影响,而且许多修建的线路被证明是不必要的。
由此产生的泡沫导致了数次金融崩溃,它们给我们留下了大量有用的基础设施,也留下了大量的破产和环境破坏。
15.2024,“泔水”之年
2024 年是“泔水”(slop)一词成为艺术术语的一年。@deepfates 曾在 twitter 上写道:
Assim como "spam" se tornou o nome próprio para e-mails indesejados, "slop" aparecerá no dicionário como o nome próprio para conteúdo indesejado gerado por IA.
Escrevi uma postagem em maio que expandia um pouco essa definição:
"Slop" refere-se a conteúdo não solicitado e sem censura gerado por inteligência artificial.
Gosto da palavra "slop" porque ela resume de forma sucinta uma maneira pela qual não devemos usar a IA generativa!
16. dados de treinamento sintéticos, muito eficazes
Surpreendentemente, a noção de "colapso do modelo", ou seja, de que os modelos de IA quebram quando treinados em dados gerados recursivamente, parece estar profundamente enraizada na consciência pública. .
A ideia é sedutora: à medida que o "lixo" gerado pela IA inunda a Internet, os próprios modelos se degradarão, alimentando-se de sua própria produção e levando ao seu inevitável fim!
Obviamente, isso não aconteceu. Em vez disso, estamos vendo os laboratórios de IA treinarem cada vez mais com conteúdo sintético, criando dados artificiais que ajudam a orientar seus modelos na direção certa.
Uma das melhores descrições que já vi vem do relatório técnico do Phi-4A seguir, alguns dos elementos do programa:
Os dados sintéticos estão se tornando mais comuns como uma parte importante do pré-treinamento, e a família de modelos Phi sempre enfatizou a importância dos dados sintéticos. Em vez de ser uma alternativa barata aos dados reais, os dados sintéticos têm várias vantagens diretas sobre os dados reais.
Aprendizagem progressiva estruturada. Em conjuntos de dados reais, as relações entre tokens geralmente são complexas e indiretas. Muitas etapas de inferência podem ser necessárias para associar o token atual ao próximo token, dificultando que o modelo aprenda efetivamente com a previsão do próximo token. Em contrapartida, cada token gerado por um modelo de linguagem é previsto pelo token anterior, o que facilita para o modelo seguir o padrão de inferência resultante.
Outra técnica comum é usar modelos maiores para ajudar a criar dados de treinamento para modelos menores e mais baratos, e cada vez mais laboratórios estão usando essa técnica.
O DeepSeek v3 usa dados de "inferência" criados pelo DeepSeek-R1. O ajuste fino do Meta Llama 3.3 70B usa mais de 25 milhões de exemplos gerados sinteticamente.
O design cuidadoso dos dados de treinamento usados para o LLM parece ser a chave para a criação desses modelos. Já se foram os dias em que se pegava todos os dados da Web e os alimentava indiscriminadamente nas execuções de treinamento.
17. usar o LLM corretamente não é fácil!
Sempre enfatizei que os LLMs são ferramentas poderosas para o usuário - são motosserras disfarçadas de helicópteros. Eles parecem fáceis de usar - quão difícil pode ser digitar uma mensagem para um chatbot? Mas na realidade.Para aproveitá-las ao máximo e evitar suas muitas armadilhas, você precisa ter um conhecimento profundo e muita experiência com elas.
Esse problema se torna ainda pior em 2024.
Criamos sistemas de computador com os quais é possível falar em linguagem humana e que podem responder às suas perguntas, e geralmente acertam! ...... Depende de qual é a pergunta, como ela é feita e se ela pode ser refletida com precisão em um conjunto de treinamento secreto não registrado.
Atualmente, o número de sistemas disponíveis está se proliferando. Sistemas diferentes têm ferramentas diferentes que podem ser usadas para resolver seu problema, como Python, JavaScript, pesquisa na Web, geração de imagens e até mesmo consultas a bancos de dados ...... Portanto, é melhor você entender o que são essas ferramentas, o que elas podem fazer e como saber se o LLM as está usando.
Você sabia que o ChatGPT agora tem duas maneiras completamente diferentes de executar o Python?
Se você quiser criar um artefato do Claude que se comunique com uma API externa, é uma boa ideia aprender sobre os cabeçalhos HTTP CSP e CORS.
Os recursos desses modelos podem ter melhorado, mas a maioria das limitações permanece. O o1 da OpenAI pode finalmente ser capaz de computar (em grande parte) o "r" em strawberry, mas seus recursos ainda são limitados por sua natureza de LLM e por seus recursos de tempo de execução. o1 não pode fazer pesquisas na Web nem usar um interpretador de código, mas o GPT-4o pode - ambos estão na mesma interface do usuário do ChatGPT. GPT-4o pode - ambos estão na mesma UI do ChatGPT.
O que fizemos a respeito? Nada. A maioria dos usuários são "novatos". A interface padrão de bate-papo do LLM é como jogar usuários de computador novatos em um terminal Linux e esperar que eles cuidem de tudo sozinhos.
Ao mesmo tempo, está se tornando cada vez mais comum que os usuários finais desenvolvam modelos mentais imprecisos de como esses dispositivos funcionam e operam. Já vi muitos exemplos disso, com pessoas tentando ganhar discussões com capturas de tela do ChatGPT - o que é uma proposta inerentemente ridícula, dada a falta de confiabilidade inerente a esses modelos, juntamente com o fato de que é possível fazer com que eles digam qualquer coisa se você der o comando certo.
Há um outro lado: muitos "veteranos" desistiram completamente do LLM porque não veem como alguém pode se beneficiar de uma ferramenta que tem tantas falhas. A chave para obter o máximo do LLM é aprender a usar essa técnica não confiável, mas poderosa. É claro que essa não é uma habilidade óbvia!
Embora exista muito conteúdo educacional útil por aí, precisamos fazer um trabalho melhor do que terceirizar tudo isso para os representantes de IA que tuitam furiosamente.
18. cognição deficiente, ainda presente
Agora.A maioria das pessoas já ouviu falar do ChatGPT, mas quantas já ouviram falar do Claude?
Entre os que se preocupam ativamente com essas questões e os que não se preocupam, há umaA grande divisão do conhecimento.
No mês passado, vimos a popularidade das interfaces em tempo real, nas quais é possível apontar a câmera do telefone para algo e falar sobre isso com sua voz ...... Há também a opção de fazer com que ele finja ser o Papai Noel. A maioria das pessoas autocertificadas (sic "nerd") ainda não experimentou.
Considerando o impacto contínuo (e potencial) dessa tecnologia na sociedade, acho que a atualEssa divisão não é saudável. Eu gostaria de ver mais esforços para melhorar a situação.
19.LLM, é preciso uma crítica melhor
Muitas pessoas realmente odeiam o LLM. Em alguns dos sites que frequento, até mesmo a sugestão de que "o LLM é muito útil" é suficiente para iniciar uma guerra.
Eu entendo. Há muitos motivos pelos quais as pessoas não gostam dessa tecnologia: impacto ambiental, falta de confiabilidade dos dados de treinamento, aplicações não positivas, impacto potencial no trabalho das pessoas.
O LLM definitivamente merece críticas.Precisamos discutir essas questões, encontrar maneiras de atenuá-las e ajudar as pessoas a aprender a usar essas ferramentas de forma responsável para que suas aplicações positivas superem seus impactos negativos.
Adoro pessoas que são céticas em relação a essa tecnologia. Há mais de dois anos, o hype tem crescido e muita desinformação tem inundado as ondas de rádio. Muitas decisões ruins foram tomadas com base nesse hype.A crítica é uma virtude.
Se quisermos que as pessoas com poder de decisão tomem as decisões corretas sobre como aplicar essas ferramentas, primeiro precisamos reconhecer que existem, de fato, boas aplicações e, em seguida, ajudar a explicar como colocá-las em prática, evitando muitas das armadilhas não práticas.
Acho que sim.Dizer às pessoas que todo o campo é uma máquina de plágio ambientalmente desastrosa que constantemente inventa coisas, não importa o quanto isso represente de verdade, é um desserviço a essas pessoas.. Há um valor real aqui, mas perceber esse valor não é intuitivo e requer orientação.
Aqueles de nós que entendem desse assunto têm a responsabilidade de ajudar os outros a entender.