DeepSeek: questões ignoradas pela mídia

Notícias sobre IAPublicado há 7 meses Círculo de compartilhamento de IA

8.4K 00

Colaboradores convidados Lennart Heim e Sihao Huang, este artigo foi publicado de forma cruzada no blog de Lennart, que é colaborador regular do ChinaTalk e participou recentemente de uma discussão sobre geopolítica na era da computação testada pelo tempo, e Sihao, que escreveu anteriormente sobre a visão de Pequim para a governança global de IA.

Relatórios recentes sobre DeepSeek Os relatórios de modelos de IA têm se concentrado principalmente em seu desempenho superior em benchmarking e ganhos de eficiência. Embora essas conquistas sejam reconhecíveis e tenham implicações políticas (veja abaixo mais detalhes), a realidade do acesso a recursos de computação, controles de exportação e desenvolvimento de IA é mais complexa do que muitos relatórios apresentam. Aqui estão alguns pontos-chave de interesse:

As restrições reais à exportação de chips de IA começam em outubro de 2023, e as alegações atuais sobre sua ineficácia são prematuras. O DeepSeek treina no Nvidia H800, um chip projetado para contornar o limite inicial de outubro de 2022. Para as tarefas computacionais do DeepSeek, o desempenho desses chips é comparável ao do H100 disponível nos EUA. O mais recente H20 da Nvidia - um chip de IA que ainda pode ser exportado para a China - é mais fraco no lado do treinamento, mas ainda é poderoso no lado da implementação.
Apesar de suas limitações no treinamento, o H20 permanece irrestrito e robusto em implementações de IA de ponta, especialmente em tarefas que exigem muita memória, como raciocínio contextual longo. Isso é fundamental, especialmente com tendências como computação em teste, geração de dados sintéticos e aprendizado por reforço, processos que dependem mais da memória do que da capacidade de computação. Como as restrições às exportações de memória de alta largura de banda (HBM) entrarão em vigor em dezembro de 2024, vale a pena observar a disponibilidade contínua do H20, especialmente no contexto da demanda de computação de IA cada vez mais inclinada para o lado da implementação.
Os controles de exportação de hardware têm um efeito de atraso e ainda não são totalmente eficazes.
É importante observar que tudo isso pressupõe que os controles de exportação sejam perfeitamente aplicados, o que não é o caso. Os controles de semicondutores têm um grande número de brechas e há evidências confiáveis de transferências de chips em grande escala. Embora a Estrutura de Difusão possa ajudar a fechar algumas dessas brechas, a aplicação continua sendo o principal desafio. [JS: É claro que os problemas de acesso continuam na nuvem ocidental ......A China ainda está usando data centers construídos antes das restrições de exportação que contêm dezenas de milhares de chips, enquanto as empresas americanas estão construindo data centers com centenas de milhares de chips. O verdadeiro teste virá quando esses data centers precisarem ser atualizados ou expandidos - um processo que é mais fácil para as empresas dos EUA, mas será um desafio para as empresas chinesas sujeitas a controles de exportação. Se forem necessários 100.000 chips para treinar a próxima geração de modelos, os controles de exportação terão um impacto significativo no desenvolvimento de modelos de ponta na China. No entanto, mesmo sem esses requisitos de treinamento em larga escala, os controles de exportação terão um impacto profundo no ecossistema de IA da China, reduzindo a capacidade de implantação, limitando o desenvolvimento das empresas e inibindo a capacidade de sintetizar dados de treinamento e jogos próprios.

Não é surpresa que o DeepSeek V3 conclua seu treinamento com menos recursos computacionais; o custo dos algoritmos de aprendizado de máquina vem diminuindo ao longo do tempo. Mas os mesmos ganhos de eficiência que permitem que pequenas empresas como a DeepSeek acessem os recursos de IA (ou seja, "efeito de acessibilidade"), e também pode permitir que outras empresas criem sistemas mais potentes em clusters de computação maiores (ou seja, "efeito de desempenho"). Felizmente, o DeepSeek treinou a V3 usando apenas 2.000 H800s em vez de 200.000 B200s (o chip de última geração da Nvidia).

O momento do lançamento tem considerações estratégicas, mas a proeza técnica é real. O lançamento do R1 coincide com a posse do presidente Trump na semana passada e foi claramente projetado para minar a confiança do público na liderança americana de IA em um momento crítico para a política dos EUA. É a mesma estratégia que a Huawei usou para lançar seu novo produto durante a visita da ex-secretária de Comércio Raimondo à China. Afinal de contas, os resultados de benchmark do R1 Preview foram divulgados em novembro.
Esse cuidadoso timing de relações públicas não deve obscurecer dois fatos: os avanços tecnológicos da DeepSeek e seus desafios estruturais atuais e futuros devido aos controles de exportação.
É difícil que os controles de exportação afetem com precisão uma única tarefa de treinamento, mas eles podem efetivamente restringir o desenvolvimento de todo um ecossistema de IA. Em particular, as limitações dos chips de última geração podem restringir efetivamente as implementações de IA em larga escala (ou seja, tornar os serviços de IA acessíveis a um grande número de usuários) e os aprimoramentos de recursos. As empresas de IA normalmente dedicam 60-80% dos recursos de computação às implementações, mesmo antes do surgimento de modelos de raciocínio com uso intensivo de computação. Limitar os recursos de computação aumentará o custo da IA chinesa, diminuirá sua capacidade de implantação em escala e limitará o desempenho do sistema. Vale a pena observar que a computação de implementação não se refere apenas ao acesso do usuário; ela também desempenha um papel fundamental na geração de dados de treinamento sintéticos, facilitando melhorias de capacidade por meio de interações de modelos e criando, dimensionando e otimizando modelos.
Por exemplo, os comentários recentes de Gwern apontam que a computação de implementação desempenha um papel fundamental no desenvolvimento de IA muito além do acesso do usuário. Modelos como o o1 da OpenAI podem ser usados para gerar dados de treinamento de alta qualidade, o que cria um ciclo de feedback em que os recursos de implementação impulsionam diretamente os recursos de desenvolvimento e as melhorias gerais de desempenho.
Os ganhos de eficiência do DeepSeek podem se originar do enorme suporte aritmético que ele recebia anteriormente. À primeira vista, o caminho para reduzir o uso de chips (ou seja, "aumentar a eficiência") pode parecer começar com um grande poder de computação. A deepSeek opera o primeiro cluster A100 de 10.000 chips da Ásia e supostamente mantém um cluster H800 de 50.000 chips, bem como acesso ilimitado a provedores de serviços em nuvem (com controle de exportação) na China e no exterior. A empresa tem acesso ilimitado a provedores de serviços de nuvem na China e no exterior (não sujeitos a controles de exportação). Esse amplo acesso à capacidade de computação é fundamental para o desenvolvimento de tecnologias eficientes por meio de testes iterativos e para o fornecimento de serviços de modelagem a seus clientes.
Recentemente, outras empresas de IA observaram picos de uso que causaram interrupções no serviço, mesmo quando apoiadas por um maior poder de computação. Se o DeepSeek pode lidar com picos semelhantes ainda não foi testado, e eles serão desafiados a fazer isso com um poder de computação limitado. (Sam Altman até afirma que ChatGPT Atualmente, os planos de assinatura Pro estão perdendo dinheiro).
Embora seu modelo R1 tenha demonstrado excelente eficiência, seu processo de desenvolvimento dependia de uma grande quantidade de aritmética para geração, destilação e experimentação de dados sintéticos.
Os controles de exportação exacerbaram ainda mais a diferença aritmética entre os EUA e a China, o que continua sendo uma grande limitação para a DeepSeek, cuja liderança reconheceu publicamente que, mesmo com maior eficiência, eles ainda enfrentam uma desvantagem aritmética de 4x. Isso significa que precisamos do dobro da potência de computação para obter os mesmos resultados", disse Wenfeng Liang, fundador da DeepSeek. Há também uma diferença de aproximadamente 2x na eficiência dos dados, o que significa que precisamos de 2x os dados de treinamento e a potência de computação para obter resultados comparáveis. Em conjunto, isso exigiria 4x a capacidade de computação". Ele acrescentou: "Não temos planos de financiamento no curto prazo. Nosso problema nunca foi o financiamento, mas o embargo aos chips de ponta."
As principais empresas de IA nos EUA mantêm seus recursos mais fortes em segredo, o que significa que o benchmarking público não reflete com precisão o quadro completo do desenvolvimento da IA. As empresas chinesas tendem a compartilhar o progresso publicamente, enquanto Antrópica e OpenAI, entre outros, mantêm uma grande quantidade de recursos privados. Como resultado, as comparações diretas baseadas em informações publicamente disponíveis são incompletas. A DeepSeek tem recebido atenção em parte por causa de sua abertura - eles compartilham ponderações e metodologias de modelos em detalhes, o que contrasta com a tendência das empresas ocidentais de serem cada vez mais fechadas. Entretanto, ainda não se sabe se a abertura leva necessariamente à vantagem estratégica.

Então, o que isso significa?

As conquistas da DeepSeek são reais e importantes. É impreciso descartar seu progresso como simples propaganda. Seus custos de treinamento relatados não são sem precedentes, e as tendências históricas de eficiência algorítmica corroboram isso. No entanto, as comparações precisam ser cuidadosamente consideradas no contexto - o DeepSeek relata apenas os custos finais de execução pré-treinamento, ignorando as principais despesas, como custos de pessoal, experimentos iniciais, aquisição de dados e desenvolvimento de infraestrutura. Para obter mais informações sobre as comparações enganosas que podem resultar de diferentes métodos de cálculo de custos, consulte este artigo.

O aumento da eficiência aritmética significa que os recursos de IA acabarão se proliferando. Os controles por si só não são suficientes; são necessárias medidas complementares para aumentar a resiliência e as defesas da sociedade, estabelecer instituições capazes de identificar, avaliar e responder aos riscos de IA e construir um sistema de defesa robusto contra possíveis ameaças de IA de adversários. No entanto, também devemos reconhecer que os controles de exportação já tiveram um impacto sobre o desenvolvimento da IA na China e podem ter um efeito ainda maior no futuro.

Os modelos em si podem não ser o que muitos consideram um "fosso estratégico", mas o impacto da potência aritmética na segurança nacional varia de acordo com o cenário do aplicativo. Para aplicativos que exigem implantação em larga escala (por exemplo, vigilância em massa), as restrições de capacidade podem ser uma barreira significativa. Para aplicativos de usuário único, por outro lado, o impacto da regulamentação é menos significativo. A relação entre a disponibilidade aritmética e os recursos de segurança nacional continua complexa, embora os próprios recursos modelados estejam se tornando mais fáceis de replicar.

Embora os recursos de IA possam se proliferar apesar dos controles, e impedir totalmente a proliferação sempre será difícil, esses controles continuam sendo essenciais para manter a vantagem tecnológica. Os controles ganham um tempo valioso, mas ainda são necessárias políticas complementares para garantir que as democracias permaneçam à frente da curva e sejam capazes de se defender dos desafios de possíveis rivais.

Notícias sobre IA

Direitos autorais do artigo Círculo de compartilhamento de IA A todos, favor não reproduzir sem permissão.

Análise do SuperCLUE: DeepSeek-R1 Crossover de estabilidade de plataforma de terceiros, escolha a plataforma certa e o desempenho dispara!

Notícias sobre IA

7 meses atrás

012.4K

O Google renomeia o Bard para Gemini: um aplicativo autônomo para uma nova era de IA

Notícias sobre IA

2 anos atrás

08.6K

Amazon All in AI Agent: a próxima área de crescimento da AWS?

Notícias sobre IA

6 meses atrás

010.8K

Modelo de código aberto R1-1776 da Perplexity AI: superando preconceitos e censura

Notícias sobre IA # Análise de dados de IA

6 meses atrás

011.9K

Sem comentários

Você precisa estar conectado para participar dos comentários!

Faça login agora

Nenhum comentário...

DeepSeek: questões ignoradas pela mídia

Então, o que isso significa?

A Mistral lança o Mistral Small 3 de código aberto: o desempenho rivaliza com o GPT-4o e supera o Llama 3

Por trás da tempestade DeepSeek: Ng alerta que a competição de modelos abertos remodelará o cenário de valores de IA nos EUA e na China

Artigos relacionados

Análise do SuperCLUE: DeepSeek-R1 Crossover de estabilidade de plataforma de terceiros, escolha a plataforma certa e o desempenho dispara!

O Google renomeia o Bard para Gemini: um aplicativo autônomo para uma nova era de IA

Amazon All in AI Agent: a próxima área de crescimento da AWS?

Modelo de código aberto R1-1776 da Perplexity AI: superando preconceitos e censura

Sem comentários

Últimas coleções

Artigos mais recentes

DeepSeek: questões ignoradas pela mídia

Então, o que isso significa?

A Mistral lança o Mistral Small 3 de código aberto: o desempenho rivaliza com o GPT-4o e supera o Llama 3

Por trás da tempestade DeepSeek: Ng alerta que a competição de modelos abertos remodelará o cenário de valores de IA nos EUA e na China

Artigos relacionados

Análise do SuperCLUE: DeepSeek-R1 Crossover de estabilidade de plataforma de terceiros, escolha a plataforma certa e o desempenho dispara!

O Google renomeia o Bard para Gemini: um aplicativo autônomo para uma nova era de IA

Amazon All in AI Agent: a próxima área de crescimento da AWS?

Modelo de código aberto R1-1776 da Perplexity AI: superando preconceitos e censura

Sem comentários

Ferramentas de IA selecionadas

Últimas coleções

Artigos mais recentes