Comentário:
1. desacreditar o desenvolvimento de IA da China e apresentar a "teoria da ameaça da China".
O autor do artigo defende a posição de que os Estados Unidosexagerar deliberadamente DeepSeek A chamada "ameaça" aos EUA dos avanços tecnológicos das empresas chinesas de IA e outras, e a associação forçada disso com a chamada "ameaça XXX", é um argumento que está repleto dementalidade da guerra friaresponder cantandopreconceito ideológico.
- O autor reconhece a inovação e a eficiência da DeepSeek, mas, em seguida, atribui seu sucesso a "estar sujeito a um XXXX que violou o XXXX", uma acusação infundada que ignora completamente o fato de que as empresas de IA da China dependem de seus próprios esforços e de mecanismos baseados no mercado para ter sucesso.
- O autor usa o pretexto de "impedir que a China obtenha vantagens XX" para defender a política dos Estados Unidos de implementar o controle de exportação de chips, mas evita falar sobre seu próprio comportamento de usar suas vantagens tecnológicas para reprimir seus concorrentes.duplo padrãoExposto.
2. manter a hegemonia tecnológica dos EUA e tentar restringir o desenvolvimento de IA da China
O objetivo principal do artigo éPreservando o domínio global dos EUA em IAe tentou fazê-lo por meio de:
- Exagerando a função dos controles de exportaçãoComentário: O autor afirma que os controles de exportação são "a única maneira de impedir que a China adquira milhões de chips" e os vê como um fator determinante do futuro cenário mundial. Esse argumento ignora a complexidade da cadeia industrial global e o próprio progresso tecnológico da China.
- Na verdade, a China está aumentando seu investimento em pesquisa e desenvolvimento de chips e tem feito progressos significativos. Embora os controles de exportação dos EUA tenham tido algum impacto sobre o desenvolvimento de IA da China, eles não podem impedir o progresso contínuo da tecnologia de IA chinesa.
- Defesa da "dissociação tecnológica"Comentário: O autor insinua que os Estados Unidos devem continuar a fortalecer seu embargo tecnológico contra a China e até sugere que os Estados Unidos devem aproveitar a tecnologia de IA para estabelecer uma "vantagem duradoura", o que, sem dúvida, defende a "dissociação tecnológica" e vai contra a tendência da globalização.
- Essa abordagem não só prejudicará os interesses da China, mas também os interesses dos próprios Estados Unidos, e impedirá o progresso científico e tecnológico e o desenvolvimento econômico globais.
3. ignorar a natureza do desenvolvimento da IA e enganar a percepção do público
O artigo é tendencioso em sua compreensão do desenvolvimento da IA, daênfase excessivaA "lei do escalonamento" e o "efeito de escala" ignoram os seguintes fatores importantes:
- A tendência multipolar no desenvolvimento da IAO desenvolvimento da tecnologia de IA não é o único caminho nos Estados Unidos; a China, a Europa e outros países e regiões estão explorando ativamente o caminho do desenvolvimento da IA e obtiveram suas próprias vantagens.
- Ética e segurança da IA: As questões éticas e de segurança levantadas pelo desenvolvimento da IA precisam ser enfrentadas em conjunto por meio da cooperação global, e não por meio de unilateralismo e bloqueios tecnológicos.
- Impacto da IA na sociedade humana:: A tecnologia de IA deve, em última análise, servir ao desenvolvimento e ao progresso da sociedade humana, em vez de se tornar uma ferramenta para jogos de grandes potências.
4. apelo a uma visão racional da concorrência sino-americana em IA e promoção da cooperação global
Diante das oportunidades e dos desafios do desenvolvimento da IA, a China e os Estados Unidos devem:
- Abandonar a mentalidade do jogo de soma zeroChina e EUA não estão apenas em uma relação competitiva no campo da IA, mas devem fortalecer a cooperação e promover conjuntamente o progresso global da tecnologia de IA e o desenvolvimento industrial.
- Fortalecimento da comunicação e do diálogoOs dois lados devem realizar intercâmbios aprofundados sobre questões importantes no desenvolvimento da IA para melhorar o entendimento e evitar mal-entendidos e erros de cálculo.
- Co-desenvolvimento de regras de governança de IAChina e Estados Unidos devem trabalhar com outros países para promover o estabelecimento de um sistema de governança global de IA justo, equitativo e inclusivo para garantir que a tecnologia de IA beneficie toda a humanidade.
leitura rápida
1. Avanços tecnológicos e vantagens de custo do DeepSeek
- Desempenho próximo ao dos modelos de IA de ponta nos EUA:: Os modelos publicados do DeepSeek (especialmente o DeepSeek-V3) se aproximam do desempenho dos modelos americanos de última geração em algumas tarefas importantes, como codificação, competições matemáticas e tarefas de raciocínio [Parte II do artigo original, "DeepSeek's Models"].
- Reduções significativas de custos: Os custos de treinamento do modelo da DeepSeek são muito menores do que os das empresas americanas. Por exemplo, o DeepSeek-V3 custou cerca de US$ 6 milhões para ser treinado, em comparação com Antrópica (usado em uma expressão nominal) Claude 3.5 O Sonnet custa dezenas de milhões de dólares para ser treinado [Parte II do artigo original, "DeepSeek's Model"].
- Não é um avanço "revolucionário".Os autores argumentam que as conquistas do DeepSeek não são "avanços exclusivos", mas estão dentro da curva esperada de custos decrescentes de IA [Parte II do artigo original, "DeepSeek's Model"].
2. Três grandes avanços no desenvolvimento da IA
- A lei da expansãoÀ medida que a escala de treinamento do sistema de IA aumenta, o desempenho em tarefas cognitivas melhora suavemente. Por exemplo, se o tamanho do modelo aumentar de US$ 1 milhão para US$ 100 milhões, a taxa de resolução de tarefas aumentará de 20% para 60% [Artigo original, Parte I, "Three Key Dynamics"].
- transferência curvada (física)Por exemplo, a API do Claude 3.5 Sonnet é cerca de 10 vezes mais barata que a do GPT-4. Por exemplo, o preço da API do Claude 3.5 Sonnet é cerca de 10 vezes menor do que o do GPT-4 [Parte 1 do artigo original, "Three major developments"].
- mudança de paradigmaNovos métodos de treinamento, como a aprendizagem por reforço, estão sendo introduzidos no processo de treinamento de IA. Por exemplo, empresas como Anthropic, DeepSeek e outras estão explorando o uso da aprendizagem por reforço para treinar modelos para melhorar o raciocínio [Parte 1 do artigo original, "Three Big Developments"].
3. Recursos da DeepSeek em comparação com as empresas de IA dos EUA
- Número de chipsA DeepSeek tem cerca de 50.000 chips da geração Hopper (incluindo H100, H800 e H20), o que equivale a cerca de 2 a 3 vezes o número de chips de propriedade das principais empresas de IA nos EUA [Parte 2 do artigo original, "DeepSeek's Model"].
- investimento de capitalNão há muita diferença entre a DeepSeek e as empresas americanas de IA em termos de investimento de capital, ambas investiram muito dinheiro em pesquisa e desenvolvimento de IA [Parte 2 do artigo original, "DeepSeek's model"].
4. Controles de exportação de chips dos EUA para a China
- controleObservação: os Estados Unidos implementaram várias rodadas de medidas de controle de exportação de chips contra a China, como a proibição da exportação de chips H100 para a China e a restrição da exportação de chips H800 [Parte II do artigo original, "DeepSeek's Model"].
- Efeitos de controleNota: Os autores argumentam que os controles de exportação são eficazes e que a maioria dos chips usados pelo DeepSeek não foi proibida ou foi enviada antes da proibição [Parte II do artigo original, "DeepSeek's Model"].
- perspectivas futurasNota: O autor argumenta que controles rigorosos de exportação são a chave para impedir que a China adquira milhões de chips e que isso determinará se o futuro cenário mundial será unipolar ou bipolar [Parte II do artigo original, "Export Controls"].
5. Implicações geopolíticas para o desenvolvimento da IA
- Competição de IA EUA-ChinaObservação: Os autores acreditam que o desenvolvimento da IA levará a uma maior concorrência entre os EUA e a China e poderá levar a um padrão bipolar de "países gênios em centros de dados" [Parte II do artigo original, "Export Controls"].
- Vantagem americanaNota: O autor argumenta que os Estados Unidos devem usar sua vantagem tecnológica de IA para criar uma vantagem duradoura a fim de evitar que a China conquiste uma posição dominante no campo da IA [Parte II do artigo original, "Export Controls"].
6. Outros pontos de vista sobre o desenvolvimento da IA
- Custo e valor da IAEmbora o custo de treinamento dos modelos de IA tenha diminuído com os avanços tecnológicos, o valor econômico do aumento da inteligência nos modelos de IA é maior, o que faz com que as empresas estejam dispostas a investir mais dinheiro [Artigo Original, Parte I, "The Three Dynamics"].
- Incerteza no desenvolvimento da IAObservação: Os autores reconhecem que há incertezas no desenvolvimento da IA, por exemplo, que os sistemas de IA podem ajudar a criar sistemas de IA mais inteligentes, o que pode fazer com que uma vantagem temporária se transforme em uma vantagem duradoura [Parte II do artigo original, "Export Controls"].
Leitura crítica Texto completo de "On DeepSeek and Export Controls", do Anthropic CEO
Há algumas semanas, euartigo (em publicação)argumentou que os EUA deveriam aumentar os controles sobre as exportações de chips chineses. Desde então, uma empresa chinesa de IA chamada DeepSeek tem se aproximado - pelo menos em alguns aspectos - do desempenho dos modelos de IA de ponta dos EUA, com um custo menor.
Aqui, não vou me concentrar em saber se o DeepSeek representa uma ameaça para as empresas de IA dos EUA, como a Anthropic (embora eu ache que as alegações sobre sua ameaça à liderança de IA dos EUA sejam muito exageradas). Em vez disso, vou me concentrar em saber se o lançamento do DeepSeek enfraquece o caso das políticas de controle de exportação de chips. Não acho que isso aconteça. De fato.Acho que elas tornam a política de controle de exportação ainda mais vital do que era há uma semana..
Os controles de exportação têm uma finalidade fundamental: manter as democracias na vanguarda do desenvolvimento da IA. Para ser claro, eles não são uma maneira de se esconder da concorrência entre os Estados Unidos e a China. Em última análise, se quisermos prevalecer, as empresas de IA dos Estados Unidos e de outras democracias devem ter modelos melhores do que os da China. Mas não devemos dar à China uma vantagem tecnológica quando não precisarmos XXX.
Três grandes desenvolvimentos em inteligência artificial
Antes de apresentar meu argumento político, descreverei três dinâmicas básicas dos sistemas de IA que são cruciais:
- Leis estendidas. Uma das características da inteligência artificial - trabalhei com meus cofundadores na OpenAI - é aRegistros mais antigosUma das pessoas com esse caráter - é queSe os outros fatores forem iguais(matemática) gêneroO aumento do treinamento de sistemas de IA leva a resultados cada vez melhores em uma série de tarefas cognitivas. Por exemplo, um modelo de US$ 1 milhão pode resolver a importante tarefa de codificação de 20%, um modelo de US$ 10 milhões pode resolver 40%, um modelo de US$ 100 milhões pode resolver 60% e assim por diante. Essas diferenças geralmente têm implicações enormes na prática - outro aumento de ordem de grandeza pode corresponder a uma diferença no nível de habilidade de graduação para doutorado - portanto, as empresas investem muito no treinamento desses modelos.
- Mudança de curva. O campo está constantemente apresentando ideias, grandes e pequenas, para tornar as coisas mais eficazes ou mais eficientes: pode ser para modelarconstruirmelhorias (ajustes na arquitetura do Transformer usada por todos os modelos atuais) ou simplesmente a execução de modelos no hardware subjacente de forma mais eficiente. As gerações mais recentes de hardware têm o mesmo efeito. Isso geralmentecurva de transferênciaSe a inovação é um "multiplicador computacional" (CM) de 2x, então ela permite que você gaste US$ 5 milhões em vez de US$ 10 milhões em uma tarefa de codificação para chegar a 40%; ou US$ 50 milhões em vez de US$ 100 milhões para chegar a 60%, e assim por diante. Toda empresa de IA de ponta encontra regularmente muitos desses CMs: geralmente pequenos (~1,2x), às vezes médios (~2x) e, ocasionalmente, muito grandes (~10x). Como o valor de possuir um sistema mais inteligente é muito alto, esse deslocamento da curva geralmente resulta em que a empresaGastar maisNem menos, nem mais, para treinar modelos: os ganhos de eficiência de custo são usados exclusivamente para treinar modelos mais inteligentes, limitados apenas pelos recursos financeiros de uma empresa. As pessoas são naturalmente atraídas pela ideia de que "primeiro algo é caro, depois fica mais barato" - como se a IA fosse uma massa constante e, à medida que ficar mais barata, usaremos menos chips para treiná-la. Mas o importante é o seguinte.curva de expansãoQuando ela muda, nós a percorremos mais rapidamente porque o valor no final da curva é muito alto. Em 2020, minha equipe publicou umdiscutir um artigo ou tese (antigo)Isso indica que, devido àaritméticaNo progresso, a curva se deslocou a uma taxa de cerca de 1,68 vezes por ano. Isso provavelmente se acelerou significativamente desde então; isso também não leva em conta a eficiência e o hardware. Eu diria que hoje esse número deve ser cerca de 4 vezes por ano. Outra estimativa éAqui estão. O deslocamento da curva de treinamento também deslocou a curva de inferência, de modo que, ao longo dos anos, oMantendo a massa do modelo constanteEm um período de tempo muito curto, reduções significativas de preço estão ocorrendo. Por exemplo, o Claude 3.5 Sonnet foi lançado 15 meses após o GPT-4 original e obteve uma pontuação melhor do que o GPT-4 em quase todos os benchmarks, ao mesmo tempo em que o preço da API foi reduzido em um fator de cerca de 10.
- Mudança de paradigma. De vez em quando, o item subjacente que está sendo estendido muda um pouco ou um novo tipo de extensão é adicionado durante o treinamento. De 2020 a 2023, os principais itens que estão sendo estendidos sãoModelo de pré-treinamentomodelos treinados em uma quantidade cada vez maior de texto da Internet, além de um pouco de outro treinamento. em 2024, os modelos treinados usandoAprendizado intensivo(O Anthropic, o DeepSeek e muitos outros (talvez o mais notável seja o OpenAI, com o lançamento de seu modelo o1-preview em setembro) descobriram que esse tipo de treinamento melhora drasticamente o desempenho em determinadas tarefas específicas e objetivamente mensuráveis (por exemplo, matemática, competições de codificação e raciocínio semelhante a raciocínio semelhante a essas tarefas). Esse novo paradigma envolveatravés de (uma lacuna)Modelos comuns pré-treinadosinícioe, em seguida, usou a RL como um segundo estágio para adicionar habilidades de raciocínio. É importante ressaltar que, como esse tipo de RL é novo, ainda estamos nos estágios iniciais da curva de expansão: os gastos com a segunda fase de RL foram pequenos em todos os participantes. Gastar US$ 1 milhão em vez de US$ 100.000 é suficiente para colher enormes benefícios. As empresas agora estão trabalhando muito rapidamente para ampliar a Fase II para centenas de milhões ou até bilhões de dólares, mas é fundamental entender que estamos em uma "interseção" única, em que um novo e poderoso paradigma está em um estágio inicial da curva de expansão e, portanto, pode obter enormes ganhos muito rapidamente.
Modelo do DeepSeek
As três dinâmicas mencionadas acima podem nos ajudar a entender o recente lançamento da DeepSeek. Há cerca de um mês, o DeepSeek lançou um novo software chamado "DeepSeek-V3"O modelo, que é puramenteModelo de pré-treinamento-Fase 1, conforme mencionado acima. Então, na semana passada, eles lançaram "DeepSeek-R1", acrescentando uma segunda fase. É impossível determinar todos os detalhes desses modelos do lado de fora, mas aqui está o meu melhor entendimento dos dois lançamentos.
DeepSeek-V3é realmente inovador, edeveEle chamou a atenção das pessoas há cerca de um mês (nós certamente notamos). Como um modelo pré-treinado, ele parece se aproximar do desempenho dos modelos de última geração dos EUA em determinadas tarefas importantes, sendo consideravelmente mais barato para treinar (embora tenhamos descoberto que o Claude 3.5 Sonnet ainda é muito melhor em outras tarefas críticas, como a codificação no mundo real). A equipe do DeepSeek conseguiu isso com algumas inovações realmente impressionantes, focadas principalmente na eficiência da engenharia. Houve melhorias particularmente inovadoras no gerenciamento de um cache de valor-chave chamado "key-value caching" e na condução de uma abordagem chamada "expert blending".
No entanto, é importante observar atentamente:
- A DeepSeek não "fez por US$ 6 milhões o que as empresas de IA dos EUA podem fazer por bilhões de dólares". Só posso falar pelo Anthropic, mas o Claude 3.5 Sonnet é um modelo de tamanho médio que custou dezenas de milhões de dólares para ser treinado (não vou fornecer números exatos). Além disso, o treinamento do Sonnet 3.5 não envolveu, de forma alguma, um modelo maior ou mais caro (ao contrário de alguns rumores). O Sonnet foi treinado de 9 a 12 meses atrás, enquanto o modelo do DeepSeek foi treinado em novembro/dezembro, e o Sonnet ainda está claramente à frente do jogo em muitas avaliações internas e externas. Portanto, acho que uma declaração justa seria "A DeepSeek produziu um modelo com desempenho semelhante ao do modelo americano há 7 ou 10 meses, a um custo muito menor (mas nem de longe nas proporções que as pessoas estão sugerindo)".
- Se a tendência histórica de redução da curva de custos for de aproximadamente 4 vezes por ano, isso significa que, em uma atividade comercial normal - na tendência histórica normal de redução de custos que ocorrerá em 2023 e 2024 -, esperaríamos ter um modelo 3,5 vezes mais barato do que o modelo Sonnet/GPT-4o modelo mais barato por um fator de 3-4. Como o DeepSeek-V3 é pior do que esses modelos de fronteira dos EUA - digamos, cerca de um fator de 2 pior na curva de expansão, acho que isso já é bastante generoso com o DeepSeek-V3 - o que significa que se o DeepSeek V3 custar cerca de 8 vezes menos para ser treinado do que o modelo atual dos EUA desenvolvido há um ano, isso seria perfeitamente normal e perfeitamente "dentro da tendência". Não vou fornecer números específicos, mas o ponto anterior deixa claro que, mesmo que você considere os custos de treinamento do DeepSeek pelo valor de face, eles estão, na melhor das hipóteses, dentro da tendência, e provavelmente nem chegam perto. Por exemplo, isso é mais plano do que a diferença no preço de inferência (10x) do GPT-4 original para o Claude 3.5 Sonnet, que é um modelo melhor do que o GPT-4. **Tudo isso sugere que o DeepSeek-V3 não é um avanço único, nem muda fundamentalmente a economia do LLM; é um ponto esperado na curva de redução contínua de custos. A diferença é que, desta vez, foi uma empresa chinesa que demonstrou pela primeira vez a redução de custos esperada. **Isso nunca aconteceu antes e tem implicações geopolíticas significativas. No entanto, as empresas norte-americanas logo o seguirão - e não o farão copiando a DeepSeek, mas porque também estão percebendo as tendências usuais de redução de custos.
- A DeepSeek e a AI America têm mais dinheiro e mais chips do que nunca. Os chips extras são usados em P&D para desenvolver as ideias por trás dos modelos e, às vezes, para treinar modelos maiores que ainda não estão prontos (ou que precisam de várias tentativas para dar certo). Há informações - não temos certeza se são verdadeiras - de que o DeepSeek realmente tem50.000 Funilo que eu acho que é cerca de 2 a 3 vezes diferente do número de chips de propriedade das principais empresas de IA dos EUA (por exemplo, é mais do que o "Colosso"os clusters são 2 a 3 vezes menores). O custo desses 50.000 chips Hopper é de cerca de US$ 1 bilhão.Como resultado, o gasto total da DeepSeek como empresa (em oposição ao gasto com treinamento de modelos individuais) não é muito diferente do gasto dos laboratórios de IA dos EUA.
- Vale a pena observar que a análise da "curva estendida" é um pouco simplista, pois os modelos são um pouco diferentes, com diferentes pontos fortes e fracos; a figura da curva estendida é uma média aproximada que deixa de fora muitos detalhes. Só posso falar sobre o modelo do Anthropic, mas, como mencionei acima, Claude é muito bem projetado em termos de codificação e da maneira como interage com as pessoas (muitas pessoas o utilizam para buscar aconselhamento ou suporte pessoal). Simplesmente não há comparação com o DeepSeek nessas e em algumas tarefas adicionais. Esses fatores não estão presentes nos números ampliados.
R1que é um modelo lançado na semana passada que despertou muita atenção do público (incluindoAs ações da NVIDIA caem cerca de 17%), não é nem de longe tão interessante quanto a V3 do ponto de vista da inovação ou da engenharia. Ele adiciona um segundo estágio de treinamento - aprendizagem por reforço, conforme descrito no ponto 3 da seção anterior - e essencialmente replica o que a OpenAI fez com o o1 (eles parecem obter resultados semelhantes em escalas semelhantes)^8^. No entanto, como estamos nos estágios iniciais da curva de expansão, é provável que haja várias empresas produzindo esse tipo de modelo, desde que comecem com modelos pré-treinados sólidos. Considerando que o V3 provavelmente é muito barato para produzir R1. Portanto, estamos em um "ponto de cruzamento" interessante, em que, por enquanto, há várias empresas produzindo bons modelos de inferência. Isso acabará rapidamente quando todas as empresas ampliarem ainda mais suas curvas nesse tipo de modelo.
controle de exportação
Tudo isso é apenas um prelúdio para o meu principal tópico de interesse: controles de exportação de chips para a China. Diante desses fatos, minha visão da situação é a seguinte:
- Há uma tendência contínua de empresasGastando cada vez mais.para treinar modelos avançados de IA, mesmo que a curva mude periodicamente e o treinamentodeclarar com antecedênciaO custo da inteligência de modelos horizontais está diminuindo rapidamente. Só que o valor econômico do treinamento de modelos mais inteligentes é tão grande que qualquer benefício de custo é quase imediatamentecancelar completamente--Eles estão sendo reinvestidos na criação de modelos mais inteligentes com o mesmo custo enorme que planejamos gastar originalmente. Como os laboratórios dos EUA ainda não as descobriram, as inovações de eficiência desenvolvidas pelo DeepSeek serão aplicadas em breve por laboratórios dos EUA e da China para treinar modelos no valor de bilhões de dólares. Esses modelos terão um desempenho melhor do que os modelos de vários bilhões de dólares que eles planejavam treinar anteriormente, mas ainda assim custarão bilhões de dólares. Esse número continuará aumentando até chegarmos a um ponto em que a IA seja mais inteligente do que quase todos os humanos em quase tudo.
- A criação de uma IA mais inteligente do que quase todos os humanos em quase tudo exigirá milhões de chips, custará pelo menos dezenas de bilhões de dólares e provavelmente ocorrerá em 2026-2027. Os lançamentos do DeepSeek não mudam isso, pois se encaixam aproximadamente na curva de redução de custos que sempre foi considerada nesses cálculos.
- Isso significa que, em 2026-2027, poderemos estar vivendo em dois mundos muito diferentes. Nos EUA, várias empresas certamente terão os milhões de chips necessários (a um custo de dezenas de bilhões de dólares). A questão é se a China também terá acesso a milhões de chips.
- Se pudessem, estaríamos vivendo em umaos polos norte e sulNo mundo, tanto os EUA quanto a China têm modelos poderosos de IA que levarão a avanços extremamente rápidos em ciência e tecnologia - o que eu chamo de "Uma nação de gênios em um data center". Um mundo bipolar não é necessariamente sempre equilibrado. Mesmo que os sistemas de IA dos EUA e da China estejam no mesmo nível, a China poderá dedicar mais talento, capital e atenção às aplicações militares da tecnologia. Combinado com sua grande base industrial e vantagens estratégicas militares, isso poderia ajudar a China a alcançar o domínio no cenário global, não apenas em IA, mas em todos os aspectos.
- Se a Chinanão deveObtenha milhões de chips e nós viveremos (pelo menos temporariamente) em umaunipolarNo mundo unipolar, somente os Estados Unidos e seus aliados têm esses modelos. Não se sabe ao certo quanto tempo o mundo unipolar durará, mas é pelo menos uma possibilidade que oComo os sistemas de IA podem, em última análise, ajudar a criar sistemas de IA mais inteligentes, uma liderança temporária pode se transformar em uma vantagem duradoura. Como resultado, esse é um mundo no qual os Estados Unidos e seus aliados provavelmente assumirão uma liderança dominante e duradoura no cenário global.
- Controles de exportação rigorosamente aplicados são a única coisa que pode impedir a China de adquirir milhões de chips e, portanto, são o fator mais importante para determinar se acabaremos vivendo em um mundo unipolar ou bipolar.
- O desempenho do DeepSeek não significa que os controles de exportação falharam. Como eu disse acima, a DeepSeek tem um número moderado a grande de chips, portanto, não é surpreendente que eles tenham conseguido desenvolver e treinar um modelo poderoso. Eles não são mais limitados em recursos do que as empresas de IA dos EUA, e os controles de exportação não são um fator importante em sua "inovação". Eles são apenas engenheiros muito talentosos e mostram por que a China é um concorrente sério dos EUA.
- O DeepSeek também não mostra que a China sempre conseguirá obter os chips de que precisa por meio de contrabando, ou que sempre haverá brechas nos controles. Não acredito que os controles de exportação tenham sido projetados para impedir que a China obtenha dezenas de milhares de chips. Um bilhão de dólares de atividade econômica pode ser escondido, mas é difícil esconder US$ 100 bilhões ou até mesmo US$ 10 bilhões. Mais uma vez, é instrutivo dar uma olhada nos chips que a DeepSeek informa possuir atualmente. De acordo com a SemiAnalysis, trata-se de uma mistura de H100s, H800s e H20s, totalizando 50.000. Os H100s foram banidos pelos controles de exportação desde que foram lançados, portanto, se a DeepSeek possui algum, ele deve ter sido obtido por meio de contrabando (observe que a NVIDIAJá declaradoO progresso do DeepSeek é "totalmente compatível com a conformidade do controle de exportação"). o H800 foi permitido na primeira rodada de controles de exportação em 2022, mas foi proibido na atualização de outubro de 2023 dos controles, portanto, provavelmente foram enviados antes da proibição. o H20 é menos eficiente para treinamento, mais eficiente para amostragem --mas ainda é permitido, embora eu ache que deva ser banido. Tudo isso sugere que a maior parte da frota de chips de IA da DeepSeek consiste em chips que não foram proibidos (mas deveriam ter sido); chips que foram enviados antes da proibição; e alguns chips que parecem muito prováveis de terem sido contrabandeados. Isso sugere que os controles de exportação estão realmente funcionando e estão se adaptando: as brechas estão sendo fechadas; caso contrário, eles poderiam ter uma frota completa de H100s de primeira linha. Se conseguirmos fechá-las com rapidez suficiente, talvez consigamos impedir que a China obtenha milhões de chips, aumentando a probabilidade de um mundo unipolar no qual os EUA liderem.
Dadas as minhas preocupações com os controles de exportação e a segurança nacional dos EUA, quero ser claro. Não vejo a DeepSeek como um adversário em si, e o foco não está especificamente neles. Nas entrevistas que deram, eles parecem ser pesquisadores inteligentes e curiosos que estão apenas tentando criar uma tecnologia útil.
Mas eles estão sujeitos a um XXXX que viola o XX e age de forma agressiva no cenário mundial e, se conseguirem se equiparar aos EUA em IA, terão ainda mais liberdade para adotar esses comportamentos. Os controles de exportação são uma das ferramentas mais poderosas que temos para evitar isso, e pensar que a tecnologia se tornamais potenteRelação preço/desempenhomaiorA falta de controle de exportação é um motivo para suspender nossos controles de exportação, o que é totalmente injustificado.