El CEO de Anthropic respalda la hegemonía de la IA en EE.UU. denunciando la "amenaza china

Noticias AIActualizado hace 1 año Círculo de intercambio de inteligencia artificial

49.5K 00

Comentario:

1. Desacreditar el desarrollo de la IA en China y presentar la "teoría de la amenaza china".

El autor del artículo adopta la postura de que Estados Unidosexagerar deliberadamente DeepSeek La supuesta "amenaza" para EE.UU. de los avances tecnológicos de las empresas chinas de IA y otras, y la forzada asociación de ésta con la llamada "amenaza XXX", es un argumento que está plagado dementalidad de guerra fríaresponder cantandoprejuicios ideológicos.

El autor reconoce la innovación y eficacia de DeepSeek, pero luego da media vuelta y atribuye su éxito a "estar sometida a un XXXX que violaba el XXXX", una acusación infundada que ignora por completo el hecho de que las empresas chinas de IA dependen de sus propios esfuerzos y de mecanismos basados en el mercado para tener éxito.
El autor utiliza el pretexto de "impedir que China obtenga ventajas XX" para defender la política estadounidense de control de las exportaciones de chips, pero evita hablar de su propio uso de las ventajas tecnológicas para reprimir a sus competidores.doble raseroExpuesto.

2. Mantener la hegemonía tecnológica de EE.UU. e intentar frenar el desarrollo de la IA en China

El objetivo principal del artículo esPreservar el dominio mundial de EE.UU. en IAe intentó hacerlo:

Exagerar el papel del control de las exportacionesEl autor afirma que el control de las exportaciones es "la única forma de impedir que China adquiera millones de chips" y lo considera un factor determinante del futuro panorama mundial. Este argumento ignora la complejidad de la cadena industrial mundial y el propio progreso tecnológico de China.
- De hecho, China está aumentando su inversión en investigación y desarrollo de chips y ha logrado avances significativos. Aunque los controles de exportación estadounidenses han tenido cierto impacto en el desarrollo de la IA china, no pueden detener el progreso continuo de la tecnología china de IA.
Defensa del "desacoplamiento tecnológico"El autor da a entender que Estados Unidos debería seguir reforzando su embargo tecnológico contra China, e incluso sugiere que Estados Unidos debería aprovechar la tecnología de la IA para establecer una "ventaja duradera", lo que sin duda aboga por el "desacoplamiento tecnológico" y va en contra de la tendencia a la globalización.
- Este enfoque no sólo perjudicará los intereses de China, sino también los de los propios Estados Unidos, e impedirá el progreso científico y tecnológico y el desarrollo económico mundiales.

3. Ignorar la naturaleza del desarrollo de la IA y engañar a la opinión pública

El artículo es tendencioso en su comprensión del desarrollo de la IA, laénfasis excesivoLa "ley de la escala" y el "efecto de escala" ignoran los siguientes factores importantes:

La tendencia multipolar en el desarrollo de la IAEl desarrollo de la tecnología de IA no es el único camino en Estados Unidos, China, Europa y otros países y regiones están explorando activamente el camino del desarrollo de la IA y han logrado sus propias ventajas.
Ética y seguridad de la IAEl desarrollo de la inteligencia artificial plantea problemas éticos y de seguridad que deben abordarse conjuntamente mediante la cooperación mundial, no a través del unilateralismo y el bloqueo tecnológico.
Impacto de la IA en la sociedad humana:: La tecnología de la IA debe servir en última instancia al desarrollo y el progreso de la sociedad humana, en lugar de convertirse en una herramienta para los juegos de las grandes potencias.

4. Llamamiento a una visión racional de la competencia chino-estadounidense en IA y a la promoción de la cooperación mundial

Ante las oportunidades y los retos del desarrollo de la IA, China y Estados Unidos deberían:

Abandonar el pensamiento de suma ceroChina y EE.UU. no sólo mantienen una relación competitiva en el campo de la IA, sino que deben reforzar la cooperación y promover conjuntamente el progreso tecnológico y el desarrollo industrial de la IA a escala mundial.
Reforzar la comunicación y el diálogoEl objetivo es que ambas partes mantengan intercambios en profundidad sobre cuestiones clave del desarrollo de la IA para mejorar el entendimiento y evitar malentendidos y errores de cálculo.
Elaboración conjunta de normas de gobernanza de la IAChina y Estados Unidos deben trabajar con otros países para promover el establecimiento de un sistema de gobernanza mundial de la IA justo, equitativo e integrador que garantice que la tecnología de la IA beneficia a toda la humanidad.

lectura rápida

1. Avances tecnológicos y ventajas económicas de DeepSeek

Rendimiento similar al de los modelos de IA más avanzados de EE.UU.Los modelos publicados por DeepSeek (especialmente DeepSeek-V3) se acercan al rendimiento de los modelos estadounidenses más avanzados en algunas tareas importantes, como la codificación, las competiciones matemáticas y las tareas de razonamiento [Parte II del artículo original, "Los modelos de DeepSeek"].
Importantes reducciones de costesEl coste de formación de los modelos de DeepSeek es muy inferior al de las empresas estadounidenses. Por ejemplo, el entrenamiento de DeepSeek-V3 costó unos 6 millones de dólares, frente a los 2,5 millones de dólares de DeepSeek-V3. Antrópico (utilizado como expresión nominal) Claude 3.5 El entrenamiento de Sonnet cuesta decenas de millones de dólares [Parte II del artículo original, "El modelo de DeepSeek"].
No es un avance "disruptivo".Los autores sostienen que los logros de DeepSeek no son "avances únicos", sino que se sitúan dentro de la curva prevista de descenso de los costes de la IA [Parte II del artículo original, "DeepSeek's Model"].

2. Tres grandes avances en el desarrollo de la IA

la ley de la expansiónA medida que aumenta la escala de entrenamiento del sistema de IA, el rendimiento en las tareas cognitivas mejora suavemente. Por ejemplo, si el tamaño del modelo pasa de 1 millón de dólares a 100 millones, la tasa de resolución de tareas aumenta de 20% a 60% [Artículo original, Parte I, "Tres dinámicas clave"].
transferencia curva (física)El coste de la formación puede reducirse mejorando la arquitectura del modelo, aumentando la eficiencia del hardware, etc. Por ejemplo, la API de Claude 3.5 Sonnet es unas 10 veces más barata que la de GPT-4. Por ejemplo, el precio de la API de Claude 3.5 Sonnet es unas 10 veces inferior al de GPT-4 [Parte 1 del artículo original, "Tres grandes avances"].
cambio de paradigmaSe están introduciendo nuevos métodos de entrenamiento, como el aprendizaje por refuerzo, en el proceso de entrenamiento de la IA. Por ejemplo, empresas como Anthropic, DeepSeek y otras están explorando el uso del aprendizaje por refuerzo para entrenar modelos que mejoren el razonamiento [Parte 1 del artículo original, "Tres grandes avances"].

3. Recursos de DeepSeek frente a las empresas estadounidenses de IA

Número de fichasDeepSeek cuenta con unos 50.000 chips de la generación Hopper (incluidos los H100, H800 y H20), lo que equivale a unas 2 o 3 veces el número de chips que poseen las principales empresas de IA en EE.UU. [Parte 2 del artículo original, "El modelo de DeepSeek"].
inversión de capitalNo hay mucha diferencia entre DeepSeek y las empresas estadounidenses de IA en términos de inversión de capital, ambas han invertido mucho dinero en investigación y desarrollo de IA [Parte 2 del artículo original, "El modelo de DeepSeek"].

4. Controles de exportación de chips de EE.UU. a China

controlEl modelo de DeepSeek: Estados Unidos ha aplicado varias rondas de medidas de control de las exportaciones de chips contra China, como la prohibición de exportar chips H100 a China y la restricción de la exportación de chips H800 [Parte II del artículo original, "DeepSeek's Model"].
Efectos de controlLos autores sostienen que los controles a la exportación son eficaces y que la mayoría de los chips utilizados por DeepSeek no estaban prohibidos o se enviaron antes de la prohibición [Parte II del artículo original, "DeepSeek's Model"].
perspectivas de futuroEl autor sostiene que un estricto control de las exportaciones es la clave para impedir que China adquiera millones de chips, y que esto determinará si el futuro panorama mundial será unipolar o bipolar [Parte II del artículo original, "Controles de las exportaciones"].

5. Implicaciones geopolíticas del desarrollo de la IA

Concurso de inteligencia artificial entre EE.UU. y ChinaEl autor cree que el desarrollo de la IA provocará un aumento de la competencia entre China y Estados Unidos, y puede conducir a un modelo bipolar de "países genio en los centros de datos" [Parte II del artículo original, "Controles a la exportación"].
Ventaja americanaEl autor argumenta que Estados Unidos debería utilizar su ventaja tecnológica en IA para construir una ventaja duradera que impida a China hacerse con el dominio en el campo de la IA [Parte II del artículo original, "Controles a la exportación"].

6. Otros puntos de vista sobre el desarrollo de la IA

Coste y valor de la IAAunque el coste de formación de los modelos de IA ha disminuido con los avances tecnológicos, el valor económico de una mayor inteligencia en los modelos de IA es mayor, lo que hace que las empresas estén dispuestas a invertir más dinero [Artículo original, Parte I, "Las tres dinámicas"].
Incertidumbre en el desarrollo de la IALos autores reconocen que existen incertidumbres en el desarrollo de la IA, por ejemplo, que los sistemas de IA puedan ayudar a crear sistemas de IA más inteligentes, lo que podría llevar a que una ventaja temporal se convirtiera en una ventaja duradera [Parte II del artículo original, "Controles a la exportación"].

Lectura crítica Texto completo de "On DeepSeek and Export Controls" de Anthropic CEO

Hace unas semanasartículo (en publicación)argumentó que Estados Unidos debería reforzar los controles sobre las exportaciones de chips chinos. Desde entonces, una empresa china de IA llamada DeepSeek se ha acercado -al menos en algunos aspectos- al rendimiento de los modelos de IA de vanguardia de Estados Unidos, con un coste inferior.

Aquí no me centraré en si DeepSeek supone una amenaza para las empresas estadounidenses de IA como Anthropic (aunque creo que las afirmaciones sobre su amenaza al liderazgo estadounidense en IA son muy exageradas). En cambio, me centraré en si la publicación de DeepSeek debilita los argumentos a favor de las políticas de control de las exportaciones de chips. No creo que lo haga. No lo creo.Creo que hacen que la política de control de las exportaciones sea aún más vital que hace una semana..

Los controles de las exportaciones tienen un propósito crucial: mantener a las democracias en la vanguardia del desarrollo de la IA. Para ser claros, no son una forma de esconderse de la competencia entre Estados Unidos y China. En última instancia, si queremos prevalecer, las empresas de IA de Estados Unidos y otras democracias deben tener mejores modelos que China. Pero no debemos dar a China una ventaja tecnológica cuando no tenemos que XXX.

Tres grandes avances de la inteligencia artificial

Antes de presentar mi argumento político, describiré tres dinámicas básicas de los sistemas de IA que son cruciales:

Leyes ampliadas. Una de las características de la inteligencia artificial - trabajé con mis cofundadores en OpenAI es laRegistros más antiguosUna de las personas de este carácter - es queEn igualdad de condiciones(matemáticas) géneroAumentar el entrenamiento de los sistemas de inteligencia artificial permite obtener mejores resultados en una serie de tareas cognitivas.. Por ejemplo, un modelo de 1 millón de dólares podría resolver la importante tarea de codificación 20%, uno de 10 millones podría resolver 40%, uno de 100 millones podría resolver 60%, y así sucesivamente. Estas diferencias suelen tener enormes implicaciones en la práctica -un aumento de otro orden de magnitud puede corresponder a una diferencia en el nivel de conocimientos de licenciatura a doctorado-, por lo que las empresas invierten mucho en la formación de estos modelos.
Desplazamiento de la curva. En este campo no paran de surgir ideas, grandes y pequeñas, para hacer las cosas más eficaces o más eficientes: puede tratarse de modelarconstruyamejoras (retoques de la arquitectura Transformer utilizada por todos los modelos actuales), o simplemente ejecutar los modelos en el hardware subyacente de una manera más eficiente. Las nuevas generaciones de hardware tienen el mismo efecto. Por lo generalcurva de transferenciaSi la innovación es un "multiplicador computacional" (MC) 2x, entonces permite gastar 5 millones de dólares en lugar de 10 millones en una tarea de codificación para llegar a 40%; o 50 millones en lugar de 100 millones para llegar a 60%, y así sucesivamente. Toda empresa puntera en IA encuentra regularmente muchas de estas CM: normalmente pequeñas (~1,2x), a veces medianas (~2x) y ocasionalmente muy grandes (~10x). Como el valor de poseer un sistema más inteligente es tan alto, este desplazamiento de la curva suele dar lugar a que la empresaGastar másEn última instancia, las ganancias en eficiencia de costes se utilizan exclusivamente para entrenar modelos más inteligentes, limitados únicamente por los recursos financieros de la empresa. A la gente le atrae naturalmente la idea de que "primero algo es caro, luego se abarata", como si la IA fuera una masa constante y, a medida que se abarate, utilizaremos menos chips para entrenarla. Pero esto es lo importante.curva de expansiónCuando se desplaza, la recorremos más deprisa porque el valor al final de la curva es muy alto. En 2020, mi equipo publicó undebatir sobre una ponencia o tesis (antiguo)Esto indica que debido a laaritméticaprogreso, la curva se desplazaba a un ritmo de unas 1,68 veces al año. Probablemente se haya acelerado considerablemente desde entonces; tampoco tiene en cuenta la eficiencia y el hardware. Yo diría que hoy en día esa cifra es probablemente unas 4 veces al año. Otra estimación esaquí están. El desplazamiento de la curva de formación también desplazó la curva de inferencia, de modo que a lo largo de los años en elManteniendo constante la masa del modelose han producido importantes reducciones de precio. Por ejemplo, Claude 3.5 Sonnet salió al mercado 15 meses después que la GPT-4 original y obtuvo mejores resultados que ésta en casi todas las pruebas comparativas, mientras que al mismo tiempo el precio de la API se redujo en un factor de aproximadamente 10.
Cambio de paradigma. De vez en cuando, lo que se amplía cambia un poco o se añade un nuevo tipo de ampliación durante la formación. De 2020 a 2023, las principales cosas que se amplían sonModelo de preentrenamientomodelos entrenados con una cantidad cada vez mayor de texto de Internet, más un poco de otro tipo de entrenamiento. en 2024, los modelos entrenados conMejora del aprendizaje(RL) para entrenar modelos que generen cadenas de pensamiento se ha convertido en un nuevo enfoque para el escalado. anthropic, DeepSeek y muchos otros (quizás el más notable OpenAI con el lanzamiento de su modelo o1-preview en septiembre) han descubierto que este tipo de entrenamiento mejora drásticamente el rendimiento en ciertas tareas específicas y objetivamente medibles (por ejemplo, matemáticas, competiciones de codificación y razonamiento similar a razonamiento similar a estas tareas). Este nuevo paradigma implicaa través de (un hueco)Modelos ordinarios preentrenadosinauguracióny, a continuación, utilizaron la RL como segunda etapa para añadir habilidades de razonamiento. Es importante destacar que, dado que este tipo de RL es nuevo, aún nos encontramos en las primeras fases de la curva de expansión: los gastos para la fase de RL de segunda etapa fueron pequeños en todos los participantes. Gastar un millón de dólares en lugar de 100.000 es suficiente para cosechar enormes beneficios. Las empresas trabajan ahora muy rápidamente para ampliar la fase II a cientos de millones o incluso miles de millones de dólares, pero es fundamental comprender que nos encontramos en un "punto de cruce" único en el que un nuevo y potente paradigma se encuentra en una fase temprana de la curva de ampliación y, por tanto, puede obtener enormes beneficios muy rápidamente.

El modelo de DeepSeek

Las tres dinámicas mencionadas pueden ayudarnos a entender el reciente lanzamiento de DeepSeek. Hace aproximadamente un mes, DeepSeek lanzó un nuevo software llamado "DeepSeek-V3"El modelo, que es unaModelo de preentrenamiento-Fase 1, como ya se ha mencionado. Luego, la semana pasada, lanzaron "DeepSeek-R1", añadiendo una segunda fase. Es imposible determinar todos los detalles de estos modelos desde el exterior, pero aquí está mi mejor comprensión de los dos lanzamientos.

DeepSeek-V3es realmente innovador, ydeberíaLlamó la atención de la gente hace aproximadamente un mes (nosotros sí que nos dimos cuenta). Como modelo preentrenado, parece acercarse al rendimiento de los modelos estadounidenses más avanzados en ciertas tareas importantes, a la vez que es considerablemente más barato de entrenar (aunque hemos descubierto que Claude 3.5 Sonnet sigue siendo mucho mejor en otras tareas críticas, como la codificación en el mundo real). El equipo de DeepSeek lo ha conseguido con algunas innovaciones realmente impresionantes, centradas principalmente en la eficiencia de la ingeniería. Se han producido mejoras especialmente innovadoras en la gestión de una caché de valores clave denominada "key-value caching" y en el manejo de un enfoque denominado "expert blending".

Sin embargo, es importante fijarse bien:

DeepSeek no "hizo por 6 millones de dólares lo que las empresas estadounidenses de IA pueden hacer por miles de millones de dólares". Solo puedo hablar por Anthropic, pero Claude 3.5 Sonnet es un modelo de tamaño medio cuyo entrenamiento costó decenas de millones de dólares (no daré cifras exactas). Además, el entrenamiento de Sonnet 3.5 no implicó en modo alguno un modelo mayor o más caro (en contra de algunos rumores.) Sonnet se entrenó hace 9-12 meses, mientras que el modelo de DeepSeek se entrenó en noviembre/diciembre, y Sonnet sigue estando claramente por delante en muchas evaluaciones internas y externas. Así que creo que una afirmación justa sería "DeepSeek fabricó un modelo con prestaciones similares al modelo estadounidense hace 7-10 meses, a un coste mucho menor (pero ni de lejos en las proporciones que la gente insinúa)".
Si la tendencia histórica de los descensos de la curva de costes es de unas 4 veces al año, eso significa que en una actividad comercial normal -en la tendencia histórica normal de descensos de costes que se produce en 2023 y 2024- esperaríamos tener ahora un modelo 3,5 veces más barato que el Sonnet/GPT-4o modelo más barato por un factor de 3-4. Dado que DeepSeek-V3 es peor que esos modelos de frontera de EE.UU. - digamos que aproximadamente un factor de 2 peor en la curva de expansión, creo que eso ya es bastante generoso con DeepSeek-V3 - lo que significa que si DeepSeek V3 cuesta unas 8 veces menos de entrenar que el actual modelo estadounidense desarrollado hace un año, eso sería perfectamente normal y perfectamente "en tendencia". No voy a dar cifras concretas, pero del punto anterior se desprende claramente que, incluso si se toman los costes de formación de DeepSeek al pie de la letra, en el mejor de los casos están dentro de la tendencia, y probablemente ni siquiera se acerquen. Por ejemplo, esto es más plano que la diferencia en el precio de inferencia (10x) del GPT-4 original a Claude 3.5 Sonnet, que es un modelo mejor que el GPT-4. **Todo esto sugiere que DeepSeek-V3 no es un avance único, ni cambia fundamentalmente la economía de LLM; es un punto esperado en la curva de reducción de costes en curso. La diferencia es que esta vez ha sido una empresa china la primera en demostrar la esperada reducción de costes. **Esto no había ocurrido nunca y tiene importantes implicaciones geopolíticas. Sin embargo, las empresas estadounidenses pronto le seguirán, y no lo harán copiando a DeepSeek, sino porque también se están dando cuenta de las tendencias habituales de reducción de costes.
Tanto DeepSeek como AI America tienen más dinero y más chips que nunca. Los chips adicionales se utilizan en I+D para desarrollar las ideas en las que se basan los modelos y, a veces, para entrenar modelos más grandes que aún no están listos (o que necesitan varios intentos para funcionar correctamente). Hay informes -no estamos seguros de que sean ciertos- de que DeepSeek dispone de50.000 Tolvalo que supongo que es unas 2-3 veces más que el número que poseen las principales empresas de IA de EE.UU. (por ejemplo, es más que "Colossus"clusters" son 2-3 veces menos). El coste de estos 50.000 chips Hopper es de unos 1.000 millones de dólares.Como resultado, el gasto total de DeepSeek como empresa (en contraposición al gasto en formación de modelos individuales) no es tan diferente del de los laboratorios de IA estadounidenses.
Vale la pena señalar que el análisis de la "curva ampliada" es un poco simplista, ya que los modelos son algo diferentes, con distintos puntos fuertes y débiles; la cifra de la curva ampliada es una media aproximada que omite muchos detalles. Sólo puedo hablar del modelo de Anthropic, pero como he aludido antes, Claude está muy bien diseñado en términos de codificación y de la forma en que interactúa con la gente (mucha gente lo utiliza para buscar consejo o apoyo personal). Simplemente no hay comparación con DeepSeek en estas y algunas tareas adicionales. Estos factores no están presentes en las cifras ampliadas.

R1que es un modelo publicado la semana pasada que ha despertado un gran interés público (incluidoLas acciones de NVIDIA caen unos 17%), no es ni de lejos tan interesante como V3 desde el punto de vista de la innovación o la ingeniería. Añade una segunda etapa de entrenamiento -el aprendizaje por refuerzo, como se describe en el punto 3 de la sección anterior- y esencialmente replica lo que OpenAI hizo con o1 (parecen lograr resultados similares a escalas similares)^.8^. Sin embargo, dado que nos encontramos en las primeras fases de la curva de expansión, es probable que haya varias empresas que produzcan este tipo de modelos, siempre y cuando partan de modelos preentrenados sólidos. Dado que V3 es probablemente muy barato de producir R1. Así pues, nos encontramos en un interesante "punto de cruce", en el que por el momento hay varias empresas que producen buenos modelos de inferencia. Esto se detendrá rápidamente a medida que todas las empresas amplíen más sus curvas en este tipo de modelos.

control de las exportaciones

Todo esto no es más que el preludio de mi principal tema de interés: el control de las exportaciones de chips a China. A la vista de estos hechos, mi visión de la situación es la siguiente:

Hay una tendencia continua de las empresasGastando cada vez más.para entrenar potentes modelos de IA, aunque la curva se desplace periódicamente y el entrenamientodeclarar por adelantadoEl coste de la inteligencia de los modelos horizontales disminuye rápidamente. Lo que ocurre es que el valor económico de la formación de modelos más inteligentes es tan grande que cualquier beneficio en costes es casi inmediatamenteanular completamente--Se están reinvirtiendo en fabricar modelos más inteligentes con el mismo enorme coste que teníamos previsto gastar en un principio. Dado que los laboratorios estadounidenses aún no las han descubierto, las innovaciones en eficiencia desarrolladas por DeepSeek pronto serán aplicadas por laboratorios de Estados Unidos y China para entrenar modelos por valor de miles de millones de dólares. Estos modelos funcionarán mejor que los modelos multimillonarios que planeaban entrenar anteriormente, pero seguirán costando miles de millones de dólares. Esa cifra seguirá aumentando hasta que lleguemos al punto en que la IA sea más inteligente que casi todos los humanos en casi todo.
Crear una IA que sea más inteligente que casi todos los humanos en casi todo requerirá millones de chips, costará al menos decenas de miles de millones de dólares y lo más probable es que ocurra en 2026-2027. los lanzamientos de DeepSeek no cambian eso, ya que se ajustan aproximadamente a la curva de reducción de costes que siempre se ha tenido en cuenta en estos cálculos.
Esto significa que en 2026-2027 podríamos estar viviendo en dos mundos muy diferentes. En Estados Unidos, varias empresas dispondrán sin duda de los millones de chips necesarios (a un coste de decenas de miles de millones de dólares). La cuestión es si China también tendrá acceso a millones de chips.
- Si pudieran, viviríamos en unlos polos norte y surUU y China cuentan con potentes modelos de IA que conducirán a avances extremadamente rápidos en ciencia y tecnología, lo que yo llamo "Una nación de genios en un centro de datos". Un mundo bipolar no siempre está necesariamente equilibrado. Aunque los sistemas de IA estadounidenses y chinos estén a la par, China podría dedicar más talento, capital y atención a las aplicaciones militares de la tecnología. Combinado con su gran base industrial y sus ventajas estratégico-militares, esto podría ayudar a China a alcanzar el dominio en la escena mundial, no sólo en IA, sino en todos los aspectos.
- Si Chinano debeConsigue millones de fichas y viviremos (al menos temporalmente) en ununipolarmundo, sólo Estados Unidos y sus aliados disponen de estos modelos. No está claro cuánto durará el mundo unipolar, pero es al menos una posibilidad que elDado que los sistemas de IA pueden, en última instancia, ayudar a crear sistemas de IA más inteligentes, una ventaja temporal puede traducirse en una ventaja duradera. En consecuencia, se trata de un mundo en el que Estados Unidos y sus aliados probablemente asumirán un liderazgo dominante y duradero en la escena mundial.
El estricto control de las exportaciones es lo único que puede impedir que China adquiera millones de chips y, por tanto, es el factor más importante para determinar si acabamos viviendo en un mundo unipolar o bipolar.
El rendimiento de DeepSeek no significa que fallaran los controles de exportación. Como he dicho antes, DeepSeek tiene un número de chips entre moderado y grande, por lo que no es sorprendente que hayan podido desarrollar y entrenar un modelo potente. No tienen más recursos que las empresas estadounidenses de IA, y los controles a la exportación no son un factor importante en su "innovación". Simplemente son ingenieros con mucho talento y demuestran por qué China es un serio competidor de Estados Unidos.
DeepSeek tampoco demuestra que China vaya a poder conseguir siempre los chips que necesita a través del contrabando, o que siempre vaya a haber lagunas en los controles. No creo que los controles a la exportación se diseñaran nunca para impedir que China obtuviera decenas de miles de chips. mil millones de dólares de actividad económica pueden ocultarse, pero es difícil ocultar 100.000 millones de dólares o incluso 10.000 millones de dólares. un millón de chips también podría ser difícil de contrabandear. Una vez más, es instructivo observar los chips que DeepSeek dice poseer actualmente. Según SemiAnalysis, se trata de una mezcla de H100, H800 y H20, con un total de 50.000. Los H100 están prohibidos por los controles de exportación desde que salieron al mercado, así que si DeepSeek tiene alguno, tuvo que obtenerlo mediante contrabando (nótese que NVIDIAYa declaradoEl progreso de DeepSeek es "totalmente conforme con el cumplimiento de los controles de exportación"). el H800 se permitió en la primera ronda de controles de exportación en 2022, pero se prohibió en la actualización de octubre de 2023 de los controles, por lo que estos fueron enviados probablemente antes de la prohibición. el H20 es menos eficiente para la formación, más eficiente para la toma de muestras -pero sigue estando permitido, aunque creo que debería estar prohibido. Todo esto sugiere que la mayor parte de la flota de chips de IA de DeepSeek está formada por chips que no estaban prohibidos (pero que deberían haberlo estado); chips que se enviaron antes de la prohibición; y algunos que parece muy probable que se hayan pasado de contrabando. Esto sugiere que los controles de exportación están funcionando y se están adaptando: las lagunas se están cerrando; de lo contrario, podrían tener una flota completa de H100 de primer nivel. Si somos capaces de cerrarlas con la suficiente rapidez, quizá podamos impedir que China se haga con millones de chips, aumentando la probabilidad de un mundo unipolar en el que Estados Unidos sea líder.

Dada mi preocupación por el control de las exportaciones y la seguridad nacional de Estados Unidos, quiero ser claro. No veo a DeepSeek como un adversario per se, y el foco no está específicamente en ellos. En las entrevistas que han concedido, parecen investigadores inteligentes y curiosos que sólo intentan crear tecnología útil.

Pero están sometidos a un XXXX que viola el XX y actúa agresivamente en la escena mundial, y si son capaces de igualar a EE.UU. en IA, tendrán aún más libertades en esos comportamientos. El control de las exportaciones es una de las herramientas más poderosas que tenemos para impedirlo, y pensar que la tecnología se convierte enmás potenteRelación calidad/preciomayores una razón para levantar nuestros controles a la exportación, algo totalmente injustificado.

Noticias AI

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

Próximas novedades para Claude: Asistente de código nativo y Herramientas de investigación en profundidad.

Noticias AI

hace 1 año

047.1K

DeepSeek 低成本模型搅局，OpenAI 战略重心转向高阶智能，GPT-4.5已准备就绪！

Los modelos de bajo coste de DeepSeek agitan la olla, el enfoque estratégico de OpenAI se desplaza hacia la inteligencia de orden superior y GPT-4.5 está listo para funcionar.

Noticias AI

hace 1 año

048.7K

NVIDIA abre el modelo gráfico SANA de Vincennes: imágenes 4K sobre la marcha para implantaciones locales

Noticias AI

hace 1 año

041.5K

Recomiende algunas alternativas a CHATGPT

Noticias AI

hace 2 años

047.9K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

El CEO de Anthropic respalda la hegemonía de la IA en EE.UU. denunciando la "amenaza china

Comentario:

lectura rápida

1. Avances tecnológicos y ventajas económicas de DeepSeek

2. Tres grandes avances en el desarrollo de la IA

3. Recursos de DeepSeek frente a las empresas estadounidenses de IA

4. Controles de exportación de chips de EE.UU. a China

5. Implicaciones geopolíticas del desarrollo de la IA

6. Otros puntos de vista sobre el desarrollo de la IA

Lectura crítica Texto completo de "On DeepSeek and Export Controls" de Anthropic CEO

Tres grandes avances de la inteligencia artificial

El modelo de DeepSeek

control de las exportaciones

Harvard publica una guía de aplicaciones generativas de IA para estudiantes con cuatro recomendaciones y 33 estrategias

Los productos para PC Microsoft Azure+Copilot+AI son totalmente compatibles con los modelos DeepSeek R1

Artículos relacionados

Próximas novedades para Claude: Asistente de código nativo y Herramientas de investigación en profundidad.

Los modelos de bajo coste de DeepSeek agitan la olla, el enfoque estratégico de OpenAI se desplaza hacia la inteligencia de orden superior y GPT-4.5 está listo para funcionar.

NVIDIA abre el modelo gráfico SANA de Vincennes: imágenes 4K sobre la marcha para implantaciones locales

Recomiende algunas alternativas a CHATGPT

Sin comentarios

Últimas colecciones

Últimos artículos

El CEO de Anthropic respalda la hegemonía de la IA en EE.UU. denunciando la "amenaza china

Comentario:

lectura rápida

1. Avances tecnológicos y ventajas económicas de DeepSeek

2. Tres grandes avances en el desarrollo de la IA

3. Recursos de DeepSeek frente a las empresas estadounidenses de IA

4. Controles de exportación de chips de EE.UU. a China

5. Implicaciones geopolíticas del desarrollo de la IA

6. Otros puntos de vista sobre el desarrollo de la IA

Lectura crítica Texto completo de "On DeepSeek and Export Controls" de Anthropic CEO

Tres grandes avances de la inteligencia artificial

El modelo de DeepSeek

control de las exportaciones

Harvard publica una guía de aplicaciones generativas de IA para estudiantes con cuatro recomendaciones y 33 estrategias

Los productos para PC Microsoft Azure+Copilot+AI son totalmente compatibles con los modelos DeepSeek R1

Artículos relacionados

Próximas novedades para Claude: Asistente de código nativo y Herramientas de investigación en profundidad.

Los modelos de bajo coste de DeepSeek agitan la olla, el enfoque estratégico de OpenAI se desplaza hacia la inteligencia de orden superior y GPT-4.5 está listo para funcionar.

NVIDIA abre el modelo gráfico SANA de Vincennes: imágenes 4K sobre la marcha para implantaciones locales

Recomiende algunas alternativas a CHATGPT

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos