DeepSeek: temas ignorados por los medios de comunicación

Noticias AIPublicado hace 1 año Círculo de intercambio de inteligencia artificial

45.5K 00

Colaboradores invitados Lennart Heim y Sihao Huang, este artículo es una publicación cruzada del blog de Lennart, que es colaborador habitual de ChinaTalk y participó recientemente en un debate sobre geopolítica en la era de la informática a prueba de tiempo, y Sihao, que ha escrito anteriormente sobre la visión de Pekín de la gobernanza mundial de la IA.

Informes recientes sobre DeepSeek Los informes sobre los modelos de IA se han centrado en gran medida en su rendimiento superior en la evaluación comparativa y el aumento de la eficiencia. Aunque estos logros son reconocibles y tienen implicaciones políticas (para más detalles, véase más abajo), la realidad del acceso a los recursos informáticos, los controles a la exportación y el desarrollo de la IA es más compleja de lo que presentan muchos informes. He aquí algunos puntos clave de interés:

Las verdaderas restricciones a la exportación de chips de inteligencia artificial comienzan en octubre de 2023, y las afirmaciones actuales sobre su ineficacia son prematuras. DeepSeek se entrenó con Nvidia H800, un chip diseñado para eludir el límite inicial de octubre de 2022. Para las tareas computacionales de DeepSeek, el rendimiento de estos chips es comparable al del H100 disponible en Estados Unidos. El último H20 de Nvidia, un chip de inteligencia artificial que aún puede exportarse a China, es más débil en la parte de entrenamiento, pero sigue siendo potente en la parte de despliegue.
A pesar de sus limitaciones en el entrenamiento, H20 sigue siendo ilimitado y robusto en despliegues de IA de vanguardia, especialmente en tareas que requieren mucha memoria, como el razonamiento contextual prolongado. Esto es fundamental, especialmente con tendencias como la computación en pruebas, la generación de datos sintéticos y el aprendizaje por refuerzo, procesos que dependen más de la memoria que de la potencia de cálculo. Dado que las restricciones a las exportaciones de memoria de gran ancho de banda (HBM) entrarán en vigor en diciembre de 2024, merece la pena vigilar la disponibilidad continuada de H20, especialmente en el contexto de una demanda de computación de IA que se inclina cada vez más hacia el lado de la implementación.
Los controles de las exportaciones de hardware tienen un efecto retardado y aún no son plenamente eficaces.
Nótese que todo esto presupone que los controles de exportación se aplican a la perfección, lo que no es el caso. Los controles de los semiconductores tienen muchas lagunas y hay pruebas creíbles de transferencias de chips a gran escala. Aunque el Marco de Difusión puede contribuir a colmar algunas de estas lagunas, el principal reto sigue siendo su aplicación. [JS: Por supuesto, los problemas de acceso persisten en la nube occidental ......China sigue utilizando centros de datos construidos antes de las restricciones a la exportación que contienen decenas de miles de chips, mientras que las empresas estadounidenses están construyendo centros de datos que contienen cientos de miles de chips. La verdadera prueba llegará cuando estos centros de datos necesiten actualizarse o ampliarse, un proceso que es más fácil para las empresas estadounidenses pero que supondrá un reto para las empresas chinas sujetas a controles de exportación. Si se necesitan 100.000 chips para entrenar a la próxima generación de modelos, los controles a la exportación afectarán significativamente al desarrollo de modelos de vanguardia en China. Sin embargo, incluso sin tales requisitos de formación a gran escala, los controles a la exportación tendrán un profundo impacto en el ecosistema chino de IA al reducir la capacidad de despliegue, limitar el desarrollo empresarial e inhibir la capacidad de sintetizar datos de formación y autojuego.

No es de extrañar que DeepSeek V3 complete su entrenamiento con menos recursos computacionales; el coste de los algoritmos de aprendizaje automático ha ido disminuyendo con el tiempo. Pero el mismo aumento de la eficiencia que permite a pequeñas empresas como DeepSeek acceder a las capacidades de la IA (es decir, "efecto accesibilidad"), y también puede permitir a otras empresas construir sistemas más potentes en clusters informáticos más grandes (es decir, "efecto de rendimiento"). Afortunadamente, DeepSeek entrenó a V3 utilizando sólo 2.000 H800 en lugar de 200.000 B200 (el chip de última generación de Nvidia).

El momento del lanzamiento tiene consideraciones estratégicas, pero la proeza técnica es real. El lanzamiento del R1 coincide con la toma de posesión del presidente Trump la semana pasada, y está claramente diseñado para socavar la confianza pública en el liderazgo de Estados Unidos en IA en un momento crítico para la política estadounidense. Es la misma estrategia que Huawei utilizó para lanzar su nuevo producto durante la visita de la ex secretaria de Comercio Raimondo a China. Al fin y al cabo, los resultados de las pruebas comparativas del R1 Preview se hicieron públicos en noviembre.
Este cuidadoso calendario de relaciones públicas no debe ocultar dos hechos: los avances tecnológicos de DeepSeek y sus retos estructurales actuales y futuros debido a los controles de exportación.
Es difícil que los controles a la exportación afecten con precisión a una única tarea de entrenamiento, pero pueden frenar eficazmente el desarrollo de todo un ecosistema de IA. En concreto, las limitaciones sobre los chips de última generación pueden restringir de forma efectiva los despliegues de IA a gran escala (es decir, hacer que los servicios de IA sean accesibles a un gran número de usuarios) y las mejoras de capacidades. Las empresas de IA suelen dedicar 60-80% de los recursos informáticos a los despliegues, incluso antes del auge de los modelos de razonamiento de cálculo intensivo. Limitar los recursos informáticos aumentará el coste de la IA china, reducirá su capacidad de despliegue a escala y limitará el rendimiento del sistema. Cabe señalar que la informática de despliegue no se limita al acceso de los usuarios, sino que también desempeña un papel clave en la generación de datos de entrenamiento sintéticos, facilitando la mejora de las capacidades mediante interacciones entre modelos, y en la creación, ampliación y optimización de modelos.
Por ejemplo, los recientes comentarios de Gwern señalan que la informática de despliegue desempeña un papel clave en el desarrollo de la IA mucho más allá del acceso de los usuarios. Modelos como el o1 de OpenAI pueden utilizarse para generar datos de entrenamiento de alta calidad, lo que crea un bucle de retroalimentación en el que las capacidades de despliegue impulsan directamente las capacidades de desarrollo y las mejoras generales de rendimiento.
Es posible que el aumento de la eficiencia de DeepSeek se deba al apoyo aritmético masivo que recibió anteriormente. A primera vista, el camino para reducir el uso de chips (es decir, "aumentar la eficiencia") puede parecer que empieza por tener mucha potencia de cálculo. deepSeek opera el primer clúster A100 de 10.000 chips de Asia y, según se informa, mantiene un clúster H800 de 50.000 chips, así como acceso ilimitado a proveedores de servicios en la nube (sujetos a controles de exportación) en China y en el extranjero. proveedores de servicios en la nube en China y en el extranjero (no sujetos a controles de exportación). Este amplio acceso a la potencia de cálculo es fundamental para su desarrollo de tecnologías eficientes mediante pruebas iterativas y para la prestación de servicios de modelado a sus clientes.
Recientemente, otras empresas de IA han experimentado picos de uso que han provocado interrupciones del servicio incluso cuando contaban con el apoyo de una mayor potencia de cálculo.Todavía no se ha probado si DeepSeek puede hacer frente a picos similares, y se enfrentarán a un reto con una potencia de cálculo limitada. (Sam Altman afirma incluso que ChatGPT Actualmente, los planes de suscripción Pro están perdiendo dinero).
Aunque su modelo R1 demostró una eficacia excelente, su proceso de desarrollo se basó en una gran cantidad de aritmética para la generación de datos sintéticos, la destilación y la experimentación.
Los controles a la exportación han exacerbado aún más la brecha aritmética entre EE.UU. y China, que sigue siendo una limitación importante para DeepSeek, cuyos dirigentes han reconocido públicamente que, incluso con una mayor eficiencia, siguen enfrentándose a una desventaja aritmética de 4x. Esto significa que necesitamos el doble de potencia de cálculo para obtener los mismos resultados", afirma Wenfeng Liang, fundador de DeepSeek. También hay una diferencia de aproximadamente el doble en la eficiencia de los datos, lo que significa que necesitamos el doble de datos de entrenamiento y potencia de cálculo para lograr resultados comparables. En conjunto, necesitaríamos 4 veces la potencia de cálculo". Y añade: "No tenemos planes de financiación a corto plazo. Nuestro problema nunca ha sido la financiación, sino el embargo de chips de gama alta".
Las principales empresas de IA de Estados Unidos mantienen en secreto sus capacidades más potentes, lo que significa que la evaluación comparativa pública no refleja con exactitud la imagen completa del desarrollo de la IA. Las empresas chinas tienden a compartir los progresos públicamente, mientras que Antrópico y OpenAI, entre otras, conservan gran parte de sus capacidades privadas. Las comparaciones directas basadas en información pública son, por tanto, incompletas.DeepSeek ha llamado la atención en parte por su apertura: comparten en detalle las ponderaciones de los modelos y las metodologías, lo que contrasta con la tendencia de las empresas occidentales a ser cada vez más cerradas. Sin embargo, queda por ver si la apertura conduce necesariamente a una ventaja estratégica.

¿Qué significa eso?

Los logros de DeepSeek son reales e importantes. Es inexacto tachar sus avances de simple propaganda. Sus costes de formación no son inéditos y las tendencias históricas de eficiencia algorítmica así lo corroboran. Sin embargo, las comparaciones deben considerarse cuidadosamente en su contexto: DeepSeek sólo informa de los costes finales previos al entrenamiento, ignorando gastos clave como los de personal, preexperimentación, adquisición de datos y desarrollo de infraestructuras. Para más detalles sobre las comparaciones engañosas que pueden resultar de diferentes métodos de cálculo de costes, véase este artículo.

El aumento de la eficiencia aritmética significa que las capacidades de la IA acabarán proliferando. Los controles por sí solos no bastan; se necesitan medidas complementarias para mejorar la resistencia y las defensas de la sociedad, establecer instituciones capaces de identificar, evaluar y responder a los riesgos de la IA, y construir un sistema de defensa sólido contra las posibles amenazas de la IA por parte de los adversarios. Sin embargo, también debemos reconocer que los controles a la exportación ya han tenido un impacto en el desarrollo de la IA en China y podrían tener un efecto aún mayor en el futuro.

Puede que los modelos en sí mismos no sean lo que muchos consideran un "foso estratégico", pero el impacto de la potencia aritmética en la seguridad nacional varía según el escenario de aplicación. Para las aplicaciones que requieren un despliegue a gran escala (por ejemplo, la vigilancia masiva), las limitaciones de capacidad pueden ser un obstáculo importante. En cambio, para aplicaciones de usuario único, el impacto de la regulación es menos significativo. La relación entre la disponibilidad aritmética y las capacidades de seguridad nacional sigue siendo compleja, aunque las propias capacidades modelizadas son cada vez más fáciles de reproducir.

Aunque las capacidades de IA pueden proliferar a pesar de los controles, y detener la proliferación por completo siempre será difícil, estos controles siguen siendo fundamentales para mantener la ventaja tecnológica. Los controles permiten ganar un tiempo valioso, pero siguen siendo necesarias políticas complementarias para garantizar que las democracias se mantengan a la vanguardia y sean capaces de defenderse de los desafíos de posibles rivales.