Detrás de la tormenta DeepSeek: Ng advierte de que la competición abierta de modelos remodelará el panorama de los valores de la IA en EE.UU. y China

Noticias AIPublicado hace 1 año Círculo de intercambio de inteligencia artificial

Queridos amigos.

esta semana DeepSeek La expectación generada ha puesto de manifiesto varias tendencias importantes para muchos: (i) China está alcanzando a EE.UU. en IA generativa, lo que está teniendo un impacto significativo en la cadena de suministro de la IA; (ii) los modelos de ponderación abiertos están mercantilizando la capa del modelo base, creando oportunidades para los desarrolladores de aplicaciones; y (iii) la ampliación no es la única forma de que progrese la IA. A pesar de que la industria se centra en la potencia aritmética, la innovación algorítmica está reduciendo rápidamente los costes de formación.

Hace aproximadamente una semana, la empresa china DeepSeek lanzó el DeepSeek-R1 El modelo, cuyo rendimiento es comparable al de OpenAI o1 en las pruebas comparativas, abre las pesas bajo licencia MIT. La semana pasada, en Davos, muchos empresarios sin formación técnica me preguntaron sobre este tema. El lunes se produjo una "DeepSeek sell-off" en el mercado bursátil: las acciones de varias empresas tecnológicas estadounidenses, entre ellas NVIDIA, se desplomaron (y se han recuperado parcialmente en el momento de escribir estas líneas).

Creo que DeepSeek pone de manifiesto los siguientes puntos:

La IA generativa china acorta distancias con EE.UU... Cuando se publique ChatGPT en noviembre de 2022, Estados Unidos estará significativamente por delante de China en IA generativa. Las percepciones de la gente tardan en cambiar, por lo que recientemente todavía hay amigos en China y EE. UU. que piensan que China se está quedando atrás. Pero, de hecho, esta brecha se ha ido cerrando rápidamente en los últimos dos años. vía lit. diez mil preguntas sobre principios generales (modismo); fig. una larga lista de preguntas y respuestas (Mi equipo lleva meses utilizándolo), Kimi Con modelos chinos como InternVL y DeepSeek, está claro que China está acortando distancias, e incluso se ha adelantado temporalmente en áreas como la generación de vídeo.

Me alienta que DeepSeek-R1 se publique como código abierto con un informe técnico detallado. Por el contrario, varias empresas estadounidenses han promovido políticas que restringen el código abierto exagerando riesgos hipotéticos como la "extinción de la IA". Ahora está claro que los modelos de código abierto/ponderación abierta se han convertido en una parte clave de la cadena de suministro de la IA: muchas empresas los adoptarán. Si Estados Unidos sigue bloqueando el código abierto, China dominará la cadena de suministro y, en última instancia, la mayoría de las empresas utilizarán modelos que reflejen más los valores chinos que los estadounidenses.

Los modelos de ponderación abiertos están mercantilizando la capa del modelo base. Como mencioné anteriormente, los precios de los Token de modelos de grandes lenguajes están bajando rápidamente, y la ponderación abierta acelera esta tendencia y ofrece más opciones a los desarrolladores. openAI o1 cobra 60 dólares por millón de Token de salida.Y el DeepSeek R1 sólo cuesta 2,19 $.Esta diferencia de precios de casi 30 veces ha provocado una preocupación generalizada por la tendencia a la baja de los precios. Esta diferencia de casi 30 veces ha provocado una tendencia a la baja de los precios que ha atraído una amplia atención.

El negocio de la formación de modelos de base y la venta de acceso a API está plagado de retos. Muchas empresas de este sector siguen buscando formas de recuperar el elevado coste de la formación. El artículo "AI's $600 Billion Conundrum" describe elocuentemente este reto (pero para ser claros, creo que las empresas de modelos base están haciendo un gran trabajo y espero que tengan éxito). Por el contrario, existe una enorme oportunidad de negocio en la creación de aplicaciones basadas en modelos básicos. Dado que otros han invertido miles de millones en modelos de formación, puedes conseguirlos por unos pocos dólares para desarrollar aplicaciones como chatbots de atención al cliente, resumidores de correo electrónico, médicos con IA, asistentes de documentos legales y mucho más.

Los avances de la IA no se basan sólo en el escalado.. El argumento de que la ampliación de los modelos impulsa el progreso está muy extendido. Para ser justos, yo fui uno de los primeros defensores del argumento de la escala. Las empresas recaudaron miles de millones de dólares promoviendo la idea de que más capital (i) aumentaría la escala y (ii) mejoraría constantemente los resultados. Esto ha llevado a un enfoque excesivo en la ampliación a expensas de otras múltiples vías de progreso. Impulsado por la prohibición de los chips de IA en EE.UU., el equipo de DeepSeek tuvo que innovar muchas optimizaciones en las GPU H800, más débiles, que finalmente mantuvieron el coste de entrenamiento del modelo (excluida la inversión en investigación) por debajo de los 6 millones de dólares.

Queda por ver si esto reducirá realmente la demanda aritmética. A veces, una disminución del precio unitario de los bienes provoca, en cambio, un aumento del gasto total. Creo que, a largo plazo, la demanda humana de inteligencia y poder aritmético casi no tiene límite superior, por lo que, aunque el coste disminuya, los seres humanos seguirán consumiendo más recursos inteligentes.

Las redes sociales han estado llenas de interpretaciones contradictorias de los avances de DeepSeek, trazando diferentes posiciones como si se tratara de una prueba de manchas de tinta de Rorschach. No creo que la repercusión geopolítica de DeepSeek-R1 se haya hecho aún realidad, pero es una bendición para los desarrolladores de aplicaciones de inteligencia artificial. Mi equipo ya ha empezado a pensar en nuevas ideas que sólo pueden hacerse realidad con la ayuda de modelos de inferencia abiertos y avanzados. Sigue siendo el mejor momento para crear aplicaciones de IA.

Noticias AI

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

Reedición de Hybrid-T1: compatible con Mamba, redefine la velocidad de inferencia

Noticias AI

hace 1 año

045.4K

Grok 3 震撼发布：推理智能体性能炸裂！API 首发 “5 美元充 150 美元”

Lanzamiento impactante de Grok 3: ¡el cuerpo de inteligencia de razonamiento explota! La API estrena el "cargo de 5 dólares por 150 dólares"

Noticias AI

hace 1 año

052.1K

OpenAI 要开源 GPT 了？未来AI蓝图震撼曝光：GPT-5、Agent、定价策略全方位解读！

¿OpenAI abrirá el código GPT? El futuro proyecto de IA al descubierto: GPT-5, Agente, estrategia de precios explicada en todos sus aspectos.

Noticias AI

hace 1 año

048.3K

Snowflake 发布 Arctic Embed 2.0 多语言向量模型，实现高质量中文检索

Snowflake lanza el modelo vectorial multilingüe Arctic Embed 2.0 para búsquedas de alta calidad en chino

Noticias AI

hace 1 año

059.9K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

Detrás de la tormenta DeepSeek: Ng advierte de que la competición abierta de modelos remodelará el panorama de los valores de la IA en EE.UU. y China

DeepSeek: temas ignorados por los medios de comunicación

[spin] Deepseek R1 puede haber encontrado una forma de superar a los humanos

Artículos relacionados

Reedición de Hybrid-T1: compatible con Mamba, redefine la velocidad de inferencia

Lanzamiento impactante de Grok 3: ¡el cuerpo de inteligencia de razonamiento explota! La API estrena el "cargo de 5 dólares por 150 dólares"

¿OpenAI abrirá el código GPT? El futuro proyecto de IA al descubierto: GPT-5, Agente, estrategia de precios explicada en todos sus aspectos.

Snowflake lanza el modelo vectorial multilingüe Arctic Embed 2.0 para búsquedas de alta calidad en chino

Sin comentarios

Últimas colecciones

Últimos artículos

Detrás de la tormenta DeepSeek: Ng advierte de que la competición abierta de modelos remodelará el panorama de los valores de la IA en EE.UU. y China

DeepSeek: temas ignorados por los medios de comunicación

[spin] Deepseek R1 puede haber encontrado una forma de superar a los humanos

Artículos relacionados

Reedición de Hybrid-T1: compatible con Mamba, redefine la velocidad de inferencia

Lanzamiento impactante de Grok 3: ¡el cuerpo de inteligencia de razonamiento explota! La API estrena el "cargo de 5 dólares por 150 dólares"

¿OpenAI abrirá el código GPT? El futuro proyecto de IA al descubierto: GPT-5, Agente, estrategia de precios explicada en todos sus aspectos.

Snowflake lanza el modelo vectorial multilingüe Arctic Embed 2.0 para búsquedas de alta calidad en chino

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos