Aplicación a gran escala de la API DeepSeek de la tecnología de almacenamiento en caché de disco duro: un paso clave en la civilización de grandes modelos
-- Un debate sobre la lógica más profunda de las guerras de precios de las API de los grandes modelos, la optimización de la experiencia del usuario y la inclusión de la tecnología.

Crédito de la imagen: documentación oficial de DeepSeek
En un momento en el que la competencia en el campo de los grandes modelos de IA se está recrudeciendo, DeepSeek ha anunciado recientemente que su servicio API utiliza de forma innovadora laTecnología de caché de disco duroEl ajuste de precios de DeepSeek es impactante: el precio de la parte de golpe de caché se reduce directamente a una décima parte del precio anterior, refrescando una vez más la línea de fondo del precio de la industria. Como revisor de terceros que lleva mucho tiempo preocupado por la tecnología de big models y las tendencias del sector, creo que el movimiento de DeepSeek no es sólo una revolución de costes impulsada por la innovación tecnológica, sino también una profunda optimización de la experiencia de usuario de la API de big models y un paso importante para acelerar la generalización de la tecnología de big models.
Innovación tecnológica: sutilezas de la caché del disco duro y saltos de rendimiento
DeepSeek es muy consciente de los elevados costes y los problemas de latencia que han limitado durante mucho tiempo la adopción generalizada de las API de grandes modelos, y la omnipresente duplicación contextual de las peticiones de los usuarios es un factor clave que contribuye a estos problemas. Por ejemplo, en los diálogos de varias rondas, es necesario volver a introducir el historial de diálogos anteriores en cada ronda; en las tareas de procesamiento de textos largos, Prompt contiene a menudo referencias repetidas. Computación repetitiva Ficha Desperdicia aritmética y aumenta la latencia.
Para solucionar este problema, DeepSeek introduce de forma creativa la tecnología de caché contextual en el disco duro. El principio básico es almacenar en caché de forma inteligente el contenido contextual que se prevé reutilizar en el futuro, como el historial de diálogos, los preajustes del sistema, los ejemplos de Few-shot, etc., en una matriz de disco duro distribuida. Cuando un usuario inicia una nueva solicitud de API, el sistema detecta automáticamente si el prefijo de la entrada coincide con el contenido almacenado en caché (nota: el prefijo debe ser idéntico para acceder a la caché). En caso afirmativo, el sistema lee el duplicado directamente de la caché del disco duro de alta velocidad sin recalcular, optimizando así la latencia y el coste.
Para entender mejor cómo funciona la memoria caché, veamos un par de ejemplos. DeepSeek Ejemplo oficial proporcionado:
Ejemplo 1: Escenario de diálogo a varias rondas
Característica principal: las siguientes rondas de diálogo acceden automáticamente a la caché de contexto de la ronda anterior.
En los diálogos de varias rondas, en los que los usuarios suelen formular preguntas sucesivas en torno a un mismo tema, el almacenamiento en caché del disco duro de DeepSeek puede reutilizar eficazmente el contexto del diálogo. Por ejemplo, en el siguiente escenario de diálogo:
Primera petición:
messages: [
{"role": "system", "content": "你是一位乐于助人的助手"},
{"role": "user", "content": "中国的首都是哪里?"}
]
Segunda petición:
messages: [
{"role": "system", "content": "你是一位乐于助人的助手"},
{"role": "user", "content": "中国的首都是哪里?"},
{"role": "assistant", "content": "中国的首都是北京。"},
{"role": "user", "content": "美国的首都是哪里?"}
]

Crédito de la imagen: documentación oficial de DeepSeek
Ejemplo de éxito de la caché en un escenario de diálogo con varias rondas: las rondas de diálogo posteriores acceden automáticamente a la caché de contexto de la ronda anterior.
En la segunda petición, como la parte del prefijo (mensaje del sistema + primer mensaje del usuario) es exactamente igual a la de la primera petición, esta parte será golpeada por la caché sin tener que repetir el cálculo, reduciendo así la latencia y el coste.
Según los datos oficiales de DeepSeek, en escenarios extremos con 128.000 entradas y el mayor número de repeticiones, la latencia medida del primer token se desplomó de 13 segundos a 500 milisegundos, lo que supone una asombrosa mejora del rendimiento. Incluso en escenarios no extremos, puede reducir eficazmente la latencia y mejorar la experiencia del usuario.
Además, el servicio de almacenamiento en caché del disco duro de DeepSeek está completamente automatizado y es independiente del usuario. Puede disfrutar de las ventajas de rendimiento y precio del almacenamiento en caché sin tener que cambiar ningún código o interfaz API. El nuevo prompt_cache_hit_tokens (hits de caché) en el campo de uso devuelto por la API le permite ver cuántos hits de caché ha recibido. fichas (número de tokens) y prompt_cache_miss_tokens (número de tokens perdidos) para monitorizar los accesos a la caché en tiempo real y evaluar mejor y optimizar el rendimiento de la caché.
DeepSeek es capaz de tomar la delantera en la aplicación de la tecnología de caché de disco duro a gran escala, lo que es inseparable de su avanzada arquitectura de modelos. La estructura MLA (Multi-head Latent Attention) propuesta por DeepSeek V2 comprime significativamente el tamaño de la KV Cache contextual, al tiempo que garantiza el rendimiento del modelo, lo que hace posible almacenar la KV Cache en un disco duro de bajo coste, lo que sienta las bases para que la tecnología de caché de disco duro arraigue en el mercado. Esto hace posible almacenar la KV Cache en un disco duro de bajo coste, lo que sienta las bases para que la tecnología de almacenamiento en caché en disco duro arraigue en el mercado.
comprensión DeepSeek-R1 API Cache Hit vs. Precio:Uso de la API DeepSeek-R1 Preguntas frecuentes
Escenarios de aplicación: desde largas preguntas y respuestas textuales hasta análisis de código, ¡los límites son infinitamente ampliables!
Los escenarios de aplicación de la tecnología de almacenamiento en caché de disco duro son muy amplios, y casi cualquier modelo de aplicación de gran tamaño que incluya entradas contextuales puede beneficiarse de ella. El artículo original enumera los siguientes escenarios típicos y ofrece ejemplos más específicos:
- Un asistente de preguntas con palabras largas preestablecidas:
- Característica principal: Los avisos fijos del sistema pueden almacenarse en caché, lo que reduce el coste por petición.
- Por ejemplo:
Ejemplo 2: Escenario de preguntas y respuestas con texto largo
Característica principal: varios análisis del mismo documento pueden llegar a la caché.
Los usuarios tienen que analizar el mismo informe de resultados y plantearse preguntas diferentes:
Primera petición:
messages: [
{"role": "system", "content": "你是一位资深的财报分析师..."},
{"role": "user", "content": "<财报内容>\n\n请总结一下这份财报的关键信息。"}
]
Segunda petición:
messages: [
{"role": "system", "content": "你是一位资深的财报分析师..."},
{"role": "user", "content": "<财报内容>\n\n请分析一下这份财报的盈利情况。"}
]
En la segunda petición, como la parte del mensaje del sistema y del mensaje del usuario tiene el mismo prefijo que la primera petición, esta parte puede ser golpeada por la caché para ahorrar recursos informáticos.
- Aplicaciones de juegos de rol con varias rondas de diálogo:
- Características principales: gran reutilización del historial de diálogos y almacenamiento en caché significativo.
- (El ejemplo 1 se ha mostrado en detalle)
- Análisis de datos para colecciones de textos fijos:
- Características principales: múltiples análisis y cuestionarios sobre el mismo documento con alta repetición de prefijos.
- Por ejemplo, múltiples análisis y sesiones de preguntas y respuestas sobre un mismo informe financiero o documento jurídico. (El ejemplo 2 se ha mostrado en detalle)
- Herramientas de análisis de código y resolución de problemas a nivel de repositorio de código:
- Característica principal: Las tareas de análisis de código suelen implicar una gran cantidad de contexto, y el almacenamiento en caché puede ser eficaz para reducir costes.
- Aprendizaje de pocos disparos:
- Característica principal: Los ejemplos de Few-shot prefijados con Prompt pueden almacenarse en caché, lo que reduce el coste de múltiples llamadas a Few-shot.
- Por ejemplo:
Ejemplo 3: Escenario de aprendizaje con pocos disparos
Característica principal: el mismo ejemplo de Few-shot puede almacenarse en caché como prefijo.
Los usuarios utilizan el aprendizaje Few-shot para mejorar la eficacia del modelo en el cuestionario de conocimientos históricos:
Primera petición:
messages: [
{"role": "system", "content": "你是一位历史学专家,用户将提供一系列问题,你的回答应当简明扼要,并以`Answer:`开头"},
{"role": "user", "content": "请问秦始皇统一六国是在哪一年?"},
{"role": "assistant", "content": "Answer:公元前221年"},
{"role": "user", "content": "请问汉朝的建立者是谁?"},
{"role": "assistant", "content": "Answer:刘邦"},
{"role": "user", "content": "请问唐朝最后一任皇帝是谁"},
{"role": "assistant", "content": "Answer:李柷"},
{"role": "user", "content": "请问明朝的开国皇帝是谁?"},
{"role": "assistant", "content": "Answer:朱元璋"},
{"role": "user", "content": "请问清朝的开国皇帝是谁?"}
]
Segunda petición:
messages: [
{"role": "system", "content": "你是一位历史学专家,用户将提供一系列问题,你的回答应当简明扼要,并以`Answer:`开头"},
{"role": "user", "content": "请问秦始皇统一六国是在哪一年?"},
{"role": "assistant", "content": "Answer:公元前221年"},
{"role": "user", "content": "请问汉朝的建立者是谁?"},
{"role": "assistant", "content": "Answer:刘邦"},
{"role": "user", "content": "请问唐朝最后一任皇帝是谁"},
{"role": "assistant", "content": "Answer:李柷"},
{"role": "user", "content": "请问明朝的开国皇帝是谁?"},
{"role": "assistant", "content": "Answer:朱元璋"},
{"role": "user", "content": "请问商朝是什么时候灭亡的"},
]
En la segunda petición, dado que se utiliza el mismo ejemplo de 4 disparos como prefijo, esta parte puede ser alcanzada por la caché y sólo es necesario recalcular la última pregunta, lo que reduce significativamente el coste del aprendizaje de Pocos disparos.

Crédito de la imagen: documentación oficial de DeepSeek
Ejemplo de impacto en caché en un escenario de análisis de datos: las solicitudes con el mismo prefijo pueden impactar en la caché (nota: la imagen aquí sigue el ejemplo original de análisis de datos y se centra más en el concepto de duplicación de prefijos, que puede interpretarse de la misma manera que el escenario del ejemplo Few-shot).
Estos escenarios son sólo la punta del iceberg. La aplicación de la tecnología de caché de disco duro realmente abre la imaginación para la aplicación de APIs de modelos grandes de contexto largo. Por ejemplo, podemos crear herramientas de creación de textos largos más potentes, gestionar tareas más complejas que requieran muchos conocimientos y desarrollar aplicaciones de IA conversacional más profundas y memorables.
Referencia: Inspirado por Claude
Ventaja de coste: los precios caen en órdenes de magnitud para beneficiar a la gran ecología de modelos
El ajuste de precios de la API de DeepSeek es "épico", con la parte de la API correspondiente a los aciertos de caché a un precio de 0,10 $/millón de tokens y la parte correspondiente a los aciertos a 1 $/millón de tokens. El precio de un éxito de caché es de sólo 0,1 dólares por millón de tokens, y el precio de un fallo es de sólo 1 dólar por millón de tokens, lo que supone un orden de magnitud inferior al precio anterior de un éxito de caché.
Según los datos oficiales de DeepSeek, puede ahorrar hasta 90%, e incluso sin ninguna optimización, los usuarios pueden ahorrar más de 50% en total. Esta ventaja de costes es de gran importancia para reducir el umbral de aplicación de grandes modelos y acelerar su popularidad.
Lo más interesante es la estrategia de precios de DeepSeek. El precio de los aciertos y errores de la caché está escalonado para animar a los usuarios a hacer el mayor uso posible de la caché, optimizar el diseño de Prompt y aumentar la tasa de aciertos de la caché, reduciendo así aún más el coste. Al mismo tiempo, ni el servicio de caché en sí ni el espacio de almacenamiento en caché cobran tarifas adicionales, lo que resulta realmente cómodo para el usuario.

Crédito de la imagen: documentación oficial de DeepSeek
El precio de la API de DeepSeek se ha reducido considerablemente, y los accesos a la caché cuestan tan sólo 0,1 $/millón de tokens.
La importante reducción de precios de DeepSeek API acelerará sin duda la evolución de la guerra de precios de los grandes modelos. Sin embargo, a diferencia de la anterior competencia de precios simple, la reducción de precios de DeepSeek es una reducción de precios racional basada en la innovación tecnológica y la optimización de costes, que es más sostenible e impulsada por la industria. Esta sana competencia de precios beneficiará en última instancia a todo el ecosistema de big models, de modo que más desarrolladores y empresas puedan disfrutar de tecnología avanzada de big models a menor coste.
Streaming y concurrencia ilimitados, servicios de caché seguros y fiables
Además de las ventajas de rendimiento y precio, la estabilidad y seguridad de DeepSeek API también son dignas de confianza. El servicio DeepSeek API está diseñado de acuerdo con la capacidad de 1 billón de tokens al día, con streaming y concurrencia ilimitados para todos los usuarios, lo que garantiza la calidad del servicio en condiciones de alta carga.
DeepSeek también ha tenido muy en cuenta la seguridad de los datos. Las cachés de cada usuario están separadas y aisladas lógicamente unas de otras, lo que garantiza la seguridad y privacidad de los datos de los usuarios. Las cachés que no se han utilizado durante mucho tiempo se vacían automáticamente (normalmente entre unas horas y unos días) y no se guardan durante mucho tiempo ni se utilizan para otros fines, lo que reduce aún más los posibles riesgos de seguridad.
Debe tenerse en cuenta que el sistema de caché utiliza 64 tokens como unidad de almacenamiento, y cualquier cosa menor de 64 tokens no será almacenada en caché. Además, el sistema de caché es "best effort" y no garantiza 100% aciertos de caché. Además, la construcción de la caché tarda segundos, pero para escenarios de contexto largo, esto es perfectamente aceptable.
Actualización del modelo y perspectivas de futuro
Cabe mencionar que junto con el lanzamiento de la tecnología de almacenamiento en caché de disco duro, DeepSeek también anunció que el modelo deepseek-chat se ha actualizado a DeepSeek-V3, y el modelo deepseek-reasoner es el nuevo modelo DeepSeek-R1. Los nuevos modelos ofrecen un mejor rendimiento y capacidades a un precio significativamente más bajo, mejorando aún más la la competitividad de la API DeepSeek.
Según la información oficial sobre precios, la API DeepSeek-V3 (deepseek-chat) disfruta de un precio con descuento hasta las 24:00 del 8 de febrero de 2025, con un precio de sólo 0,1 $/millón de tokens para los aciertos en caché, 1 $/millón de tokens para las entradas perdidas y 2 $/millón de tokens para las salidas. La API DeepSeek-R1 (deepseek-reasoner) se posiciona como un modelo de inferencia con una longitud de cadena de pensamiento de 32K y una longitud de salida máxima de 8K, con un precio de entrada (aciertos en caché) de 1 $/millón de tokens. DeepSeek-R1 API (deepseek-reasoner) se posiciona como un modelo de inferencia con 32K de longitud de cadena de pensamiento y 8K de longitud máxima de salida, con un precio de entrada de $1/millón de tokens para los aciertos en caché, $4/millón de tokens para las entradas perdidas, y $16/millón de tokens para las salidas (todos los tokens de la cadena de pensamiento y la respuesta final). y todos los tokens de la respuesta final).
La serie de iniciativas innovadoras de DeepSeek demuestra su continua inversión en tecnología y su filosofía de dar prioridad al usuario. Tenemos motivos para creer que con DeepSeek y más fuerzas innovadoras, la tecnología de grandes modelos acelerará su madurez, se hará más inclusiva y aportará cambios de mayor alcance a todas las industrias.
observaciones finales
El uso innovador de la tecnología de almacenamiento en caché de disco duro y la importante reducción de precios de la API de DeepSeek constituyen un avance histórico. Este paso de DeepSeek puede redefinir el modelo de competencia de las API de grandes modelos, acelerar la popularidad y la aplicación de la tecnología de IA y, en última instancia, construir un ecosistema de grandes modelos más próspero, abierto e inclusivo.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Puestos relacionados
Sin comentarios...