DeepSeek-V3.2-Exp - El último modelo experimental de IA de código abierto de DeepSeek
Últimos recursos sobre IAPublicado hace 3 semanas Círculo de intercambio de inteligencia artificial 13.9K 00
¿Qué es DeepSeek-V3.2-Exp?
DeepSeek-V3.2-Exp es el modelo experimental de IA de código abierto de DeepSeek que mejora significativamente la eficiencia del procesamiento de textos largos mediante la introducción del mecanismo DeepSeek Sparse Attention (DSA). El modelo se basa enDeepSeek-V3.1-TerminusDeepSeek-V3.2-Exp ha sido entrenado continuamente, introduciendo únicamente DSA en su arquitectura, implementando un mecanismo de atención dispersa de grano fino, y seleccionando eficientemente la información clave con la ayuda del indexador de rayos, lo que mejora enormemente la eficiencia en el entrenamiento y el razonamiento sobre textos largos.DeepSeek-V3.2-Exp es básicamente igual a DeepSeek-V3.1-Terminus en varios conjuntos de revisiones públicas. Terminus es esencialmente igual, lo que demuestra sus capacidades en diferentes dominios.

Características de DeepSeek-V3.2-Exp
- mecanismo de atención dispersa (en física de partículas)DeepSeek-V3.2-Exp introduce DeepSeek Sparse Attention (DSA), que mejora significativamente la eficiencia del procesamiento de textos largos mediante un mecanismo de atención dispersa de grano fino, manteniendo la salida del modelo.
- Capacidad de tratamiento de textos largosEl modelo admite longitudes de contexto de secuencias largas de hasta 160.000, lo que resulta especialmente adecuado para escenarios de procesamiento de textos largos, como el análisis de documentos largos y la generación de textos largos.
- Reducción de costes APILos precios de la API han bajado drásticamente, reduciendo el coste para los desarrolladores de llamar a la API de DeepSeek en más de 50%, lo que permite a más desarrolladores acceder y utilizar el modelo a un coste menor.
- Soporte multiplataformaAplicación oficiala través de InternetLos applets se han actualizado a DeepSeek-V3.2-Exp, lo que permite a los usuarios utilizar el modelo directamente en varias plataformas sin necesidad de configuración adicional.
- compartir código abiertoDeepSeek-V3.2-Exp es de código abierto en las plataformas Hugging Face y ModelScope, y proporciona detalles detallados de implementación y pesos de los modelos para que los investigadores y desarrolladores puedan estudiarlos y aplicarlos.
- optimización del rendimientoDeepSeek-V3.2-Exp rinde esencialmente igual que DeepSeek-V3.1-Terminus en múltiples conjuntos de revisiones públicas, al tiempo que reduce significativamente los costes de inferencia en el procesamiento de textos largos.
- Despliegue flexibleLos usuarios pueden descargar los pesos del modelo desde la plataforma Hugging Face para su ejecución local, que puede ajustarse en función del modelo para adaptarse mejor a escenarios de aplicación específicos.
Principales ventajas de DeepSeek-V3.2-Exp
- Mejora de la eficienciaDeepSeek-V3.2-Exp: DeepSeek-V3.2-Exp mejora significativamente la eficiencia del procesamiento de textos largos y reduce el coste de inferencia mediante un mecanismo de atención dispersa.
- rendimiento estableEl rendimiento del modelo está esencialmente a la par con DeepSeek-V3.1-Terminus en varios conjuntos de revisión pública, manteniendo un alto nivel de rendimiento.
- Reducción de costes: Los precios de las API han bajado considerablemente, lo que reduce el coste de uso para los desarrolladores y permite a más usuarios acceder al modelo y utilizarlo a un coste menor.
- adaptableEl modelo muestra una buena adaptabilidad a tareas en diferentes dominios, incluyendo el razonamiento matemático, la generación de código y los agentes de búsqueda, lo que demuestra su amplia aplicabilidad.
Comparación del rendimiento de DeepSeek-V3.2-Exp frente a V3.1-Terminus
- Mejora de la eficacia del razonamientoDeepSeek-V3.2-Exp es significativamente más rápido en la inferencia de textos largos, unas 2-3 veces más rápido en comparación con V3.1-Terminus. Al procesar contextos largos de 128K, el coste de inferencia se reduce significativamente, sobre todo en la fase de descodificación.
- El rendimiento es básicamente el mismoDeepSeek-V3.2-Exp: DeepSeek-V3.2-Exp tiene aproximadamente el mismo rendimiento que V3.1-Terminus en conjuntos de revisiones públicas en todos los dominios. Por ejemplo, en MMLU-Pro ambos obtienen una puntuación de 85,0.
- Menor uso de memoriaDeepSeek-V3.2-Exp ha reducido el uso de memoria en unos 30-40% en comparación con V3.1-Terminus.
- Mayor eficacia de la formaciónLa eficiencia de entrenamiento de DeepSeek-V3.2-Exp mejora en unos 50% en comparación con V3.1-Terminus.
- Diferencias en el rendimiento específico de la tareaEn tareas de programación, DeepSeek-V3.2-Exp obtuvo 2121 puntos en Codeforces, ligeramente superior a los 2046 de V3.1-Terminus; pero en exámenes de humanidades como "Humanity's Last Exam", V3.2-Exp obtuvo 19,8 puntos, inferior a los 21,7 de V3.1-Terminus. Pero en exámenes de humanidades como "El último examen de la humanidad", V3.2-Exp obtuvo una puntuación de 19,8, inferior a la de 21,7 de V3.1-Terminus.

¿Cuál es el sitio web oficial de DeepSeek-V3.2-Exp?
- Biblioteca de modelos HuggingFace:: https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp
- Comunidad Magic Matching:: https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Exp
- Documentos técnicos:: https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf
¿Para quién es DeepSeek-V3.2-Exp?
- desarrolladoresEl precio reducido de la API de DeepSeek-V3.2-Exp lo convierte en una opción ideal para los desarrolladores sensibles a los costes, y es especialmente adecuado para el desarrollo de aplicaciones que necesitan procesar textos largos o tienen altos requisitos de eficiencia de inferencia.
- creador de contenidosPara creadores que necesitan generar contenidos largos de forma eficiente, como escritores, redactores publicitarios, etc., para proporcionar rápidamente inspiración creativa y ayuda en la escritura.
- educadorLa tecnología de la información: puede utilizarse en el ámbito de la educación para ayudar en la generación de contenidos didácticos, la organización de materiales de aprendizaje y la tutoría inteligente, ayudando a los educadores a mejorar la eficacia de su trabajo.
- usuario empresarialSistema de gestión de la información: Adecuado para el servicio inteligente de atención al cliente, el procesamiento de documentos, el análisis de datos y otros escenarios dentro de la empresa, para mejorar la eficiencia operativa y la inteligencia de la empresa.
- usuario habitualLos usuarios normales pueden experimentar fácilmente las potentes funciones del modelo a través de la aplicación, el sitio web y el applet oficiales, que pueden satisfacer sus necesidades diarias de generación de texto y recuperación de información.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...




