Tifa-Deepsex-14b-CoT: una gran modelo especializada en juegos de rol y generación de ficción ultralarga

Introducción general

Tifa-Deepsex-14b-CoT es un gran modelo basado en la optimización profunda Deepseek-R1-14B, centrado en el juego de roles, la generación de textos ficticios y la capacidad de razonamiento de la Cadena de Pensamiento (CoT). Mediante el entrenamiento y la optimización en varias fases, el modelo resuelve los problemas del modelo original de coherencia insuficiente en la generación de textos largos y de escasa capacidad de juego de rol, lo que resulta especialmente adecuado para escenarios creativos que requieren una correlación contextual de largo alcance. Mediante la fusión de conjuntos de datos de alta calidad y el preentrenamiento incremental, el modelo mejora significativamente la relevancia contextual, reduce las no-respuestas y elimina la mezcla chino-inglés, aumentando el vocabulario específico del dominio para un mejor rendimiento en el juego de roles y la generación de novelas. Además, el modelo admite 128.000 contextos ultralargos para escenarios que requieren diálogos profundos y autorías complejas.

Esta es una versión de Deepseek-R1-14B profundamente optimizada para la ficción de larga duración y los escenarios de rol, y cuenta con un sencillo cliente Android disponible para su descarga. Actualizaciones actuales Deepsex2 Edición.

Tifa-Deepsex-14b-CoT:擅长角色扮演与超长小说生成的大模型

 

Lista de funciones

  • Admite diálogos en profundidad para escenarios de juegos de rol, generando respuestas que se ajustan a la personalidad y el trasfondo del personaje.
  • Proporcionar habilidades de generación de textos ficticios para crear historias o tramas coherentes y largas.
  • Capacidad de razonamiento en cadena para situaciones que requieran deducción lógica y resolución de problemas complejos.
  • Admite un contexto ultralargo de 128 k para garantizar una gran coherencia y consistencia en la generación de textos largos.
  • El modelo optimizado reduce el fenómeno del rechazo de respuestas, y la seguridad se preserva moderadamente para diversas necesidades de autoría.
  • Ofrece diversas versiones de cuantificación (por ejemplo, F16, Q8, Q4), que se adaptan a distintos entornos de hardware para facilitar su implantación y uso.

 

Utilizar la ayuda

Instalación y despliegue

El modelo Tifa-Deepsex-14b-CoT está alojado en la plataforma Hugging Face, y los usuarios deben seleccionar la versión adecuada del modelo (por ejemplo, F16, Q8, Q4) en función de su entorno y requisitos de hardware. A continuación se detalla el proceso de instalación y despliegue:

1. Descargar el modelo

  • Visite la página del modelo Hugging Face en https://huggingface.co/ValueFX9507/Tifa-Deepsex-14b-CoT.
  • Seleccione la versión de cuantificación adecuada (por ejemplo, Q4_K_M.gguf) en función del soporte de hardware. Haga clic en el archivo correspondiente para descargar los pesos del modelo.
  • Si necesitas usar el APK de demostración, puedes descargar directamente la aplicación de demostración proporcionada oficialmente (necesitas importar manualmente la tarjeta de personaje y seleccionar la API personalizada).

2. Preparación medioambiental

  • Asegúrese de que el entorno Python está instalado (se recomienda Python 3.8 o superior).
  • Instala las bibliotecas de dependencias necesarias, como transformers, huggingface_hub, etc. Se pueden instalar con los siguientes comandos:
    pip install transformers huggingface-hub
    
  • Si utiliza un modelo con formato GGUF, se recomienda instalar el módulo llama.cpp o las bibliotecas de soporte relacionadas. puede clonarse y compilarse con el siguiente comando:
    git clone https://github.com/ggerganov/llama.cpp
    cd llama.cpp
    make
    

3. Modelo de carga

  • Utiliza transformadores para cargar el modelo:
    from transformers import AutoModelForCausalLM, AutoTokenizer
    model_name = "ValueFX9507/Tifa-Deepsex-14b-CoT"
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    model = AutoModelForCausalLM.from_pretrained(model_name)
    
  • Si se utiliza el formato GGUF, puede ejecutarse a través de llama.cpp:
    ./main -m Tifa-Deepsex-14b-CoT-Q4_K_M.gguf --color -c 4096 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "你的提示词"
    

    donde -c 4096 puede ajustarse a una longitud de contexto mayor (por ejemplo, 128k) según sea necesario, pero tenga en cuenta las limitaciones del hardware.

4. Configuración y optimización

  • Asegúrese de que el contexto devuelto se despoja de las etiquetas think (p. ej. ) para evitar que afecte a la salida del modelo. Esto se puede conseguir con el siguiente código:
    content = msg.content.replace(/<think>[\s\S]*?<\/think>/gi, '')
    
  • Si utiliza la interfaz front-end, deberá modificar manualmente el código front-end para adaptar el procesamiento del contexto; consulte la plantilla de muestra oficial.

Función Flujo de operaciones

juego de rol

  1. Introduzca la configuración del personaje: especifique el trasfondo, la personalidad, las escenas de diálogo, etc. del personaje en la pregunta. Ejemplo:
    你是一个勇敢的冒险者,名叫蒂法,正在探索一座神秘的古城。请描述你的冒险经历,并与遇到的 NPC 进行对话。
    
  2. Generar respuestas: el modelo genera diálogos o narraciones que se ajustan al personaje en función de su configuración. El usuario puede seguir introduciendo datos y el modelo mantendrá la coherencia contextual.
  3. Ajuste de parámetros: Optimice la salida ajustando la temperatura (para controlar la aleatoriedad del texto generado) y repeat_penalty (para controlar el contenido repetido).

Nueva función de generación

  1. Establecer el contexto de la historia: proporcionar el comienzo o el esquema de la historia, por ejemplo:
    在一个遥远的王国,有一位年轻的法师试图解开时间的秘密。请续写这个故事。
    
  2. Generación de historias: el modelo generará historias largas coherentes basadas en instrucciones, con resultados de varios párrafos.
  3. Soporte de contextos largos: gracias al soporte de contextos de 128k, los usuarios pueden introducir contextos de historias más largas y el modelo sigue manteniendo la coherencia argumental.

razonamiento en cadena

  1. Introducir problemas complejos: por ejemplo
    如果一个城市每天产生100吨垃圾,其中60%可回收,40%不可回收,但回收设施每天只能处理30吨可回收垃圾,剩余的可回收垃圾如何处理?
    
  2. Generar un proceso de razonamiento: el modelo analiza el problema paso a paso, proporciona respuestas lógicas y claras y apoya el razonamiento a largo plazo.

advertencia

  • Requisitos de hardware: El modelo requiere un alto nivel de memoria gráfica para funcionar, se recomienda una GPU o CPU de alto rendimiento con al menos 16 GB de memoria gráfica.
  • Seguridad y conformidad: el modelo conserva ciertos parámetros de seguridad durante la formación, y los usuarios deben asegurarse de que el escenario de uso cumple las leyes y normativas pertinentes.
  • Gestión de contextos: Cuando se utilicen contextos muy largos, se recomienda introducir las palabras de aviso en segmentos para evitar sobrepasar los límites del hardware.

Con estos pasos, los usuarios pueden iniciarse fácilmente en el modelo Tifa-Deepsex-14b-CoT, ya sea para juegos de rol, creación de novelas o razonamientos complejos, y obtener resultados generados de gran calidad.

 

Tifa-Deepsex-14b-CoT Diferencia de versión

Tifa-Deepsex-14b-CoT

  • Validación del modelo para probar el impacto del algoritmo de recompensa RL en los datos de los juegos de rol, la versión inicial tiene una salida flexible pero no controlada y está destinada únicamente a la investigación.

Tifa-Deepsex-14b-CoT-Chat

  • Entrenado con datos estándar, utilizando estrategias RL probadas con aprendizaje de refuerzo antirrepetición adicional, adecuado para un uso normal. La calidad del texto de salida es normal, con pensamiento divergente en algunos casos.
  • Entrenamiento incremental de 0,4T de contenido novedoso, 100K de datos SFT generados por TifaMax, 10K de datos SFT generados por DeepseekR1 y 2K de datos manuales de alta calidad.
  • 30K DPO de datos de aprendizaje por refuerzo generados por TifaMax para evitar duplicados, mejorar las asociaciones contextuales y mejorar la seguridad política.

Tifa-Deepsex-14b-CoT-Loco

  • Se utiliza un gran número de estrategias de RL, principalmente utilizando datos destilados de R1 de sangre completa 671B, con alta dispersión de salida, heredando las ventajas de R1, así como los peligros de R1, y un buen rendimiento literario.
  • Entrenamiento incremental de 0,4T de contenido novedoso, 40K de datos SFT generados por TifaMax, 60K de datos SFT generados por DeepseekR1 y 2K de datos manuales de alta calidad.
  • 30.000 datos DPO de aprendizaje por refuerzo generados por TifaMax para evitar duplicados, aumentar la relevancia contextual y mejorar la seguridad política.10.000 datos PPO generados por TifaMax y 10.000 datos PPO generados por DeepseekR1.
© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...