Tifa-Deepsex-14b-CoT: большая модель, специализирующаяся на ролевых играх и создании сверхдлинной фантастики

Общее введение

Tifa-Deepsex-14b-CoT - это большая модель, основанная на глубокой оптимизации Deepseek-R1-14B, сфокусированная на ролевой игре, генерации вымышленного текста и способности рассуждать по цепочке мыслей (CoT). Благодаря многоступенчатому обучению и оптимизации модель решает проблемы оригинальной модели, связанные с недостаточной связностью при создании длинных текстов и слабой способностью к ролевым играм, что особенно подходит для творческих сценариев, требующих дальнего контекстного соотнесения. Благодаря объединению высококачественных наборов данных и инкрементальному предварительному обучению модель значительно повышает контекстную релевантность, сокращает количество неответов и устраняет смешение китайского и английского языков, увеличивая специфический для данной области словарный запас для лучшей производительности в ролевых играх и создании романов. Кроме того, модель поддерживает 128 тыс. сверхдлинных контекстов для сценариев, требующих глубокого диалога и сложного авторского оформления.

Это версия Deepseek-R1-14B, глубоко оптимизированная для длинных художественных произведений и ролевых сценариев, с простым клиентом для Android, доступным для загрузки. Текущие обновления Deepsex2 Издание.

Tifa-Deepsex-14b-CoT:擅长角色扮演与超长小说生成的大模型

 

Список функций

  • Поддерживает глубокие диалоги для ролевых сценариев, генерируя ответы, соответствующие личности и биографии персонажа.
  • Овладение навыками создания художественного текста для создания связного длинного рассказа или сюжета.
  • Навыки рассуждения по цепочке мыслей (CoT) для сценариев, требующих логических выводов и решения сложных задач.
  • Поддерживает 128k сверхдлинных контекстов для обеспечения высокой согласованности и последовательности генерации длинных текстов.
  • Оптимизированная модель снижает вероятность отклонения ответов, а безопасность в умеренной степени сохраняется для различных авторских нужд.
  • Предоставьте различные версии квантования (например, F16, Q8, Q4) для адаптации к различным аппаратным средам, чтобы упростить развертывание и использование.

 

Использование помощи

Установка и развертывание

Модель Tifa-Deepsex-14b-CoT размещена на платформе Hugging Face, и пользователям необходимо выбрать соответствующую версию модели (например, F16, Q8, Q4) в зависимости от аппаратной среды и требований. Ниже приводится подробный процесс установки и развертывания:

1. Загрузка модели

  • Посетите страницу модели Hugging Face на сайте https://huggingface.co/ValueFX9507/Tifa-Deepsex-14b-CoT.
  • Выберите соответствующую версию квантования (например, Q4_K_M.gguf) в соответствии с аппаратной поддержкой. Нажмите на соответствующий файл, чтобы загрузить весовые коэффициенты модели.
  • Если вам нужно использовать демонстрационный APK, вы можете напрямую загрузить официально предоставленное демо-приложение (вам нужно вручную импортировать карту персонажа и выбрать пользовательский API).

2. Подготовка к защите окружающей среды

  • Убедитесь, что среда Python установлена (рекомендуется Python 3.8 или выше).
  • Установите необходимые библиотеки зависимостей, такие как transformers, huggingface_hub и так далее. Их можно установить с помощью следующих команд:
    pip install transformers huggingface-hub
    
  • Если вы используете модель формата GGUF, рекомендуется установить llama.cpp или связанные с ними вспомогательные библиотеки. можно клонировать и скомпилировать с помощью следующей команды:
    git clone https://github.com/ggerganov/llama.cpp
    cd llama.cpp
    make
    

3. Загрузка модели

  • Используйте трансформаторы для загрузки модели:
    from transformers import AutoModelForCausalLM, AutoTokenizer
    model_name = "ValueFX9507/Tifa-Deepsex-14b-CoT"
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    model = AutoModelForCausalLM.from_pretrained(model_name)
    
  • Если используется формат GGUF, его можно запустить через llama.cpp:
    ./main -m Tifa-Deepsex-14b-CoT-Q4_K_M.gguf --color -c 4096 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "你的提示词"
    

    где -c 4096 может быть изменена на большую длину контекста (например, 128k), если это необходимо, но помните об аппаратных ограничениях.

4. Конфигурация и оптимизация

  • Убедитесь, что возвращаемый контекст очищен от меток think (например, ), чтобы не повлиять на вывод модели. Этого можно добиться с помощью следующего кода:
    content = msg.content.replace(/<think>[\s\S]*?<\/think>/gi, '')
    
  • Если вы используете внешний интерфейс, вам необходимо вручную изменить код внешнего интерфейса, чтобы адаптировать обработку контекста, обратитесь к официальному образцу шаблона.

Функции Поток операций

ролевая игра

  1. Введите параметры персонажа: укажите в подсказке предысторию персонажа, его личность, сцены диалога и т. д. Пример:
    你是一个勇敢的冒险者,名叫蒂法,正在探索一座神秘的古城。请描述你的冒险经历,并与遇到的 NPC 进行对话。
    
  2. Генерировать ответы: модель генерирует диалоги или повествования, которые соответствуют характеру персонажа, основываясь на его настройках. Пользователь может продолжать вводить данные, а модель будет поддерживать контекстную согласованность.
  3. Настройка параметров: оптимизируйте вывод, регулируя параметры temperature (для контроля случайности генерируемого текста) и repeat_penalty (для контроля повторяющегося содержимого).

Функция нового поколения

  1. Установите контекст истории: например, дайте начало или набросок сюжета:
    在一个遥远的王国,有一位年轻的法师试图解开时间的秘密。请续写这个故事。
    
  2. Создание рассказа: модель генерирует связные длинные рассказы на основе подсказок, поддерживая вывод нескольких абзацев.
  3. Поддержка длинных контекстов: благодаря 128-килобайтной поддержке контекстов пользователи могут вводить более длинные сюжетные контексты, и модель при этом сохраняет сюжетную последовательность.

рассуждения по цепочке мыслей (ЦМ)

  1. Вводите сложные задачи: например:
    如果一个城市每天产生100吨垃圾,其中60%可回收,40%不可回收,但回收设施每天只能处理30吨可回收垃圾,剩余的可回收垃圾如何处理?
    
  2. Создайте процесс рассуждений: модель анализирует вопрос шаг за шагом, дает логичные и четкие ответы и поддерживает долгосрочные рассуждения.

предостережение

  • Требования к аппаратному обеспечению: Для работы модели требуется высокий уровень графической памяти, рекомендуется использовать GPU или высокопроизводительный процессор с не менее чем 16 ГБ графической памяти.
  • Безопасность и соответствие нормативным требованиям: модель сохраняет определенные настройки безопасности во время обучения, и пользователям необходимо убедиться, что сценарий использования соответствует соответствующим законам и нормативным требованиям.
  • Управление контекстом: При использовании очень длинных контекстов рекомендуется вводить слова подсказки сегментами, чтобы не превышать аппаратные ограничения.

Выполнив эти шаги, пользователи смогут легко начать работу с моделью Tifa-Deepsex-14b-CoT, будь то ролевые игры, создание романов или сложные рассуждения, и получить высококачественные результаты.

 

Разница в версии Tifa-Deepsex-14b-CoT

Tifa-Deepsex-14b-CoT

  • Валидация модели для проверки влияния алгоритма вознаграждения RL на данные ролевых игр. Первоначальная версия имеет гибкий, но неконтролируемый вывод и предназначена только для исследовательского использования.

Tifa-Deepsex-14b-CoT-Chat

  • Обучен на стандартных данных с использованием проверенных RL-стратегий с дополнительным антиповторным обучением с усилением, подходит для обычного использования. Качество выходного текста нормальное, в некоторых случаях наблюдаются отклонения.
  • Инкрементное обучение 0,4 Т нового контента, 100 тыс. SFT-данных, сгенерированных TifaMax, 10 тыс. SFT-данных, сгенерированных DeepseekR1, и 2 тыс. высококачественных ручных данных.
  • 30K данных DPO, полученных с помощью технологии обучения с подкреплением, созданных TifaMax для предотвращения дубликатов, улучшения контекстных ассоциаций и повышения политической безопасности.

Тифа-Дипсекс-14б-КоТ-Крэзи

  • Используется большое количество стратегий RL, в основном с использованием данных, полученных от 671B полнокровных R1, с высокой дисперсией выхода, наследующих преимущества R1, а также опасности R1, и хорошими литературными характеристиками.
  • Инкрементное обучение 0,4 Т нового контента, 40K SFT-данных, сгенерированных TifaMax, 60K SFT-данных, сгенерированных DeepseekR1, и 2K высококачественных ручных данных.
  • 30K данных DPO, полученных методом обучения с подкреплением, сгенерированных TifaMax для предотвращения дубликатов, повышения контекстной релевантности и улучшения политической безопасности.10K данных PPO, сгенерированных TifaMax, и 10K данных PPO, сгенерированных DeepseekR1.
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...