Tifa-Deepsex-14b-CoT: большая модель, специализирующаяся на ролевых играх и создании сверхдлинной фантастики
Общее введение
Tifa-Deepsex-14b-CoT - это большая модель, основанная на глубокой оптимизации Deepseek-R1-14B, сфокусированная на ролевой игре, генерации вымышленного текста и способности рассуждать по цепочке мыслей (CoT). Благодаря многоступенчатому обучению и оптимизации модель решает проблемы оригинальной модели, связанные с недостаточной связностью при создании длинных текстов и слабой способностью к ролевым играм, что особенно подходит для творческих сценариев, требующих дальнего контекстного соотнесения. Благодаря объединению высококачественных наборов данных и инкрементальному предварительному обучению модель значительно повышает контекстную релевантность, сокращает количество неответов и устраняет смешение китайского и английского языков, увеличивая специфический для данной области словарный запас для лучшей производительности в ролевых играх и создании романов. Кроме того, модель поддерживает 128 тыс. сверхдлинных контекстов для сценариев, требующих глубокого диалога и сложного авторского оформления.
Это версия Deepseek-R1-14B, глубоко оптимизированная для длинных художественных произведений и ролевых сценариев, с простым клиентом для Android, доступным для загрузки. Текущие обновления Deepsex2 Издание.

Список функций
- Поддерживает глубокие диалоги для ролевых сценариев, генерируя ответы, соответствующие личности и биографии персонажа.
- Овладение навыками создания художественного текста для создания связного длинного рассказа или сюжета.
- Навыки рассуждения по цепочке мыслей (CoT) для сценариев, требующих логических выводов и решения сложных задач.
- Поддерживает 128k сверхдлинных контекстов для обеспечения высокой согласованности и последовательности генерации длинных текстов.
- Оптимизированная модель снижает вероятность отклонения ответов, а безопасность в умеренной степени сохраняется для различных авторских нужд.
- Предоставьте различные версии квантования (например, F16, Q8, Q4) для адаптации к различным аппаратным средам, чтобы упростить развертывание и использование.
Использование помощи
Установка и развертывание
Модель Tifa-Deepsex-14b-CoT размещена на платформе Hugging Face, и пользователям необходимо выбрать соответствующую версию модели (например, F16, Q8, Q4) в зависимости от аппаратной среды и требований. Ниже приводится подробный процесс установки и развертывания:
1. Загрузка модели
- Посетите страницу модели Hugging Face на сайте https://huggingface.co/ValueFX9507/Tifa-Deepsex-14b-CoT.
- Выберите соответствующую версию квантования (например, Q4_K_M.gguf) в соответствии с аппаратной поддержкой. Нажмите на соответствующий файл, чтобы загрузить весовые коэффициенты модели.
- Если вам нужно использовать демонстрационный APK, вы можете напрямую загрузить официально предоставленное демо-приложение (вам нужно вручную импортировать карту персонажа и выбрать пользовательский API).
2. Подготовка к защите окружающей среды
- Убедитесь, что среда Python установлена (рекомендуется Python 3.8 или выше).
- Установите необходимые библиотеки зависимостей, такие как transformers, huggingface_hub и так далее. Их можно установить с помощью следующих команд:
pip install transformers huggingface-hub
- Если вы используете модель формата GGUF, рекомендуется установить llama.cpp или связанные с ними вспомогательные библиотеки. можно клонировать и скомпилировать с помощью следующей команды:
git clone https://github.com/ggerganov/llama.cpp cd llama.cpp make
3. Загрузка модели
- Используйте трансформаторы для загрузки модели:
from transformers import AutoModelForCausalLM, AutoTokenizer model_name = "ValueFX9507/Tifa-Deepsex-14b-CoT" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained(model_name)
- Если используется формат GGUF, его можно запустить через llama.cpp:
./main -m Tifa-Deepsex-14b-CoT-Q4_K_M.gguf --color -c 4096 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "你的提示词"
где -c 4096 может быть изменена на большую длину контекста (например, 128k), если это необходимо, но помните об аппаратных ограничениях.
4. Конфигурация и оптимизация
- Убедитесь, что возвращаемый контекст очищен от меток think (например, ), чтобы не повлиять на вывод модели. Этого можно добиться с помощью следующего кода:
content = msg.content.replace(/<think>[\s\S]*?<\/think>/gi, '')
- Если вы используете внешний интерфейс, вам необходимо вручную изменить код внешнего интерфейса, чтобы адаптировать обработку контекста, обратитесь к официальному образцу шаблона.
Функции Поток операций
ролевая игра
- Введите параметры персонажа: укажите в подсказке предысторию персонажа, его личность, сцены диалога и т. д. Пример:
你是一个勇敢的冒险者,名叫蒂法,正在探索一座神秘的古城。请描述你的冒险经历,并与遇到的 NPC 进行对话。
- Генерировать ответы: модель генерирует диалоги или повествования, которые соответствуют характеру персонажа, основываясь на его настройках. Пользователь может продолжать вводить данные, а модель будет поддерживать контекстную согласованность.
- Настройка параметров: оптимизируйте вывод, регулируя параметры temperature (для контроля случайности генерируемого текста) и repeat_penalty (для контроля повторяющегося содержимого).
Функция нового поколения
- Установите контекст истории: например, дайте начало или набросок сюжета:
在一个遥远的王国,有一位年轻的法师试图解开时间的秘密。请续写这个故事。
- Создание рассказа: модель генерирует связные длинные рассказы на основе подсказок, поддерживая вывод нескольких абзацев.
- Поддержка длинных контекстов: благодаря 128-килобайтной поддержке контекстов пользователи могут вводить более длинные сюжетные контексты, и модель при этом сохраняет сюжетную последовательность.
рассуждения по цепочке мыслей (ЦМ)
- Вводите сложные задачи: например:
如果一个城市每天产生100吨垃圾,其中60%可回收,40%不可回收,但回收设施每天只能处理30吨可回收垃圾,剩余的可回收垃圾如何处理?
- Создайте процесс рассуждений: модель анализирует вопрос шаг за шагом, дает логичные и четкие ответы и поддерживает долгосрочные рассуждения.
предостережение
- Требования к аппаратному обеспечению: Для работы модели требуется высокий уровень графической памяти, рекомендуется использовать GPU или высокопроизводительный процессор с не менее чем 16 ГБ графической памяти.
- Безопасность и соответствие нормативным требованиям: модель сохраняет определенные настройки безопасности во время обучения, и пользователям необходимо убедиться, что сценарий использования соответствует соответствующим законам и нормативным требованиям.
- Управление контекстом: При использовании очень длинных контекстов рекомендуется вводить слова подсказки сегментами, чтобы не превышать аппаратные ограничения.
Выполнив эти шаги, пользователи смогут легко начать работу с моделью Tifa-Deepsex-14b-CoT, будь то ролевые игры, создание романов или сложные рассуждения, и получить высококачественные результаты.
Разница в версии Tifa-Deepsex-14b-CoT
Tifa-Deepsex-14b-CoT
- Валидация модели для проверки влияния алгоритма вознаграждения RL на данные ролевых игр. Первоначальная версия имеет гибкий, но неконтролируемый вывод и предназначена только для исследовательского использования.
Tifa-Deepsex-14b-CoT-Chat
- Обучен на стандартных данных с использованием проверенных RL-стратегий с дополнительным антиповторным обучением с усилением, подходит для обычного использования. Качество выходного текста нормальное, в некоторых случаях наблюдаются отклонения.
- Инкрементное обучение 0,4 Т нового контента, 100 тыс. SFT-данных, сгенерированных TifaMax, 10 тыс. SFT-данных, сгенерированных DeepseekR1, и 2 тыс. высококачественных ручных данных.
- 30K данных DPO, полученных с помощью технологии обучения с подкреплением, созданных TifaMax для предотвращения дубликатов, улучшения контекстных ассоциаций и повышения политической безопасности.
Тифа-Дипсекс-14б-КоТ-Крэзи
- Используется большое количество стратегий RL, в основном с использованием данных, полученных от 671B полнокровных R1, с высокой дисперсией выхода, наследующих преимущества R1, а также опасности R1, и хорошими литературными характеристиками.
- Инкрементное обучение 0,4 Т нового контента, 40K SFT-данных, сгенерированных TifaMax, 60K SFT-данных, сгенерированных DeepseekR1, и 2K высококачественных ручных данных.
- 30K данных DPO, полученных методом обучения с подкреплением, сгенерированных TifaMax для предотвращения дубликатов, повышения контекстной релевантности и улучшения политической безопасности.10K данных PPO, сгенерированных TifaMax, и 10K данных PPO, сгенерированных DeepseekR1.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...