티파-딥섹스-14b-CoT: 롤플레잉 및 초장편 소설 생성에 특화된 대형 모델

83.5K 00

일반 소개

티파-딥섹스-14b-CoT는 딥시크-R1-14B 심층 최적화에 기반한 대형 모델로, 롤플레잉, 가상 텍스트 생성, 생각의 연쇄(CoT) 추론 능력에 중점을 두고 있습니다. 이 모델은 다단계 훈련과 최적화를 통해 긴 텍스트 생성 시 일관성이 부족하고 역할 수행 능력이 약한 기존 모델의 문제를 해결하여 특히 장거리 문맥 상관관계가 필요한 창작 시나리오에 적합합니다. 이 모델은 고품질 데이터 세트와 점진적인 사전 학습을 융합하여 문맥 관련성을 크게 향상시키고, 비답변을 줄이며, 중국어와 영어의 혼용을 제거하여 도메인별 어휘를 늘려 역할극과 소설 생성의 성능을 향상시킵니다. 또한 이 모델은 깊은 대화와 복잡한 작성이 필요한 시나리오를 위해 128k 초장문맥을 지원합니다.

이 버전은 장편 소설과 롤플레잉 시나리오에 최적화되어 있으며, 간단한 안드로이드 클라이언트를 다운로드할 수 있는 Deepseek-R1-14B 버전입니다. 현재 업그레이드 Deepsex2 에디션.

기능 목록

롤플레잉 시나리오를 위한 심층적인 대화를 지원하여 캐릭터의 성격과 배경에 맞는 반응을 생성합니다.
가상의 텍스트 생성 기술을 제공하여 일관된 긴 이야기나 줄거리를 만들 수 있습니다.
논리적 추론과 복잡한 문제 해결이 필요한 시나리오를 위한 생각의 연쇄(CoT) 추론 기술.
긴 텍스트 생성 시 높은 일관성과 일관성을 보장하기 위해 128k 초장문맥을 지원합니다.
최적화된 모델은 답변 거부 현상을 줄이고 다양한 저작 요구 사항에 맞게 보안을 적절히 유지합니다.
다양한 정량화 버전(예: F16, Q8, Q4)을 제공하여 다양한 하드웨어 환경에 맞게 조정하여 쉽게 배포하고 사용할 수 있습니다.

도움말 사용

설치 및 배포

티파-딥섹스-14b-CoT 모델은 허깅 페이스 플랫폼에서 호스팅되며, 사용자는 하드웨어 환경과 요구 사항에 따라 적절한 모델 버전(예: F16, Q8, Q4)을 선택해야 합니다. 아래는 자세한 설치 및 배포 프로세스입니다:

1. 모델 다운로드

허깅 페이스 모델 페이지(https://huggingface.co/ValueFX9507/Tifa-Deepsex-14b-CoT)를 방문하세요.
하드웨어 지원에 따라 적절한 양자화 버전(예: Q4_K_M.gguf)을 선택합니다. 해당 파일을 클릭하여 모델 가중치를 다운로드합니다.
데모 APK를 사용해야 하는 경우 공식적으로 제공되는 데모 애플리케이션을 직접 다운로드할 수 있습니다(캐릭터 카드를 수동으로 가져오고 사용자 지정 API를 선택해야 함).

2. 환경 준비

Python 환경이 설치되어 있는지 확인합니다(Python 3.8 이상 권장).
transformers, huggingface_hub 등과 같은 필요한 종속성 라이브러리를 설치합니다. 다음 명령어로 설치할 수 있습니다:
```
pip install transformers huggingface-hub
```
GGUF 형식의 모델을 사용하는 경우 다음을 설치하는 것이 좋습니다. llama.cpp 또는 관련 지원 라이브러리. 다음 명령으로 복제 및 컴파일할 수 있습니다:
```
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make
```

3. 모델 로드

트랜스포머를 사용하여 모델을 로드합니다:

from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "ValueFX9507/Tifa-Deepsex-14b-CoT"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

GGUF 형식을 사용하는 경우 llama.cpp를 통해 실행할 수 있습니다:
```
./main -m Tifa-Deepsex-14b-CoT-Q4_K_M.gguf --color -c 4096 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "你的提示词"
```
여기서 -c 4096은 필요에 따라 더 큰 컨텍스트 길이(예: 128k)로 조정할 수 있지만 하드웨어 제한에 유의하세요.

4. 구성 및 최적화

모델 출력에 영향을 주지 않도록 반환된 컨텍스트에서 씽크 레이블(예: )이 제거되었는지 확인합니다. 이는 다음 코드를 사용하여 수행할 수 있습니다:
```
content = msg.content.replace(/<think>[\s\S]*?<\/think>/gi, '')
```
프런트엔드 인터페이스를 사용하는 경우에는 공식 샘플 템플릿을 참조하여 컨텍스트 처리를 적용하기 위해 프런트엔드 코드를 수동으로 수정해야 합니다.

기능 작동 흐름

롤플레잉 기능

캐릭터 설정 입력: 프롬프트에서 캐릭터의 배경, 성격, 대화 장면 등을 지정합니다. 예시:

你是一个勇敢的冒险者，名叫蒂法，正在探索一座神秘的古城。请描述你的冒险经历，并与遇到的 NPC 进行对话。

응답 생성: 모델이 캐릭터의 설정에 따라 캐릭터에 맞는 대화나 내러티브를 생성합니다. 사용자는 계속 입력할 수 있으며 모델은 문맥의 일관성을 유지합니다.
매개변수 조정: 온도(생성된 텍스트의 무작위성 제어)와 반복_페널티(반복되는 콘텐츠 제어)를 조정하여 출력을 최적화합니다.

새로운 생성 기능

스토리의 맥락 설정: 예를 들어 스토리의 시작 또는 개요를 제공합니다:

在一个遥远的王国，有一位年轻的法师试图解开时间的秘密。请续写这个故事。

스토리 생성: 이 모델은 프롬프트를 기반으로 일관성 있는 긴 스토리를 생성하여 여러 단락의 출력을 지원합니다.
긴 컨텍스트 지원: 128k 컨텍스트 지원 덕분에 사용자는 더 긴 스토리 컨텍스트를 입력해도 모델이 플롯의 일관성을 유지할 수 있습니다.

생각의 사슬(CoT) 추론

복잡한 문제 입력: 예

如果一个城市每天产生100吨垃圾，其中60%可回收，40%不可回收，但回收设施每天只能处理30吨可回收垃圾，剩余的可回收垃圾如何处理？

추론 프로세스 생성: 이 모델은 문제를 단계별로 분석하고 논리적이고 명확한 답변을 제공하며 장기적인 추론을 지원합니다.

주의

하드웨어 요구 사항: 이 모델을 실행하려면 높은 수준의 그래픽 메모리가 필요하며, 16GB 이상의 그래픽 메모리를 갖춘 GPU 또는 고성능 CPU를 권장합니다.
보안 및 규정 준수: 이 모델은 교육 중에 특정 보안 설정을 유지하며, 사용자는 사용 시나리오가 관련 법률 및 규정을 준수하는지 확인해야 합니다.
문맥 관리: 매우 긴 문맥을 사용할 때는 하드웨어 제한을 초과하지 않도록 프롬프트 단어를 세그먼트 단위로 입력하는 것이 좋습니다.

이러한 단계를 통해 사용자는 롤플레잉, 소설 창작, 복잡한 추론 등 다양한 분야에서 Tifa-Deepsex-14b-CoT 모델을 쉽게 시작하고 고품질의 생성 결과를 얻을 수 있습니다.

티파-딥섹스-14b-CoT 버전 차이점

티파-딥섹스-14b-CoT

롤플레잉 데이터에 대한 RL 보상 알고리즘의 영향을 테스트하기 위한 모델 검증으로, 초기 버전은 유연하지만 제어되지 않는 출력을 가지며 연구용으로만 사용됩니다.

티파-딥섹스-14b-CoT-챗

일반적인 사용에 적합한 추가적인 반복 방지 강화 학습과 함께 입증된 RL 전략을 사용하여 표준 데이터로 학습되었습니다. 출력 텍스트 품질은 정상이며, 일부 경우 발산적 사고가 있습니다.
0.4T의 신규 콘텐츠, TifaMax에서 생성된 100K SFT 데이터, DeepseekR1에서 생성된 10K SFT 데이터, 2K 고품질 수동 데이터의 점진적 학습.
중복 방지, 문맥적 연관성 향상, 정치적 보안 개선을 위해 TifaMax에서 생성한 30만 개의 DPO 강화 학습 데이터.

티파-딥섹스-14b-CoT-Crazy

주로 671B 풀 블러드 R1에서 추출한 데이터를 사용하여 출력 분산이 높고 R1의 장점과 R1의 위험을 계승하고 문학적 성능이 좋은 많은 RL 전략이 사용됩니다.
0.4T의 신규 콘텐츠, TifaMax로 생성된 40만 SFT 데이터, DeepseekR1로 생성된 60만 SFT 데이터 및 2K 고품질 수동 데이터의 점진적 학습.
중복 방지, 문맥 관련성 향상, 정치적 보안 개선을 위해 TifaMax에서 생성한 30만 개의 DPO 강화 학습 데이터와 DeepseekR1에서 생성한 10만 개의 PPO 데이터.