티파-딥섹스-14b-CoT: 롤플레잉 및 초장편 소설 생성에 특화된 대형 모델

최신 AI 리소스6개월 전 업데이트 AI 공유 서클
4.9K 00

일반 소개

티파-딥섹스-14b-CoT는 딥시크-R1-14B 심층 최적화에 기반한 대형 모델로, 롤플레잉, 가상 텍스트 생성, 생각의 연쇄(CoT) 추론 능력에 중점을 두고 있습니다. 이 모델은 다단계 훈련과 최적화를 통해 긴 텍스트 생성 시 일관성이 부족하고 역할 수행 능력이 약한 기존 모델의 문제를 해결하여 특히 장거리 문맥 상관관계가 필요한 창작 시나리오에 적합합니다. 이 모델은 고품질 데이터 세트와 점진적인 사전 학습을 융합하여 문맥 관련성을 크게 향상시키고, 비답변을 줄이며, 중국어와 영어의 혼용을 제거하여 도메인별 어휘를 늘려 역할극과 소설 생성의 성능을 향상시킵니다. 또한 이 모델은 깊은 대화와 복잡한 작성이 필요한 시나리오를 위해 128k 초장문맥을 지원합니다.

이 버전은 장편 소설과 롤플레잉 시나리오에 최적화되어 있으며, 간단한 안드로이드 클라이언트를 다운로드할 수 있는 Deepseek-R1-14B 버전입니다. 현재 업그레이드 Deepsex2 에디션.

Tifa-Deepsex-14b-CoT:擅长角色扮演与超长小说生成的大模型

 

기능 목록

  • 롤플레잉 시나리오를 위한 심층적인 대화를 지원하여 캐릭터의 성격과 배경에 맞는 반응을 생성합니다.
  • 가상의 텍스트 생성 기술을 제공하여 일관된 긴 이야기나 줄거리를 만들 수 있습니다.
  • 논리적 추론과 복잡한 문제 해결이 필요한 시나리오를 위한 생각의 연쇄(CoT) 추론 기술.
  • 긴 텍스트 생성 시 높은 일관성과 일관성을 보장하기 위해 128k 초장문맥을 지원합니다.
  • 최적화된 모델은 답변 거부 현상을 줄이고 다양한 저작 요구 사항에 맞게 보안을 적절히 유지합니다.
  • 다양한 정량화 버전(예: F16, Q8, Q4)을 제공하여 다양한 하드웨어 환경에 맞게 조정하여 쉽게 배포하고 사용할 수 있습니다.

 

도움말 사용

설치 및 배포

티파-딥섹스-14b-CoT 모델은 허깅 페이스 플랫폼에서 호스팅되며, 사용자는 하드웨어 환경과 요구 사항에 따라 적절한 모델 버전(예: F16, Q8, Q4)을 선택해야 합니다. 아래는 자세한 설치 및 배포 프로세스입니다:

1. 모델 다운로드

  • 허깅 페이스 모델 페이지(https://huggingface.co/ValueFX9507/Tifa-Deepsex-14b-CoT)를 방문하세요.
  • 하드웨어 지원에 따라 적절한 양자화 버전(예: Q4_K_M.gguf)을 선택합니다. 해당 파일을 클릭하여 모델 가중치를 다운로드합니다.
  • 데모 APK를 사용해야 하는 경우 공식적으로 제공되는 데모 애플리케이션을 직접 다운로드할 수 있습니다(캐릭터 카드를 수동으로 가져오고 사용자 지정 API를 선택해야 함).

2. 환경 준비

  • Python 환경이 설치되어 있는지 확인합니다(Python 3.8 이상 권장).
  • transformers, huggingface_hub 등과 같은 필요한 종속성 라이브러리를 설치합니다. 다음 명령어로 설치할 수 있습니다:
    pip install transformers huggingface-hub
    
  • GGUF 형식의 모델을 사용하는 경우 다음을 설치하는 것이 좋습니다. llama.cpp 또는 관련 지원 라이브러리. 다음 명령으로 복제 및 컴파일할 수 있습니다:
    git clone https://github.com/ggerganov/llama.cpp
    cd llama.cpp
    make
    

3. 모델 로드

  • 트랜스포머를 사용하여 모델을 로드합니다:
    from transformers import AutoModelForCausalLM, AutoTokenizer
    model_name = "ValueFX9507/Tifa-Deepsex-14b-CoT"
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    model = AutoModelForCausalLM.from_pretrained(model_name)
    
  • GGUF 형식을 사용하는 경우 llama.cpp를 통해 실행할 수 있습니다:
    ./main -m Tifa-Deepsex-14b-CoT-Q4_K_M.gguf --color -c 4096 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "你的提示词"
    

    여기서 -c 4096은 필요에 따라 더 큰 컨텍스트 길이(예: 128k)로 조정할 수 있지만 하드웨어 제한에 유의하세요.

4. 구성 및 최적화

  • 모델 출력에 영향을 주지 않도록 반환된 컨텍스트에서 씽크 레이블(예: )이 제거되었는지 확인합니다. 이는 다음 코드를 사용하여 수행할 수 있습니다:
    content = msg.content.replace(/<think>[\s\S]*?<\/think>/gi, '')
    
  • 프런트엔드 인터페이스를 사용하는 경우에는 공식 샘플 템플릿을 참조하여 컨텍스트 처리를 적용하기 위해 프런트엔드 코드를 수동으로 수정해야 합니다.

기능 작동 흐름

롤플레잉 기능

  1. 캐릭터 설정 입력: 프롬프트에서 캐릭터의 배경, 성격, 대화 장면 등을 지정합니다. 예시:
    你是一个勇敢的冒险者,名叫蒂法,正在探索一座神秘的古城。请描述你的冒险经历,并与遇到的 NPC 进行对话。
    
  2. 응답 생성: 모델이 캐릭터의 설정에 따라 캐릭터에 맞는 대화나 내러티브를 생성합니다. 사용자는 계속 입력할 수 있으며 모델은 문맥의 일관성을 유지합니다.
  3. 매개변수 조정: 온도(생성된 텍스트의 무작위성 제어)와 반복_페널티(반복되는 콘텐츠 제어)를 조정하여 출력을 최적화합니다.

새로운 생성 기능

  1. 스토리의 맥락 설정: 예를 들어 스토리의 시작 또는 개요를 제공합니다:
    在一个遥远的王国,有一位年轻的法师试图解开时间的秘密。请续写这个故事。
    
  2. 스토리 생성: 이 모델은 프롬프트를 기반으로 일관성 있는 긴 스토리를 생성하여 여러 단락의 출력을 지원합니다.
  3. 긴 컨텍스트 지원: 128k 컨텍스트 지원 덕분에 사용자는 더 긴 스토리 컨텍스트를 입력해도 모델이 플롯의 일관성을 유지할 수 있습니다.

생각의 사슬(CoT) 추론

  1. 복잡한 문제 입력: 예
    如果一个城市每天产生100吨垃圾,其中60%可回收,40%不可回收,但回收设施每天只能处理30吨可回收垃圾,剩余的可回收垃圾如何处理?
    
  2. 추론 프로세스 생성: 이 모델은 문제를 단계별로 분석하고 논리적이고 명확한 답변을 제공하며 장기적인 추론을 지원합니다.

주의

  • 하드웨어 요구 사항: 이 모델을 실행하려면 높은 수준의 그래픽 메모리가 필요하며, 16GB 이상의 그래픽 메모리를 갖춘 GPU 또는 고성능 CPU를 권장합니다.
  • 보안 및 규정 준수: 이 모델은 교육 중에 특정 보안 설정을 유지하며, 사용자는 사용 시나리오가 관련 법률 및 규정을 준수하는지 확인해야 합니다.
  • 문맥 관리: 매우 긴 문맥을 사용할 때는 하드웨어 제한을 초과하지 않도록 프롬프트 단어를 세그먼트 단위로 입력하는 것이 좋습니다.

이러한 단계를 통해 사용자는 롤플레잉, 소설 창작, 복잡한 추론 등 다양한 분야에서 Tifa-Deepsex-14b-CoT 모델을 쉽게 시작하고 고품질의 생성 결과를 얻을 수 있습니다.

 

티파-딥섹스-14b-CoT 버전 차이점

티파-딥섹스-14b-CoT

  • 롤플레잉 데이터에 대한 RL 보상 알고리즘의 영향을 테스트하기 위한 모델 검증으로, 초기 버전은 유연하지만 제어되지 않는 출력을 가지며 연구용으로만 사용됩니다.

티파-딥섹스-14b-CoT-챗

  • 일반적인 사용에 적합한 추가적인 반복 방지 강화 학습과 함께 입증된 RL 전략을 사용하여 표준 데이터로 학습되었습니다. 출력 텍스트 품질은 정상이며, 일부 경우 발산적 사고가 있습니다.
  • 0.4T의 신규 콘텐츠, TifaMax에서 생성된 100K SFT 데이터, DeepseekR1에서 생성된 10K SFT 데이터, 2K 고품질 수동 데이터의 점진적 학습.
  • 중복 방지, 문맥적 연관성 향상, 정치적 보안 개선을 위해 TifaMax에서 생성한 30만 개의 DPO 강화 학습 데이터.

티파-딥섹스-14b-CoT-Crazy

  • 주로 671B 풀 블러드 R1에서 추출한 데이터를 사용하여 출력 분산이 높고 R1의 장점과 R1의 위험을 계승하고 문학적 성능이 좋은 많은 RL 전략이 사용됩니다.
  • 0.4T의 신규 콘텐츠, TifaMax로 생성된 40만 SFT 데이터, DeepseekR1로 생성된 60만 SFT 데이터 및 2K 고품질 수동 데이터의 점진적 학습.
  • 중복 방지, 문맥 관련성 향상, 정치적 보안 개선을 위해 TifaMax에서 생성한 30만 개의 DPO 강화 학습 데이터와 DeepseekR1에서 생성한 10만 개의 PPO 데이터.
© 저작권 정책
AiPPT

관련 게시물

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...