Fish Agent: 엔드투엔드 AI 음성 복제 어시스턴트, 실시간 음성 대화 어시스턴트, Fish Speech 스핀오프 프로젝트

최신 AI 리소스8 개월 전에 게시 됨 AI 공유 서클
12.7K 00

일반 소개

물고기 말하기 파생된 프로젝트 피쉬 에이전트는 V0.1 3B 모델 아키텍처를 기반으로 개발된 혁신적인 엔드투엔드 AI 음성 복제 시스템입니다. 완전한 엔드투엔드 음성 복제 처리 시스템으로서 가장 중요한 특징은 혁신적인 시맨틱 태그리스 아키텍처로 설계되어 Whisper와 같은 기존의 시맨틱 인코더/디코더에 의존하지 않고 직접 음성 대 음성 변환을 달성할 수 있다는 것입니다. 초저지연(최저 150ms)으로 주변 오디오 정보를 정확하게 캡처하고 생성하여 실시간에 가까운 음성 복제 효과를 얻을 수 있으며, 사전 학습된 모델을 다운로드하고 로컬 배포 학습 및 클라우드 서비스 호출을 지원하는 Fish Agent는 개발자와 사용자에게 유연한 사용 계획을 제공합니다. 통합된 음성 인식 및 음성 합성 기능과 정밀한 톤 제어 시스템을 통해 Fish Agent는 자연스럽고 부드러운 음성 인터랙션 환경을 조성할 수 있습니다.

엔드투엔드 아키텍처, 제로 샘플 사운드 복제, 30억 개의 파라미터가 포함된 컴팩트한 모델, 다국어 지원 및 빠른 응답. 훈련 데이터에는 70만 시간의 다국어 오디오가 포함됩니다. Qwen-2.5-3B-Instruct를 기반으로 지속적인 사전 학습을 진행했습니다. Fish Agent 버전 3B로 명명된 이 모델은 ASR과 TTS 구성 요소를 자동으로 통합하여 외부 모델이 필요 없고 진정한 엔드투엔드 처리가 가능하므로 기존의 3단계(ASR + LLM + TTS) 프로세스와 차별화됩니다.

Fish Agent:端到端AI语音克隆助手,实时语音对话助理,Fish Speech衍生项目

체험: https://huggingface.co/spaces/fishaudio/fish-agent

 

기능 목록

  • 초저지연 음성 복제: 응답 시간 150ms, 실시간 음성 변환 지원
  • 시맨틱 프리 태깅 아키텍처: 혁신적인 엔드투엔드 음성 처리 솔루션
  • 정밀 톤 컨트롤: 레퍼런스 오디오를 통한 정밀한 톤 조정
  • 주변 오디오 처리: 환경 사운드 정보를 충실하게 재현합니다.
  • 사전 교육된 개방형 모델: 현지화된 배포 및 교육 지원
  • 클라우드 서비스 API: 편리한 클라우드 인터페이스 호출 제공
  • 맞춤형 교육: 맞춤형 사운드 모델 교육 지원

 

도움말 사용

1. 시스템 요구 사항

  • Python 3.8 이상
  • NVIDIA GPU(권장)
  • 8GB 이상의 시스템 메모리
  • CUDA 지원(권장)

2. 설치 단계

  1. 환경 준비
# 创建虚拟环境
python -m venv fish-agent-env
source fish-agent-env/bin/activate  # Linux/Mac
# 或
fish-agent-env\Scripts\activate  # Windows
  1. 피쉬 에이전트 설치
# 直接安装
pip install fish-agent
# 或从源码安装
git clone https://github.com/fishaudio/fish-agent
cd fish-agent
pip install -e .

3. 사용 흐름

3.1 온라인 서비스 사용

이제 현지 영어 및 중국어 채팅뿐만 아니라 실시간 영어 채팅에 대한 설명서를 따라 온라인으로 스마트바디 데모를 사용해 볼 수 있습니다.

데모는 초기 알파 테스트 버전으로 추론 속도를 최적화해야 하며 수정해야 할 버그가 많으므로 버그를 발견하거나 수정하고 싶은 경우 질문이나 풀 리퀘스트를 기꺼이 접수해 주세요.

https://fish.audio/zh-CN/demo/live/

 

3.2 로컬 배포

  1. 서비스 활성화
from fish_agent import VoiceAgent
# 初始化Fish Agent
agent = VoiceAgent()
# 启动本地服务
agent.start_server(port=7860)
  1. 음성 복제 예시
# 加载参考音频
reference_audio = "path/to/reference.wav"
agent.load_reference(reference_audio)
# 生成克隆语音
text = "这是一段测试语音"
output_path = "output.wav"
agent.generate_speech(text, output_path)
  1. 실시간 전환 설정
# 启动实时语音转换
agent.start_realtime_conversion(
input_device=0,  # 输入设备ID
output_device=1, # 输出设备ID
reference_audio="path/to/reference.wav"
)

4. 고급 기능 구성

4.1 톤 파라미터 조정

  • 톤 제어 매개변수:
    • 피치: -12 ~ 12
    • 말하기 속도: 0.5 ~ 2.0
    • 감정_강도: 0 ~ 1.0

4.2 일괄 처리

# 批量文本处理
texts = ["文本1", "文本2", "文本3"]
agent.batch_process(texts, output_dir="outputs/")

4.3 API 호출

# API调用示例
import requests
url = "https://speech.fish.audio/api/v1/generate"
payload = {
"text": "要转换的文本",
"reference_audio": "base64编码的音频文件"
}
response = requests.post(url, json=payload)

5. 사용 시 주의사항

  • 레퍼런스 오디오 품질은 복제 결과에 큰 영향을 미치므로 배경 소음이 없는 깨끗한 녹음을 사용하는 것이 좋습니다.
  • 한 번에 처리하는 텍스트는 200단어 이하로 제한하는 것이 좋습니다.
  • 실시간 변환에는 좋은 마이크가 있어야 더 나은 결과를 얻을 수 있습니다.
  • 상업적 사용에는 특정 승인이 필요합니다.
  • 최적의 성능을 위해 정기적으로 모델을 업데이트하는 것이 좋습니다.

6. 일반적인 문제 해결

  1. 오디오 출력 문제
    • 오디오 출력 장치 설정 확인
    • 시스템 볼륨 구성 확인
    • 오디오 형식 지원 확인
  2. 성능 최적화
    • GPU가 올바르게 활성화되었는지 확인
    • 배치 매개변수 조정
    • 정기적인 캐시 정리
  3. 설치 관련
    • Python 버전 호환성 확인
    • CUDA 환경 구성 확인
    • 콘다 환경 고려하기
  4. API 사용
    • 네트워크 연결 상태 확인
    • API 권한 구성 확인
    • 서버 응답 확인
© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...