Fish Agent: сквозной голосовой помощник с искусственным интеллектом, голосовой помощник для ведения диалога в реальном времени, спин-офф проект Fish Speech

Общее введение

Рыбная речь Derived Project Fish Agent - это революционная сквозная система клонирования речи AI, разработанная на основе архитектуры модели V0.1 3B. Важнейшей особенностью этой системы является инновационная архитектура без семантических тегов, которая позволяет напрямую преобразовывать речь в речь без использования традиционных семантических кодировщиков/декодировщиков, таких как Whisper. Благодаря сверхнизкой задержке (всего 150 мс) система способна точно захватывать и генерировать окружающую аудиоинформацию для достижения эффекта клонирования речи практически в реальном времени. Fish Agent открывает возможность загрузки предварительно обученных моделей и поддерживает обучение локальному развертыванию и вызов облачного сервиса, предоставляя разработчикам и пользователям гибкий план использования. Благодаря интегрированным функциям распознавания и синтеза речи, а также точной системе управления тоном, Fish Agent способен создать естественный и плавный опыт голосового взаимодействия.

Комплексная архитектура, клонирование звука с нулевым сэмплом, компактная модель с 3 миллиардами параметров, поддержка многоязычия и быстрый отклик. Данные для обучения включают 700 000 часов многоязычного аудио. Основана на Qwen-2.5-3B-Instruct с продолженным предварительным обучением. Модель, названная Fish Agent версии 3B, автоматически интегрирует компоненты ASR и TTS, устраняя необходимость во внешних моделях и обеспечивая истинную сквозную обработку, что отличает ее от традиционного трехэтапного процесса (ASR + LLM + TTS).

Fish Agent:端到端AI语音克隆助手,实时语音对话助理,Fish Speech衍生项目

Опыт работы: https://huggingface.co/spaces/fishaudio/fish-agent

 

Список функций

  • Клонирование голоса со сверхнизкой задержкой: время отклика 150 мс, поддержка преобразования голоса в реальном времени
  • Архитектура разметки без семантики: инновационное решение для сквозной обработки речи
  • Точная регулировка тембра: точная регулировка тембра по опорному аудиосигналу
  • Обработка окружающего звука: высокоточное воспроизведение звуковой информации из окружающей среды
  • Открытые предварительно обученные модели: поддержка локального развертывания и обучения
  • API облачных сервисов: обеспечение удобных вызовов облачных интерфейсов
  • Индивидуальное обучение: поддерживает индивидуальное обучение звуковой модели

 

Использование помощи

1. системные требования

  • Python 3.8 или выше
  • Графический процессор NVIDIA (рекомендуется)
  • 8 ГБ или более системной памяти
  • Поддержка CUDA (рекомендуется)

2. Этапы установки

  1. Подготовка к защите окружающей среды
# 创建虚拟环境
python -m venv fish-agent-env
source fish-agent-env/bin/activate  # Linux/Mac
# 或
fish-agent-env\Scripts\activate  # Windows
  1. Установка Fish Agent
# 直接安装
pip install fish-agent
# 或从源码安装
git clone https://github.com/fishaudio/fish-agent
cd fish-agent
pip install -e .

3. Поток использования

3.1 Использование онлайн-сервисов

Теперь вы можете попробовать нашу демонстрационную версию SmartBody в режиме онлайн, следуя документации для живого общения на английском языке, а также местного общения на английском и китайском языках.

Демо-версия является ранним альфа-тестированием, скорость вывода данных должна быть оптимизирована, и есть много ошибок, которые необходимо исправить. Если вы обнаружили ошибку или хотите ее исправить, мы будем рады получить вопросы или запросы на исправление.

https://fish.audio/zh-CN/demo/live/

 

3.2 Локальное развертывание

  1. активация услуги
from fish_agent import VoiceAgent
# 初始化Fish Agent
agent = VoiceAgent()
# 启动本地服务
agent.start_server(port=7860)
  1. Пример клонирования речи
# 加载参考音频
reference_audio = "path/to/reference.wav"
agent.load_reference(reference_audio)
# 生成克隆语音
text = "这是一段测试语音"
output_path = "output.wav"
agent.generate_speech(text, output_path)
  1. Настройки конверсии в реальном времени
# 启动实时语音转换
agent.start_realtime_conversion(
input_device=0,  # 输入设备ID
output_device=1, # 输出设备ID
reference_audio="path/to/reference.wav"
)

4. Расширенная настройка функций

4.1 Настройка параметров тона

  • Параметры управления тембром:
    • Угол наклона: от -12 до 12
    • Скорость речи: от 0,5 до 2,0
    • Интенсивность эмоций: от 0 до 1,0

4.2 Пакетная обработка

# 批量文本处理
texts = ["文本1", "文本2", "文本3"]
agent.batch_process(texts, output_dir="outputs/")

4.3 Вызовы API

# API调用示例
import requests
url = "https://speech.fish.audio/api/v1/generate"
payload = {
"text": "要转换的文本",
"reference_audio": "base64编码的音频文件"
}
response = requests.post(url, json=payload)

5. меры предосторожности при использовании

  • Качество эталонного звука существенно влияет на результаты клонирования, поэтому рекомендуется использовать чистые записи без фоновых шумов
  • Рекомендуется ограничивать объем одного текста 200 словами или менее.
  • Преобразование в реальном времени требует хорошего микрофона для достижения лучших результатов
  • Коммерческое использование требует специального разрешения
  • Рекомендуется регулярно обновлять модель для достижения оптимальной производительности

6. решение общих проблем

  1. Проблемы с аудиовыходом
    • Проверка настроек устройства вывода звука
    • Проверка конфигурации системного тома
    • Подтвердите поддержку аудиоформатов
  2. оптимизация производительности
    • Проверьте, правильно ли включен графический процессор
    • Настройка параметров партии
    • Регулярная очистка кэша
  3. Установка связана с
    • Проверка совместимости версий Python
    • Подтвердите конфигурацию среды CUDA
    • Рассмотрим среду conda
  4. Использование API
    • Проверьте состояние сетевого подключения
    • Подтверждение конфигурации разрешений API
    • Проверьте ответ сервера
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...