Fish Agent: сквозной голосовой помощник с искусственным интеллектом, голосовой помощник для ведения диалога в реальном времени, спин-офф проект Fish Speech
Общее введение
Рыбная речь Derived Project Fish Agent - это революционная сквозная система клонирования речи AI, разработанная на основе архитектуры модели V0.1 3B. Важнейшей особенностью этой системы является инновационная архитектура без семантических тегов, которая позволяет напрямую преобразовывать речь в речь без использования традиционных семантических кодировщиков/декодировщиков, таких как Whisper. Благодаря сверхнизкой задержке (всего 150 мс) система способна точно захватывать и генерировать окружающую аудиоинформацию для достижения эффекта клонирования речи практически в реальном времени. Fish Agent открывает возможность загрузки предварительно обученных моделей и поддерживает обучение локальному развертыванию и вызов облачного сервиса, предоставляя разработчикам и пользователям гибкий план использования. Благодаря интегрированным функциям распознавания и синтеза речи, а также точной системе управления тоном, Fish Agent способен создать естественный и плавный опыт голосового взаимодействия.
Комплексная архитектура, клонирование звука с нулевым сэмплом, компактная модель с 3 миллиардами параметров, поддержка многоязычия и быстрый отклик. Данные для обучения включают 700 000 часов многоязычного аудио. Основана на Qwen-2.5-3B-Instruct с продолженным предварительным обучением. Модель, названная Fish Agent версии 3B, автоматически интегрирует компоненты ASR и TTS, устраняя необходимость во внешних моделях и обеспечивая истинную сквозную обработку, что отличает ее от традиционного трехэтапного процесса (ASR + LLM + TTS).

Опыт работы: https://huggingface.co/spaces/fishaudio/fish-agent
Список функций
- Клонирование голоса со сверхнизкой задержкой: время отклика 150 мс, поддержка преобразования голоса в реальном времени
- Архитектура разметки без семантики: инновационное решение для сквозной обработки речи
- Точная регулировка тембра: точная регулировка тембра по опорному аудиосигналу
- Обработка окружающего звука: высокоточное воспроизведение звуковой информации из окружающей среды
- Открытые предварительно обученные модели: поддержка локального развертывания и обучения
- API облачных сервисов: обеспечение удобных вызовов облачных интерфейсов
- Индивидуальное обучение: поддерживает индивидуальное обучение звуковой модели
Использование помощи
1. системные требования
- Python 3.8 или выше
- Графический процессор NVIDIA (рекомендуется)
- 8 ГБ или более системной памяти
- Поддержка CUDA (рекомендуется)
2. Этапы установки
- Подготовка к защите окружающей среды
# 创建虚拟环境
python -m venv fish-agent-env
source fish-agent-env/bin/activate # Linux/Mac
# 或
fish-agent-env\Scripts\activate # Windows
- Установка Fish Agent
# 直接安装
pip install fish-agent
# 或从源码安装
git clone https://github.com/fishaudio/fish-agent
cd fish-agent
pip install -e .
3. Поток использования
3.1 Использование онлайн-сервисов
Теперь вы можете попробовать нашу демонстрационную версию SmartBody в режиме онлайн, следуя документации для живого общения на английском языке, а также местного общения на английском и китайском языках.
Демо-версия является ранним альфа-тестированием, скорость вывода данных должна быть оптимизирована, и есть много ошибок, которые необходимо исправить. Если вы обнаружили ошибку или хотите ее исправить, мы будем рады получить вопросы или запросы на исправление.
https://fish.audio/zh-CN/demo/live/
3.2 Локальное развертывание
- активация услуги
from fish_agent import VoiceAgent
# 初始化Fish Agent
agent = VoiceAgent()
# 启动本地服务
agent.start_server(port=7860)
- Пример клонирования речи
# 加载参考音频
reference_audio = "path/to/reference.wav"
agent.load_reference(reference_audio)
# 生成克隆语音
text = "这是一段测试语音"
output_path = "output.wav"
agent.generate_speech(text, output_path)
- Настройки конверсии в реальном времени
# 启动实时语音转换
agent.start_realtime_conversion(
input_device=0, # 输入设备ID
output_device=1, # 输出设备ID
reference_audio="path/to/reference.wav"
)
4. Расширенная настройка функций
4.1 Настройка параметров тона
- Параметры управления тембром:
- Угол наклона: от -12 до 12
- Скорость речи: от 0,5 до 2,0
- Интенсивность эмоций: от 0 до 1,0
4.2 Пакетная обработка
# 批量文本处理
texts = ["文本1", "文本2", "文本3"]
agent.batch_process(texts, output_dir="outputs/")
4.3 Вызовы API
# API调用示例
import requests
url = "https://speech.fish.audio/api/v1/generate"
payload = {
"text": "要转换的文本",
"reference_audio": "base64编码的音频文件"
}
response = requests.post(url, json=payload)
5. меры предосторожности при использовании
- Качество эталонного звука существенно влияет на результаты клонирования, поэтому рекомендуется использовать чистые записи без фоновых шумов
- Рекомендуется ограничивать объем одного текста 200 словами или менее.
- Преобразование в реальном времени требует хорошего микрофона для достижения лучших результатов
- Коммерческое использование требует специального разрешения
- Рекомендуется регулярно обновлять модель для достижения оптимальной производительности
6. решение общих проблем
- Проблемы с аудиовыходом
- Проверка настроек устройства вывода звука
- Проверка конфигурации системного тома
- Подтвердите поддержку аудиоформатов
- оптимизация производительности
- Проверьте, правильно ли включен графический процессор
- Настройка параметров партии
- Регулярная очистка кэша
- Установка связана с
- Проверка совместимости версий Python
- Подтвердите конфигурацию среды CUDA
- Рассмотрим среду conda
- Использование API
- Проверьте состояние сетевого подключения
- Подтверждение конфигурации разрешений API
- Проверьте ответ сервера
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...