Fish Agent: сквозной голосовой помощник с искусственным интеллектом, голосовой помощник для ведения диалога в реальном времени, спин-офф проект Fish Speech

Последние ресурсы по искусственному интеллектуОпубликовано 1 год назад Круг обмена ИИ

63.6K 00

Общее введение

Рыбная речь Derived Project Fish Agent - это революционная сквозная система клонирования речи AI, разработанная на основе архитектуры модели V0.1 3B. Важнейшей особенностью этой системы является инновационная архитектура без семантических тегов, которая позволяет напрямую преобразовывать речь в речь без использования традиционных семантических кодировщиков/декодировщиков, таких как Whisper. Благодаря сверхнизкой задержке (всего 150 мс) система способна точно захватывать и генерировать окружающую аудиоинформацию для достижения эффекта клонирования речи практически в реальном времени. Fish Agent открывает возможность загрузки предварительно обученных моделей и поддерживает обучение локальному развертыванию и вызов облачного сервиса, предоставляя разработчикам и пользователям гибкий план использования. Благодаря интегрированным функциям распознавания и синтеза речи, а также точной системе управления тоном, Fish Agent способен создать естественный и плавный опыт голосового взаимодействия.

Комплексная архитектура, клонирование звука с нулевым сэмплом, компактная модель с 3 миллиардами параметров, поддержка многоязычия и быстрый отклик. Данные для обучения включают 700 000 часов многоязычного аудио. Основана на Qwen-2.5-3B-Instruct с продолженным предварительным обучением. Модель, названная Fish Agent версии 3B, автоматически интегрирует компоненты ASR и TTS, устраняя необходимость во внешних моделях и обеспечивая истинную сквозную обработку, что отличает ее от традиционного трехэтапного процесса (ASR + LLM + TTS).

Fish Agent：端到端AI语音克隆助手，实时语音对话助理，Fish Speech衍生项目

Опыт работы: https://huggingface.co/spaces/fishaudio/fish-agent

Список функций

Клонирование голоса со сверхнизкой задержкой: время отклика 150 мс, поддержка преобразования голоса в реальном времени
Архитектура разметки без семантики: инновационное решение для сквозной обработки речи
Точная регулировка тембра: точная регулировка тембра по опорному аудиосигналу
Обработка окружающего звука: высокоточное воспроизведение звуковой информации из окружающей среды
Открытые предварительно обученные модели: поддержка локального развертывания и обучения
API облачных сервисов: обеспечение удобных вызовов облачных интерфейсов
Индивидуальное обучение: поддерживает индивидуальное обучение звуковой модели

Использование помощи

1. системные требования

Python 3.8 или выше
Графический процессор NVIDIA (рекомендуется)
8 ГБ или более системной памяти
Поддержка CUDA (рекомендуется)

2. Этапы установки

Подготовка к защите окружающей среды

# 创建虚拟环境
python -m venv fish-agent-env
source fish-agent-env/bin/activate  # Linux/Mac
# 或
fish-agent-env\Scripts\activate  # Windows

Установка Fish Agent

# 直接安装
pip install fish-agent
# 或从源码安装
git clone https://github.com/fishaudio/fish-agent
cd fish-agent
pip install -e .

3. Поток использования

3.1 Использование онлайн-сервисов

Теперь вы можете попробовать нашу демонстрационную версию SmartBody в режиме онлайн, следуя документации для живого общения на английском языке, а также местного общения на английском и китайском языках.

Демо-версия является ранним альфа-тестированием, скорость вывода данных должна быть оптимизирована, и есть много ошибок, которые необходимо исправить. Если вы обнаружили ошибку или хотите ее исправить, мы будем рады получить вопросы или запросы на исправление.

https://fish.audio/zh-CN/demo/live/

3.2 Локальное развертывание

активация услуги

from fish_agent import VoiceAgent
# 初始化Fish Agent
agent = VoiceAgent()
# 启动本地服务
agent.start_server(port=7860)

Пример клонирования речи

# 加载参考音频
reference_audio = "path/to/reference.wav"
agent.load_reference(reference_audio)
# 生成克隆语音
text = "这是一段测试语音"
output_path = "output.wav"
agent.generate_speech(text, output_path)

Настройки конверсии в реальном времени

# 启动实时语音转换
agent.start_realtime_conversion(
input_device=0,  # 输入设备ID
output_device=1, # 输出设备ID
reference_audio="path/to/reference.wav"
)

4. Расширенная настройка функций

4.1 Настройка параметров тона

Параметры управления тембром:
- Угол наклона: от -12 до 12
- Скорость речи: от 0,5 до 2,0
- Интенсивность эмоций: от 0 до 1,0

4.2 Пакетная обработка

# 批量文本处理
texts = ["文本1", "文本2", "文本3"]
agent.batch_process(texts, output_dir="outputs/")

4.3 Вызовы API

# API调用示例
import requests
url = "https://speech.fish.audio/api/v1/generate"
payload = {
"text": "要转换的文本",
"reference_audio": "base64编码的音频文件"
}
response = requests.post(url, json=payload)

5. меры предосторожности при использовании

Качество эталонного звука существенно влияет на результаты клонирования, поэтому рекомендуется использовать чистые записи без фоновых шумов
Рекомендуется ограничивать объем одного текста 200 словами или менее.
Преобразование в реальном времени требует хорошего микрофона для достижения лучших результатов
Коммерческое использование требует специального разрешения
Рекомендуется регулярно обновлять модель для достижения оптимальной производительности

6. решение общих проблем

Проблемы с аудиовыходом
- Проверка настроек устройства вывода звука
- Проверка конфигурации системного тома
- Подтвердите поддержку аудиоформатов
оптимизация производительности
- Проверьте, правильно ли включен графический процессор
- Настройка параметров партии
- Регулярная очистка кэша
Установка связана с
- Проверка совместимости версий Python
- Подтвердите конфигурацию среды CUDA
- Рассмотрим среду conda
Использование API
- Проверьте состояние сетевого подключения
- Подтверждение конфигурации разрешений API
- Проверьте ответ сервера

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Клонирование голоса AI # Мультимодальные интерактивные продукты в реальном времени

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.

Xiaomi-MiMo-Audio - первая нативная сквозная речевая модель Xiaomi с открытым исходным кодом

Последние ресурсы по искусственному интеллекту

5 месяцев назад

035.8K

Slidev - открытый источник AI PPT maker, синтаксис Markdown для создания слайд-шоу

Последние ресурсы по искусственному интеллекту

9 месяцев назад

046.8K

JoyCaptionAlpha Two for ComfyUI：图像反推文本描述工具

JoyCaptionAlpha Two для ComfyUI: инструмент для описания текста с обратным распространением изображения

Последние ресурсы по искусственному интеллекту # AI Средства создания изображений

1 год назад

049K

Hybrid Turbo S: Большая модель Tencent для быстрого мышления (открыт прием заявок)

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct

12 месяцев назад

042.3K

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!

Войти сейчас

Нет комментариев...

Fish Agent: сквозной голосовой помощник с искусственным интеллектом, голосовой помощник для ведения диалога в реальном времени, спин-офф проект Fish Speech

Общее введение

Список функций

Использование помощи

1. системные требования

2. Этапы установки

3. Поток использования

3.1 Использование онлайн-сервисов

3.2 Локальное развертывание

4. Расширенная настройка функций

4.1 Настройка параметров тона

4.2 Пакетная обработка

4.3 Вызовы API

5. меры предосторожности при использовании

6. решение общих проблем

FunClip: интеллектуальное редактирование видеоконтента в короткометражные фильмы, простое и точное извлечение/обрезание видеоклипов

FLUX 3D StyleGEN: создание изображений в стиле 3D, создание изображений, подходящих для 3D-моделирования

Похожие статьи

Xiaomi-MiMo-Audio - первая нативная сквозная речевая модель Xiaomi с открытым исходным кодом

Slidev - открытый источник AI PPT maker, синтаксис Markdown для создания слайд-шоу

JoyCaptionAlpha Two для ComfyUI: инструмент для описания текста с обратным распространением изображения

Hybrid Turbo S: Большая модель Tencent для быстрого мышления (открыт прием заявок)

Нет комментариев

Последние коллекции

Последние статьи

Fish Agent: сквозной голосовой помощник с искусственным интеллектом, голосовой помощник для ведения диалога в реальном времени, спин-офф проект Fish Speech

Общее введение

Список функций

Использование помощи

1. системные требования

2. Этапы установки

3. Поток использования

3.1 Использование онлайн-сервисов

3.2 Локальное развертывание

4. Расширенная настройка функций

4.1 Настройка параметров тона

4.2 Пакетная обработка

4.3 Вызовы API

5. меры предосторожности при использовании

6. решение общих проблем

FunClip: интеллектуальное редактирование видеоконтента в короткометражные фильмы, простое и точное извлечение/обрезание видеоклипов

FLUX 3D StyleGEN: создание изображений в стиле 3D, создание изображений, подходящих для 3D-моделирования

Похожие статьи

Xiaomi-MiMo-Audio - первая нативная сквозная речевая модель Xiaomi с открытым исходным кодом

Slidev - открытый источник AI PPT maker, синтаксис Markdown для создания слайд-шоу

JoyCaptionAlpha Two для ComfyUI: инструмент для описания текста с обратным распространением изображения

Hybrid Turbo S: Большая модель Tencent для быстрого мышления (открыт прием заявок)

Нет комментариев

Избранные инструменты искусственного интеллекта

Последние коллекции

Последние статьи