Fun-Audio-Chat-8B - макромодель сквозного речевого взаимодействия с открытым исходным кодом от Али Тонги

Последние ресурсы по искусственному интеллектуОпубликовано 4 месяца назад Круг обмена ИИ

Что такое Fun-Audio-Chat-8B?

Fun-Audio-Chat-8B - сквозная речевая модель с открытым исходным кодом на 8 миллиардов параметров, разработанная командой Ali Tongyi. Прямая речь в речи, без необходимости сращивания ASR+LLM+TTS, двуязычная, свободно говорящая на китайском и английском языках, с низкой задержкой и естественным тембром. Благодаря совместному использованию LLM с двойным разрешением и декодированию речи с высокой точностью 25 Гц, нагрузка на GPU снижена вдвое; двухэтапное обучение Core-Cocktail сначала вводит возможности речи, а затем объединяет параметры текста, чтобы подавить забывчивость; многозадачное выравнивание предпочтений позволяет модели слышать эмоции и понимать команды. В OpenAudioBench, VoiceBench и других более чем десяти авторитетных списках, перечисленных в том же размере в первую очередь, могут быть развернуты для голосового чата, эмоционального сопровождения, интеллектуальных терминалов или обслуживания клиентов, 24 Гб видеопамяти могут быть сделаны выводы, код и веса были синхронизированы с ModelScope, HuggingFace и GitHub.

Особенности Fun-Audio-Chat-8B

Комплексная архитектура S2S: Генерирование речевого вывода непосредственно из речевого ввода без сращивания ASR + LLM + TTS, более высокая эффективность и меньшая задержка.
Конструкция с двойным разрешениемСлой Shared LLM эффективно обрабатывается при частоте кадров 5 Гц, а SRH генерирует высококачественную речь при частоте кадров 25 Гц, снижая вычислительные затраты GPU почти на 50%.
Двухступенчатая стратегия обучения Core-CocktailПроблема "катастрофического забывания" смягчается за счет поэтапного внедрения речевых и мультимодальных возможностей, а затем их тонкой настройки путем слияния с параметрами исходной текстовой макромодели.
Многоэтапное, многозадачное обучение выравниванию предпочтений: Позволяет модели более точно улавливать семантические и эмоциональные сигналы в реальных речевых диалогах и повышает естественность диалога.

Основные преимущества Fun-Audio-Chat-8B

Конечный S2S: Прямой ввод и вывод голоса, без сращивания ASR+LLM+TTS, задержка снижена вдвое.
8 миллиардов двуязычных параметров: Более десяти первых в одном шкальном списке, понимают и говорят, эмоциональное восприятие точное.
Архитектура с двойным разрешением: 5 Гц общего LLM + 25 Гц hi-fi декодирования, экономия половины арифметики GPU.
Обучение Core-CocktailВвод речи перед объединением текста для предотвращения катастрофического забывания.
Выравнивание предпочтений Многозадачность: Прослушивание эмоций, изменение стиля в ответ на команды и значительное улучшение естественности диалога.
Открытый источник одним кликом: ModelScope/HuggingFace/GitHub полный код ссылки и веса, 24G видеопамяти может быть обоснован, десять минут, чтобы развернуть голосовой чат, эмоциональное сопровождение, интеллектуальный терминал, обслуживание клиентов и другие сцены.

Какой официальный сайт у Fun-Audio-Chat-8B?

Веб-сайт проекта:: https://funaudiollm.github.io/funaudiochat/
Репозиторий Github:: https://github.com/FunAudioLLM/Fun-Audio-Chat
Библиотека моделей HuggingFace: https: //huggingface.co/FunAudioLLM/Fun-Audio-Chat-8B
Технические документы:: https://github.com/FunAudioLLM/Fun-Audio-Chat/blob/main/Fun-Audio-Chat-Technical-Report.pdf

Люди, для которых предназначен Fun-Audio-Chat-8B

производитель интеллектуального оборудования: Быстрое добавление возможностей голосового диалога с низкой задержкой и высоким уровнем интеллекта в динамики, наушники, автомобили и бытовую технику.
Социальное и эмоциональное общение Предприниматели: Создавайте такие приложения, как чат с искусственным интеллектом, виртуальные любовники и помощники по лечению с естественным восприятием тембра и эмоций.
Обслуживание клиентов и колл-центр: Замена традиционного решения TTS+ASR для достижения сквозной передачи голоса Q&A и сокращения расходов на развертывание и эксплуатацию.
Платформа для образования и изучения языков: Обеспечивает оценку произношения на двух языках в режиме реального времени, практику разговорных пар, коррекцию произношения для улучшения интерактивного опыта.
Доступные разработчики: Создание инструментов голосового взаимодействия с высоким уровнем плавности для людей с ослабленным зрением или дислексией для улучшения доступности информации.
Инженер по исследованиям и алгоритмам: Исследуйте границы макромоделирования речи на основе открытых весов и полного обучающего кода, с низким порогом для вторичных инноваций.

Последние ресурсы по искусственному интеллекту

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.

Cohere: испытайте модели серии Command бесплатно!

Последние ресурсы по искусственному интеллекту # AI Big Model Native Dialogue Tool

2 года назад

071.6K

LongCat-Audio-Codec - 美团LongCat开源的语音编解码方案

LongCat-Audio-Codec - голосовой кодек LongCat с открытым исходным кодом для Meituan

Последние ресурсы по искусственному интеллекту

6 месяцев назад

030K

Плагин для ComfyUI, обеспечивающий возможность генерации видео на основе Wan 2.1

Последние ресурсы по искусственному интеллекту # AI Преобразование изображений в видео # AI Java Open Source Projecct # AI текст в видео

1 год назад

0140.1K

JupyterLab Magic Wand：在JupyterLab中使用AI助手提升工作效率

Волшебная палочка JupyterLab: использование ИИ-помощников в JupyterLab для повышения производительности

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct

1 год назад

049.9K

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!

Войти сейчас

Нет комментариев...

Fun-Audio-Chat-8B - макромодель сквозного речевого взаимодействия с открытым исходным кодом от Али Тонги

Что такое Fun-Audio-Chat-8B?

Особенности Fun-Audio-Chat-8B

Основные преимущества Fun-Audio-Chat-8B

Какой официальный сайт у Fun-Audio-Chat-8B?

Люди, для которых предназначен Fun-Audio-Chat-8B

PromptFill - ИИ-инструмент с открытым исходным кодом для создания структурированных слов, предназначенный для рисования ИИ.

MedASR - модель распознавания медицинской речи с открытым исходным кодом от Google

Похожие посты

Cohere: испытайте модели серии Command бесплатно!

LongCat-Audio-Codec - голосовой кодек LongCat с открытым исходным кодом для Meituan

Плагин для ComfyUI, обеспечивающий возможность генерации видео на основе Wan 2.1

Волшебная палочка JupyterLab: использование ИИ-помощников в JupyterLab для повышения производительности

Нет комментариев

Последние коллекции

Последние статьи

Fun-Audio-Chat-8B - макромодель сквозного речевого взаимодействия с открытым исходным кодом от Али Тонги

Что такое Fun-Audio-Chat-8B?

Особенности Fun-Audio-Chat-8B

Основные преимущества Fun-Audio-Chat-8B

Какой официальный сайт у Fun-Audio-Chat-8B?

Люди, для которых предназначен Fun-Audio-Chat-8B

PromptFill - ИИ-инструмент с открытым исходным кодом для создания структурированных слов, предназначенный для рисования ИИ.

MedASR - модель распознавания медицинской речи с открытым исходным кодом от Google

Похожие посты

Cohere: испытайте модели серии Command бесплатно!

LongCat-Audio-Codec - голосовой кодек LongCat с открытым исходным кодом для Meituan

Плагин для ComfyUI, обеспечивающий возможность генерации видео на основе Wan 2.1

Волшебная палочка JupyterLab: использование ИИ-помощников в JupyterLab для повышения производительности

Нет комментариев

Избранные инструменты искусственного интеллекта

Последние коллекции

Последние статьи