Fun-Audio-Chat-8B - макромодель сквозного речевого взаимодействия с открытым исходным кодом от Али Тонги

堆友AI

Что такое Fun-Audio-Chat-8B?

Fun-Audio-Chat-8B - сквозная речевая модель с открытым исходным кодом на 8 миллиардов параметров, разработанная командой Ali Tongyi. Прямая речь в речи, без необходимости сращивания ASR+LLM+TTS, двуязычная, свободно говорящая на китайском и английском языках, с низкой задержкой и естественным тембром. Благодаря совместному использованию LLM с двойным разрешением и декодированию речи с высокой точностью 25 Гц, нагрузка на GPU снижена вдвое; двухэтапное обучение Core-Cocktail сначала вводит возможности речи, а затем объединяет параметры текста, чтобы подавить забывчивость; многозадачное выравнивание предпочтений позволяет модели слышать эмоции и понимать команды. В OpenAudioBench, VoiceBench и других более чем десяти авторитетных списках, перечисленных в том же размере в первую очередь, могут быть развернуты для голосового чата, эмоционального сопровождения, интеллектуальных терминалов или обслуживания клиентов, 24 Гб видеопамяти могут быть сделаны выводы, код и веса были синхронизированы с ModelScope, HuggingFace и GitHub.

Fun-Audio-Chat-8B - 阿里通义开源的端到端语音交互大模型

Особенности Fun-Audio-Chat-8B

  • Комплексная архитектура S2S: Генерирование речевого вывода непосредственно из речевого ввода без сращивания ASR + LLM + TTS, более высокая эффективность и меньшая задержка.
  • Конструкция с двойным разрешениемСлой Shared LLM эффективно обрабатывается при частоте кадров 5 Гц, а SRH генерирует высококачественную речь при частоте кадров 25 Гц, снижая вычислительные затраты GPU почти на 50%.
  • Двухступенчатая стратегия обучения Core-CocktailПроблема "катастрофического забывания" смягчается за счет поэтапного внедрения речевых и мультимодальных возможностей, а затем их тонкой настройки путем слияния с параметрами исходной текстовой макромодели.
  • Многоэтапное, многозадачное обучение выравниванию предпочтений: Позволяет модели более точно улавливать семантические и эмоциональные сигналы в реальных речевых диалогах и повышает естественность диалога.

Основные преимущества Fun-Audio-Chat-8B

  • Конечный S2S: Прямой ввод и вывод голоса, без сращивания ASR+LLM+TTS, задержка снижена вдвое.
  • 8 миллиардов двуязычных параметров: Более десяти первых в одном шкальном списке, понимают и говорят, эмоциональное восприятие точное.
  • Архитектура с двойным разрешением: 5 Гц общего LLM + 25 Гц hi-fi декодирования, экономия половины арифметики GPU.
  • Обучение Core-CocktailВвод речи перед объединением текста для предотвращения катастрофического забывания.
  • Выравнивание предпочтений Многозадачность: Прослушивание эмоций, изменение стиля в ответ на команды и значительное улучшение естественности диалога.
  • Открытый источник одним кликом: ModelScope/HuggingFace/GitHub полный код ссылки и веса, 24G видеопамяти может быть обоснован, десять минут, чтобы развернуть голосовой чат, эмоциональное сопровождение, интеллектуальный терминал, обслуживание клиентов и другие сцены.

Какой официальный сайт у Fun-Audio-Chat-8B?

  • Веб-сайт проекта:: https://funaudiollm.github.io/funaudiochat/
  • Репозиторий Github:: https://github.com/FunAudioLLM/Fun-Audio-Chat
  • Библиотека моделей HuggingFace: https: //huggingface.co/FunAudioLLM/Fun-Audio-Chat-8B
  • Технические документы:: https://github.com/FunAudioLLM/Fun-Audio-Chat/blob/main/Fun-Audio-Chat-Technical-Report.pdf

Люди, для которых предназначен Fun-Audio-Chat-8B

  • производитель интеллектуального оборудования: Быстрое добавление возможностей голосового диалога с низкой задержкой и высоким уровнем интеллекта в динамики, наушники, автомобили и бытовую технику.
  • Социальное и эмоциональное общение Предприниматели: Создавайте такие приложения, как чат с искусственным интеллектом, виртуальные любовники и помощники по лечению с естественным восприятием тембра и эмоций.
  • Обслуживание клиентов и колл-центр: Замена традиционного решения TTS+ASR для достижения сквозной передачи голоса Q&A и сокращения расходов на развертывание и эксплуатацию.
  • Платформа для образования и изучения языков: Обеспечивает оценку произношения на двух языках в режиме реального времени, практику разговорных пар, коррекцию произношения для улучшения интерактивного опыта.
  • Доступные разработчики: Создание инструментов голосового взаимодействия с высоким уровнем плавности для людей с ослабленным зрением или дислексией для улучшения доступности информации.
  • Инженер по исследованиям и алгоритмам: Исследуйте границы макромоделирования речи на основе открытых весов и полного обучающего кода, с низким порогом для вторичных инноваций.
© заявление об авторских правах

Похожие посты

RD-Agent:自动化数据驱动研发工具,通过AI技术推动以数据为导向的研发过程

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...