Ichigo (llama3-s): локальный голосовой ИИ-помощник в реальном времени, версия Siri с открытым исходным кодом
Общее введение
Ichigo - это проект речевого ИИ с открытым исходным кодом в реальном времени, цель которого - расширить текстовые языковые модели возможностями "прослушивания" родного языка. В проекте используются методы раннего слияния, вдохновленные статьей Chameleon компании Meta. Ichigo стремится стать голосовым помощником с открытым исходным кодом для родных устройств, подобным Siri. Проект находится в стадии открытого развития, и партнеры могут присоединиться к краудсорсингу для продвижения набора речевых данных.

Список функций
- Распознавание речи в реальном времени: Способность обрабатывать и понимать голосовой ввод пользователя в режиме реального времени.
- Возможность многораундового диалога: Поддерживает несколько раундов диалога и способен поддерживать контекст диалога.
- управление шумом: Возможность отказаться от обработки неречевых аудиоданных с помощью обучения улучшает пользовательский опыт.
- Открытый исходный код и масштабируемость: Код проекта и весовые коэффициенты модели полностью открыты, и пользователи могут свободно загружать и расширять их.
- локальное развертывание: Поддерживает развертывание на локальных устройствах для защиты конфиденциальности пользователей.
Использование помощи
Процесс установки
- Подготовка к защите окружающей среды ::
- Убедитесь, что установлен Python 3.8 или выше.
- Установите необходимые библиотеки зависимостей:
pip install -r requirements.txt
.
- Скачать модели ::
- Используйте следующую команду для загрузки модели Ichigo:
git clone https://github.com/homebrewltd/ichigo.git cd ichigo pip install -e .
- Используйте следующую команду для загрузки модели Ichigo:
- Настройка набора данных ::
- Загрузите нужный набор данных с сайта HuggingFace и задайте путь к набору данных в файле конфигурации.
- Демонстрация запуска ::
- Запустите локальную демонстрационную программу Gradio с помощью следующей команды:
python demo.py --use-4bit --use-8bit
- Запустите локальную демонстрационную программу Gradio с помощью следующей команды:
Процесс использования
- Начальные услуги ::
- После выполнения вышеуказанной команды перейдите по указанному локальному URL-адресу, чтобы получить доступ к веб-интерфейсу Ichigo.
- голосовой ввод ::
- В веб-интерфейсе нажмите на значок микрофона, чтобы начать запись, система будет обрабатывать и отображать результаты распознавания речи в режиме реального времени.
- многоуровневый диалог ::
- Система поддерживает несколько раундов диалога, когда пользователь может непрерывно вводить речь, а система будет поддерживать контекст для понимания и ответа.
- управление шумом ::
- Система обучена распознавать и отклонять обработку неречевых аудиоданных, что обеспечивает точность результатов распознавания.
- Пользовательские расширения ::
- Пользователи могут изменять код и модель по мере необходимости, чтобы добавить новые или улучшить существующие функции.
Подробная процедура работы
- Загрузка и установка ::
- Посетите страницу Ichigo на GitHub и следуйте процессу установки, чтобы загрузить и установить необходимые зависимости и модели.
- Конфигурация и ввод в эксплуатацию ::
- В соответствии с конфигурационным файлом, предоставленным проектом, установите путь к набору данных и параметры модели для запуска локальной службы.
- Использование веб-интерфейса ::
- Оцените возможности Ichigo по распознаванию речи в реальном времени и многораундовому диалогу с помощью голосового ввода и взаимодействия через интерфейс Web UI.
- Расширение и настройка ::
- Понимание архитектуры и принципов работы системы на основе проектной документации и комментариев к коду пользовательских расширений.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...