Ichigo (llama3-s): локальный голосовой ИИ-помощник в реальном времени, версия Siri с открытым исходным кодом

Общее введение

Ichigo - это проект речевого ИИ с открытым исходным кодом в реальном времени, цель которого - расширить текстовые языковые модели возможностями "прослушивания" родного языка. В проекте используются методы раннего слияния, вдохновленные статьей Chameleon компании Meta. Ichigo стремится стать голосовым помощником с открытым исходным кодом для родных устройств, подобным Siri. Проект находится в стадии открытого развития, и партнеры могут присоединиться к краудсорсингу для продвижения набора речевых данных.

Ichigo(llama3-s):本地实时语音AI助手,开源版Siri

 

Список функций

  • Распознавание речи в реальном времени: Способность обрабатывать и понимать голосовой ввод пользователя в режиме реального времени.
  • Возможность многораундового диалога: Поддерживает несколько раундов диалога и способен поддерживать контекст диалога.
  • управление шумом: Возможность отказаться от обработки неречевых аудиоданных с помощью обучения улучшает пользовательский опыт.
  • Открытый исходный код и масштабируемость: Код проекта и весовые коэффициенты модели полностью открыты, и пользователи могут свободно загружать и расширять их.
  • локальное развертывание: Поддерживает развертывание на локальных устройствах для защиты конфиденциальности пользователей.

 

Использование помощи

Процесс установки

  1. Подготовка к защите окружающей среды ::
    • Убедитесь, что установлен Python 3.8 или выше.
    • Установите необходимые библиотеки зависимостей:pip install -r requirements.txt.
  2. Скачать модели ::
    • Используйте следующую команду для загрузки модели Ichigo:
      git clone https://github.com/homebrewltd/ichigo.git
      cd ichigo
      pip install -e .
      
  3. Настройка набора данных ::
    • Загрузите нужный набор данных с сайта HuggingFace и задайте путь к набору данных в файле конфигурации.
  4. Демонстрация запуска ::
    • Запустите локальную демонстрационную программу Gradio с помощью следующей команды:
      python demo.py --use-4bit --use-8bit
      

Процесс использования

  1. Начальные услуги ::
    • После выполнения вышеуказанной команды перейдите по указанному локальному URL-адресу, чтобы получить доступ к веб-интерфейсу Ichigo.
  2. голосовой ввод ::
    • В веб-интерфейсе нажмите на значок микрофона, чтобы начать запись, система будет обрабатывать и отображать результаты распознавания речи в режиме реального времени.
  3. многоуровневый диалог ::
    • Система поддерживает несколько раундов диалога, когда пользователь может непрерывно вводить речь, а система будет поддерживать контекст для понимания и ответа.
  4. управление шумом ::
    • Система обучена распознавать и отклонять обработку неречевых аудиоданных, что обеспечивает точность результатов распознавания.
  5. Пользовательские расширения ::
    • Пользователи могут изменять код и модель по мере необходимости, чтобы добавить новые или улучшить существующие функции.

Подробная процедура работы

  1. Загрузка и установка ::
    • Посетите страницу Ichigo на GitHub и следуйте процессу установки, чтобы загрузить и установить необходимые зависимости и модели.
  2. Конфигурация и ввод в эксплуатацию ::
    • В соответствии с конфигурационным файлом, предоставленным проектом, установите путь к набору данных и параметры модели для запуска локальной службы.
  3. Использование веб-интерфейса ::
    • Оцените возможности Ichigo по распознаванию речи в реальном времени и многораундовому диалогу с помощью голосового ввода и взаимодействия через интерфейс Web UI.
  4. Расширение и настройка ::
    • Понимание архитектуры и принципов работы системы на основе проектной документации и комментариев к коду пользовательских расширений.
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...