Ichigo (llama3-s): локальный голосовой ИИ-помощник в реальном времени, версия Siri с открытым исходным кодом

Последние ресурсы по искусственному интеллектуОбновлено 1 год назад Круг обмена ИИ

60.3K 00

Общее введение

Ichigo - это проект речевого ИИ с открытым исходным кодом в реальном времени, цель которого - расширить текстовые языковые модели возможностями "прослушивания" родного языка. В проекте используются методы раннего слияния, вдохновленные статьей Chameleon компании Meta. Ichigo стремится стать голосовым помощником с открытым исходным кодом для родных устройств, подобным Siri. Проект находится в стадии открытого развития, и партнеры могут присоединиться к краудсорсингу для продвижения набора речевых данных.

Список функций

Распознавание речи в реальном времени: Способность обрабатывать и понимать голосовой ввод пользователя в режиме реального времени.
Возможность многораундового диалога: Поддерживает несколько раундов диалога и способен поддерживать контекст диалога.
управление шумом: Возможность отказаться от обработки неречевых аудиоданных с помощью обучения улучшает пользовательский опыт.
Открытый исходный код и масштабируемость: Код проекта и весовые коэффициенты модели полностью открыты, и пользователи могут свободно загружать и расширять их.
локальное развертывание: Поддерживает развертывание на локальных устройствах для защиты конфиденциальности пользователей.

Использование помощи

Процесс установки

Подготовка к защите окружающей среды ::
- Убедитесь, что установлен Python 3.8 или выше.
- Установите необходимые библиотеки зависимостей:pip install -r requirements.txt.
Скачать модели ::
- Используйте следующую команду для загрузки модели Ichigo:
```
git clone https://github.com/homebrewltd/ichigo.git
cd ichigo
pip install -e .
```
Настройка набора данных ::
- Загрузите нужный набор данных с сайта HuggingFace и задайте путь к набору данных в файле конфигурации.
Демонстрация запуска ::
- Запустите локальную демонстрационную программу Gradio с помощью следующей команды:
```
python demo.py --use-4bit --use-8bit
```

Процесс использования

Начальные услуги ::
- После выполнения вышеуказанной команды перейдите по указанному локальному URL-адресу, чтобы получить доступ к веб-интерфейсу Ichigo.
голосовой ввод ::
- В веб-интерфейсе нажмите на значок микрофона, чтобы начать запись, система будет обрабатывать и отображать результаты распознавания речи в режиме реального времени.
многоуровневый диалог ::
- Система поддерживает несколько раундов диалога, когда пользователь может непрерывно вводить речь, а система будет поддерживать контекст для понимания и ответа.
управление шумом ::
- Система обучена распознавать и отклонять обработку неречевых аудиоданных, что обеспечивает точность результатов распознавания.
Пользовательские расширения ::
- Пользователи могут изменять код и модель по мере необходимости, чтобы добавить новые или улучшить существующие функции.

Подробная процедура работы

Загрузка и установка ::
- Посетите страницу Ichigo на GitHub и следуйте процессу установки, чтобы загрузить и установить необходимые зависимости и модели.
Конфигурация и ввод в эксплуатацию ::
- В соответствии с конфигурационным файлом, предоставленным проектом, установите путь к набору данных и параметры модели для запуска локальной службы.
Использование веб-интерфейса ::
- Оцените возможности Ichigo по распознаванию речи в реальном времени и многораундовому диалогу с помощью голосового ввода и взаимодействия через интерфейс Web UI.
Расширение и настройка ::
- Понимание архитектуры и принципов работы системы на основе проектной документации и комментариев к коду пользовательских расширений.

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Мультимодальные интерактивные продукты в реальном времени

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.

Рой: экспериментальный педагогический проект для обучения легких мультиинтеллектуальных систем тел (на примере OpenAI)

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Система разработки интеллектуального тела

1 год назад

056.8K

HunyuanOCR - экспертная модель Tencent с открытым исходным кодом для оптического распознавания символов

Последние ресурсы по искусственному интеллекту

4 месяца назад

032.6K

YYeTsBot: Everyone's Movie and TV Resource Bot, получайте самые свежие ресурсы о кино и телевидении, легко ищите и скачивайте!

Последние ресурсы по искусственному интеллекту # AI Open Services

1 год назад

057.4K

Rowfill: пакетное извлечение структурированной информации из документов и автоматизированный анализ

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Анализ данных искусственного интеллекта # Извлечение и очистка документов

1 год назад

053.2K

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!

Войти сейчас

Нет комментариев...

Ichigo (llama3-s): локальный голосовой ИИ-помощник в реальном времени, версия Siri с открытым исходным кодом

Общее введение

Список функций