"Всегда включенный" Deepseek AI Assistant: создание интеллектуальной системы голосового взаимодействия на основе Deepseek-V3
Общее введение
Always-On AI Assistant - это инновационный проект по созданию мощного и постоянно работающего в режиме онлайн ИИ-ассистента, объединяющего такие передовые технологии, как Deepseek-V3, RealtimeSTT и Typer. Проект специально оптимизирован для сценариев инженерных разработок, предоставляя полный интерфейс голосового взаимодействия и систему выполнения команд. Система построена по модульному принципу и включает в себя базовый чат-интерфейс ассистента и продвинутую систему командных сессий ассистента Typer, поддерживающую функции распознавания речи и преобразования текста в речь в режиме реального времени. Благодаря интеграции технологии синтеза речи ElevenLabs и возможностей распознавания речи в реальном времени RealtimeSTT, проект предоставляет разработчикам полную парадигму разработки ИИ-ассистентов, что делает создание интеллектуальных голосовых помощников более простым и эффективным.

Список функций
- Система распознавания и реагирования на речь в реальном времени
- Интеллектуальный диалоговый движок на основе Deepseek-V3
- Настраиваемая система выполнения команд Typer
- Поддержка нескольких режимов работы (по умолчанию, выполнение, выполнение без памяти)
- Система динамического управления памятью (Scratchpad)
- Высококонфигурируемая архитектура ассистента
- Поддержка распознавания родной речи
- ElevenLabs Интеграция высококачественного синтеза речи
- Расширяемая система шаблонов команд
- Возможность проведения интерактивных сеансов в режиме реального времени
Использование помощи
1. конфигурация окружающей среды
1.1 Базовая конфигурация
- Сначала клонируйте проект локально
- Скопируйте файл конфигурации среды: выполнить
cp .env.sample .env
- Обновите ключ API:
- Установите DEEPSEEK_API_KEY (для доступа к модели AI).
- Установка ELEVEN_API_KEY (для синтеза речи)
- осуществлять
uv sync
зависимость синхронизации - Дополнительно: установите Python 3.11 (с помощью команды
uv python install 3.11
)
1.2 Системные требования
- Python 3.11 или более поздняя версия.
- Стабильное сетевое соединение
- Микрофонное оборудование (для голосового ввода)
- устройство вывода звука (компьютер)
2. Описание использования основных функций
2.1 Базовый интерфейс чата помощника
- Команда "Старт":
uv run python main_base_assistant.py chat
- Откроется основной диалоговый экран
- Возможно прямое текстовое или голосовое взаимодействие
- Голосовой ответ с помощью встроенного TTS
2.2 Система команд сеанса работы с ассистентом Typer
- Команда "Старт":
uv run python main_typer_assistant.py awaken --typer-file commands/template.py --scratchpad scratchpad.md --mode execute
- Описание параметра:
- --typer-file: указывает местоположение файла шаблона команды
- --scratchpad: установить файл динамической памяти помощника
- --mode: устанавливает режим выполнения (по умолчанию/выполнить/выполнить-без-царапин)
2.3 Взаимодействие с ассистентами
- Явно выраженное пробуждение "Ады".
- Произнесите инструкции, например, "Ада, пропингуй сервер и дождись ответа".
- Ассистент распознает речь в режиме реального времени и выполняет соответствующие команды
- Результаты выполнения записываются в файл scratchpad.md
3. Описание архитектурных компонентов
3.1 Архитектура помощника Typer Assistant
- Мозг: использование Deepseek V3 в качестве основного движка ИИ
- Обработка задач: определяется через prompts/typer-commands.xml
- Динамическая память: управление состоянием с помощью scratchpad.txt
- Распознавание речи: преобразование речи в текст в реальном времени с помощью RealtimeSTT
- Синтез речи: интеграция с ElevenLabs обеспечивает естественный речевой вывод
3.2 Инфраструктура для основных помощников
- Основной движок: использование ollama:phi4
- Упрощенная конструкция: не требуется дополнительных подсказок или динамической памяти
- Распознавание речи: также используется RealtimeSTT
- Голосовой вывод: использование местной системы TTS
4. Расширенная настройка функций
- Конфигурации помощника можно настраивать с помощью файла assistant_config.yml
- Поддержка добавления пользовательских команд Typer
- Возможность настройки параметров распознавания и синтеза речи
- Поддержка расширения новых функциональных модулей
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...