"Всегда включенный" Deepseek AI Assistant: создание интеллектуальной системы голосового взаимодействия на основе Deepseek-V3

Общее введение

Always-On AI Assistant - это инновационный проект по созданию мощного и постоянно работающего в режиме онлайн ИИ-ассистента, объединяющего такие передовые технологии, как Deepseek-V3, RealtimeSTT и Typer. Проект специально оптимизирован для сценариев инженерных разработок, предоставляя полный интерфейс голосового взаимодействия и систему выполнения команд. Система построена по модульному принципу и включает в себя базовый чат-интерфейс ассистента и продвинутую систему командных сессий ассистента Typer, поддерживающую функции распознавания речи и преобразования текста в речь в режиме реального времени. Благодаря интеграции технологии синтеза речи ElevenLabs и возможностей распознавания речи в реальном времени RealtimeSTT, проект предоставляет разработчикам полную парадигму разработки ИИ-ассистентов, что делает создание интеллектуальных голосовых помощников более простым и эффективным.

 

Список функций

  • Система распознавания и реагирования на речь в реальном времени
  • Интеллектуальный диалоговый движок на основе Deepseek-V3
  • Настраиваемая система выполнения команд Typer
  • Поддержка нескольких режимов работы (по умолчанию, выполнение, выполнение без памяти)
  • Система динамического управления памятью (Scratchpad)
  • Высококонфигурируемая архитектура ассистента
  • Поддержка распознавания родной речи
  • ElevenLabs Интеграция высококачественного синтеза речи
  • Расширяемая система шаблонов команд
  • Возможность проведения интерактивных сеансов в режиме реального времени

 

Использование помощи

1. конфигурация окружающей среды

1.1 Базовая конфигурация

  • Сначала клонируйте проект локально
  • Скопируйте файл конфигурации среды: выполнить cp .env.sample .env
  • Обновите ключ API:
    • Установите DEEPSEEK_API_KEY (для доступа к модели AI).
    • Установка ELEVEN_API_KEY (для синтеза речи)
  • осуществлять uv sync зависимость синхронизации
  • Дополнительно: установите Python 3.11 (с помощью команды uv python install 3.11)

1.2 Системные требования

  • Python 3.11 или более поздняя версия.
  • Стабильное сетевое соединение
  • Микрофонное оборудование (для голосового ввода)
  • устройство вывода звука (компьютер)

2. Описание использования основных функций

2.1 Базовый интерфейс чата помощника

  • Команда "Старт":uv run python main_base_assistant.py chat
  • Откроется основной диалоговый экран
  • Возможно прямое текстовое или голосовое взаимодействие
  • Голосовой ответ с помощью встроенного TTS

2.2 Система команд сеанса работы с ассистентом Typer

  • Команда "Старт":
uv run python main_typer_assistant.py awaken --typer-file commands/template.py --scratchpad scratchpad.md --mode execute
  • Описание параметра:
    • --typer-file: указывает местоположение файла шаблона команды
    • --scratchpad: установить файл динамической памяти помощника
    • --mode: устанавливает режим выполнения (по умолчанию/выполнить/выполнить-без-царапин)

2.3 Взаимодействие с ассистентами

  • Явно выраженное пробуждение "Ады".
  • Произнесите инструкции, например, "Ада, пропингуй сервер и дождись ответа".
  • Ассистент распознает речь в режиме реального времени и выполняет соответствующие команды
  • Результаты выполнения записываются в файл scratchpad.md

3. Описание архитектурных компонентов

3.1 Архитектура помощника Typer Assistant

  • Мозг: использование Deepseek V3 в качестве основного движка ИИ
  • Обработка задач: определяется через prompts/typer-commands.xml
  • Динамическая память: управление состоянием с помощью scratchpad.txt
  • Распознавание речи: преобразование речи в текст в реальном времени с помощью RealtimeSTT
  • Синтез речи: интеграция с ElevenLabs обеспечивает естественный речевой вывод

3.2 Инфраструктура для основных помощников

  • Основной движок: использование ollama:phi4
  • Упрощенная конструкция: не требуется дополнительных подсказок или динамической памяти
  • Распознавание речи: также используется RealtimeSTT
  • Голосовой вывод: использование местной системы TTS

4. Расширенная настройка функций

  • Конфигурации помощника можно настраивать с помощью файла assistant_config.yml
  • Поддержка добавления пользовательских команд Typer
  • Возможность настройки параметров распознавания и синтеза речи
  • Поддержка расширения новых функциональных модулей
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...