はじめに
Always-On AI Assistantは、Deepseek-V3、RealtimeSTT、Typerなどの先進技術を統合し、強力で永続的なオンラインAIアシスタントシステムを構築する革新的なAIアシスタントプロジェクトです。このプロジェクトは、特にエンジニアリング開発シナリオに最適化されており、完全な音声対話インターフェースとコマンド実行フレームワークを提供します。このシステムはモジュール設計を採用し、基本的なアシスタント・チャット・インターフェースと高度なTyperアシスタント・セッション・コマンド・システムを含み、リアルタイムの音声認識とテキスト読み上げ機能をサポートします。ElevenLabsの音声合成技術とRealtimeSTTのリアルタイム音声認識機能を統合することで、このプロジェクトは開発者に完全なAIアシスタント開発パラダイムを提供し、インテリジェントな音声アシスタントをより簡単かつ効率的に作成できるようにします。
機能一覧
- リアルタイム音声認識応答システム
- Deepseek-V3ベースのインテリジェント対話エンジン
- カスタマイズ可能なTyperコマンド実行フレームワーク
- マルチモード動作サポート(デフォルト、実行、メモリレス実行)
- 動的メモリ管理システム(スクラッチパッド)
- 高度に設定可能なアシスタント・アーキテクチャ
- ネイティブ音声認識のサポート
- イレブンラボ 高品質音声合成の統合
- 拡張可能なコマンド・テンプレート・システム
- リアルタイム・インタラクティブ・セッション機能
ヘルプの使用
1.環境構成
1.1 基本構成
- まずプロジェクトをローカルにクローンする
- 環境設定ファイルをコピーする。
cp .env.sample .env
- APIキーを更新する:
- DEEPSEEK_API_KEYの設定(AIモデルアクセス用)
- ELEVEN_API_KEYの設定(音声合成用)
- はこびだす
紫外線 同期
同期依存 - オプション:Python 3.11をインストールする(コマンド
uv python インストール 3.11
)
1.2 システム要件
- Python 3.11以降。
- 安定したネットワーク接続
- マイク装置(音声入力用)
- 音声出力装置
2.主な機能の使用説明
2.1 基本的なアシスタント・チャット・インターフェース
- コマンドを開始する:
uv run python main_base_assistant.py chat
- 基本的なダイアログ画面が開きます。
- テキストまたは音声による直接対話が可能
- ネイティブTTSによる音声応答
2.2 タイパーアシスタントセッションコマンドシステム
- コマンドを開始する:
uv run python main_typer_assistant.py awaken --typer-file commands/template.py --scratchpad scratchpad.md --mode execute
- パラメータの説明
- --typer-file: コマンド・テンプレート・ファイルの場所を指定する。
- -scratchpad:アシスタントのダイナミック・メモリー・ファイルを設定する。
- -mode:動作モードを設定(デフォルト/実行/実行なしスクラッチ)
2.3 アシスタントとの対話
- 明らかに「エイダ」の目覚ましコールである。
- 例えば、"エイダ、サーバーにpingを打って応答を待ってくれ"。
- アシスタントはリアルタイムで音声を認識し、それに応じてコマンドを実行する。
- 実行結果はscratchpad.mdファイルに記録される。
3.建築部品の説明
3.1 タイパーアシスタントのアーキテクチャ
- ブレイン:コアAIエンジンとしてDeepseek V3を使用
- タスク処理: prompts/typer-commands.xml で定義。
- 動的メモリ:scratchpad.txtを使った状態管理
- 音声認識:RealtimeSTTを使ったリアルタイム音声テキスト変換
- 音声合成:イレブンラボとの統合で自然な音声出力を実現
3.2 基本アシスタントのためのインフラ
- コアエンジン:ollama:phi4を使用
- シンプルな設計:余分なヒントやダイナミック・メモリが不要
- 音声認識:RealtimeSTTも使用
- 音声出力:ローカルTTSシステムを使用
4.高度な機能設定
- アシスタントの設定はassistant_config.ymlファイルでカスタマイズできます。
- カスタムTyperコマンドの追加をサポート
- 音声認識と合成のパラメーターを調整可能
- 新しい機能モジュールの拡張をサポート