'올웨이즈온' 딥시크 AI 어시스턴트: 딥시크-V3 기반의 지능형 음성 인터랙션 시스템 구축

최신 AI 리소스8 개월 전에 게시 됨 AI 공유 서클
14.2K 00

일반 소개

올웨이즈온 AI 어시스턴트는 딥시크-V3, 리얼타임STT, 타이퍼와 같은 고급 기술을 통합하여 강력하고 영구적인 온라인 AI 비서 시스템을 만드는 혁신적인 AI 어시스턴트 프로젝트입니다. 이 프로젝트는 특히 엔지니어링 개발 시나리오에 최적화되어 완벽한 음성 상호작용 인터페이스와 명령 실행 프레임워크를 제공합니다. 이 시스템은 모듈식 설계를 채택하고 기본 어시스턴트 채팅 인터페이스와 고급 타이퍼 어시스턴트 세션 명령 시스템을 포함하며 실시간 음성 인식 및 텍스트 음성 변환 기능을 지원합니다. 이 프로젝트는 ElevenLabs의 음성 합성 기술과 RealtimeSTT의 실시간 음성 인식 기능을 통합하여 개발자에게 완벽한 AI 비서 개발 패러다임을 제공함으로써 지능형 음성 비서를 보다 쉽고 효율적으로 만들 수 있도록 합니다.

 

기능 목록

  • 실시간 음성 인식 및 응답 시스템
  • 딥시크-V3 기반 지능형 대화 엔진
  • 사용자 지정 가능한 타이퍼 명령 실행 프레임워크
  • 다중 모드 작동 지원(기본, 실행, 메모리 없는 실행)
  • 동적 메모리 관리 시스템(스크래치패드)
  • 고도로 구성 가능한 어시스턴트 아키텍처
  • 네이티브 음성 인식 지원
  • ElevenLabs 고품질 음성 합성 통합
  • 확장 가능한 명령 템플릿 시스템
  • 실시간 대화형 세션 기능

 

도움말 사용

1. 환경 설정

1.1 기본 구성

  • 먼저 프로젝트를 로컬에 복제합니다.
  • 환경 구성 파일 복사: 실행 cp .env.sample .env
  • API 키를 업데이트합니다:
    • DEEPSEEK_API_KEY 설정(AI 모델 액세스용)
    • ELEVEN_API_KEY 설정(음성 합성용)
  • 수행 uv sync 동기화 종속성
  • 선택 사항: Python 3.11 설치(다음 명령 사용) uv python install 3.11)

1.2 시스템 요구 사항

  • Python 3.11 이상.
  • 안정적인 네트워크 연결
  • 마이크 장비(음성 입력용)
  • 오디오 출력 장치(컴퓨터)

2. 주요 기능의 사용 설명

2.1 기본 어시스턴트 채팅 인터페이스

  • 시작 명령:uv run python main_base_assistant.py chat
  • 그러면 기본 대화 화면이 열립니다.
  • 직접 텍스트 또는 음성 상호 작용 가능
  • 기본 TTS를 사용한 음성 응답

2.2 타이퍼 어시스턴트 세션 명령 시스템

  • 시작 명령:
uv run python main_typer_assistant.py awaken --typer-file commands/template.py --scratchpad scratchpad.md --mode execute
  • 매개변수 설명:
    • --파일별: 명령 템플릿 파일 위치를 지정합니다.
    • --스크래치패드: 어시스턴트의 동적 메모리 파일 설정
    • --mode: 실행 모드 설정(기본/실행/실행-스크래치 없음)

2.3 어시스턴트와 상호작용하기

  • 명확하게 발음되는 "에이다" 모닝콜.
  • 예를 들어 "Ada, 서버에 핑을 보내고 응답을 기다려."와 같은 명령을 말합니다.
  • 어시스턴트가 음성을 실시간으로 인식하고 그에 따라 명령을 실행합니다.
  • 실행 결과는 스크래치패드.md 파일에 기록됩니다.

3. 아키텍처 구성 요소에 대한 설명

3.1 타이퍼 어시스턴트 아키텍처

  • 뇌: 핵심 AI 엔진으로 Deepseek V3 사용
  • 작업 처리: 약속/명령어별.xml을 통해 정의됨
  • 동적 메모리: 스크래치패드.txt를 사용한 상태 관리
  • 음성 인식: RealtimeSTT를 사용한 실시간 음성-텍스트 변환
  • 음성 합성: ElevenLabs와의 통합으로 자연스러운 음성 출력 제공

3.2 기본 어시스턴트를 위한 인프라

  • 핵심 엔진: ollama:phi4 사용
  • 간소화된 디자인: 추가 힌트나 동적 메모리 필요 없음
  • 음성 인식: 또한 RealtimeSTT 사용
  • 음성 출력: 로컬 TTS 시스템 사용

4. 고급 기능 구성

  • 어시스턴트 구성은 assistant_config.yml 파일을 통해 사용자 지정할 수 있습니다.
  • 사용자 지정 타이퍼 명령 추가 지원
  • 음성 인식 및 합성 매개변수 조정 가능
  • 새로운 기능 모듈 확장 지원
© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...