Gemini 커서: 보고, 듣고, 말할 수 있는 Gemini 기반의 AI 데스크톱 스마트 비서

64.6K 00

일반 소개

쌍둥이자리 커서 는 구글의 제미니 2.0 플래시(실험용) 모델을 기반으로 하는 데스크톱 지능형 어시스턴트입니다. 멀티모달 API를 통해 시각, 청각, 음성 상호작용을 지원하여 지연 시간이 짧은 실시간 사용자 경험을 제공합니다. 13point5에서 만든 이 프로젝트는 연구 논문의 복잡한 도표 이해, 웹사이트에서의 작업 수행(예: 아마존에서 결제 방법 추가), 화이트보드를 사용한 실시간 AI 교사로서의 수업 등 사용자가 복잡한 작업을 보다 효율적으로 수행할 수 있도록 돕는 AI 어시스턴트를 목표로 하고 있습니다.

Gemini Cursor：基于Gemini构建的AI桌面智能助手，能看、能听、能说

기능 목록

AI 지능형 비서화면을 보고, 사용자의 말을 듣고, 대화할 수 있는 지능형 어시스턴트를 데스크톱에 추가하세요.
멀티모달 상호 작용보다 자연스러운 사용자 경험을 위해 시각, 청각 및 음성 상호 작용을 지원합니다.
실시간 낮은 지연 시간사용자 경험을 향상시키기 위해 상호 작용 중 짧은 지연 시간을 보장합니다.
복잡한 작업 탐색결제 방법 추가와 같은 복잡한 웹사이트에서 사용자가 작업을 수행할 수 있도록 지원합니다.
실시간 AI 교사복잡한 다이어그램과 아키텍처 맵을 이해하기 위한 화이트보드 기능을 통해 실시간 교육이 가능합니다.

도움말 사용

설치 프로세스

클론 창고::

   git clone https://github.com/13point5/gemini-cursor.git
cd gemini-cursor

종속성 설치::

   npm install

애플리케이션 실행::

   npm run start

API 키 구성::
- 애플리케이션에서 다음을 입력합니다. Gemini API Key.
- 재생 버튼과 화면 공유 버튼을 클릭합니다.
- 앱을 최소화하고 시작하세요.

기능 작동 가이드

AI 지능형 비서::
- 앱을 실행하면 AI 어시스턴트가 데스크톱에 나타납니다.
- 어시스턴트는 화면 콘텐츠를 보고, 사용자의 음성 명령을 듣고, 음성으로 사용자와 상호 작용할 수 있습니다.
멀티모달 상호 작용::
- 이 앱은 카메라를 통해 화면 콘텐츠를 캡처하고 마이크를 통해 사용자의 음성 명령을 수신하는 기능을 지원합니다.
- 사용자는 음성 명령을 통해 어시스턴트를 제어하여 파일 열기, 웹 검색 등 다양한 작업을 수행할 수 있습니다.
복잡한 작업 탐색::
- 사용자는 음성 명령을 사용하여 어시스턴트가 복잡한 웹사이트의 작업을 수행할 수 있도록 할 수 있습니다.
- 예를 들어 아마존에서 결제 수단을 추가할 때 사용자가 어시스턴트에게 완료해야 할 단계를 말하면 어시스턴트가 자동으로 탐색하여 작업을 수행합니다.
실시간 AI 교사::
- 화이트보드 기능을 실행한 후 사용자는 음성 명령을 사용하여 어시스턴트가 화이트보드에 다이어그램, 하이라이트 등을 그리도록 할 수 있습니다.
- 연구 논문의 도표나 건축 지도와 같은 복잡한 개념을 가르치고 시연하는 데 이상적입니다.

일반적인 문제

Gemini API 키는 어떻게 얻나요?
- 사용자는 Google의 Gemini API 플랫폼을 방문하여 등록하고 API 키를 발급받아야 합니다.
앱이 실행되는 동안 오류가 발생하면 어떻게 해야 하나요?
- Node.js 버전이 v16 이상이고 모든 종속성이 올바르게 설치되었는지 확인하세요.
- API 키가 올바르게 구성되었는지 확인합니다.