Gemini Cursor：基于Gemini构建的AI桌面智能助手，能看、能听、能说

57.9K 00

综合介绍

Gemini Cursor 是一个基于 Google 的 Gemini 2.0 Flash（实验性）模型的桌面智能助手。它能够通过多模态 API 实现视觉、听觉和语音交互，提供实时低延迟的用户体验。该项目由 @13point5 创建，旨在通过 AI 助手帮助用户更高效地完成复杂任务，如理解研究论文中的复杂图表、在网站上执行任务（如在亚马逊上添加支付方式）以及作为实时 AI 教师使用白板进行教学。

Gemini Cursor：基于Gemini构建的AI桌面智能助手，能看、能听、能说

功能列表

AI智能助手：在桌面上添加一个智能助手，能够看到屏幕、听到用户说话并与用户对话。
多模态交互：支持视觉、听觉和语音交互，提供更自然的用户体验。
实时低延迟：确保交互过程中的低延迟，提升用户体验。
复杂任务导航：帮助用户在复杂网站上执行任务，如添加支付方式。
实时 AI 教师：通过白板功能进行实时教学，适用于理解复杂图表和架构图。

使用帮助

安装流程

克隆仓库：

   git clone https://github.com/13point5/gemini-cursor.git
cd gemini-cursor

安装依赖：

   npm install

运行应用：

   npm run start

配置 API 密钥：
- 在应用中输入 Gemini API 密钥。
- 点击播放按钮和共享屏幕按钮。
- 最小化应用并开始使用。

功能操作指南

AI智能助手：
- 启动应用后，桌面上会出现 AI 助手。
- 该助手能够看到屏幕内容，听到用户的语音指令，并通过语音与用户互动。
多模态交互：
- 应用支持通过摄像头捕捉屏幕内容，并通过麦克风接收用户语音指令。
- 用户可以通过语音指令控制助手执行各种操作，如打开文件、浏览网页等。
复杂任务导航：
- 用户可以通过语音指令让助手在复杂网站上执行任务。
- 例如，在亚马逊上添加支付方式时，用户只需告诉助手需要完成的步骤，助手会自动导航并执行操作。
实时 AI 教师：
- 启动白板功能后，用户可以通过语音指令让助手在白板上绘制图表、标注重点等。
- 适用于教学和演示复杂概念，如研究论文中的图表和架构图。