本文于 2025-02-12 20:43 更新,部分内容具有时效性,如有失效,请留言
综合介绍
Gemini Cursor 是一个基于 Google 的 Gemini 2.0 Flash(实验性)模型的桌面智能助手。它能够通过多模态 API 实现视觉、听觉和语音交互,提供实时低延迟的用户体验。该项目由 @13point5 创建,旨在通过 AI 助手帮助用户更高效地完成复杂任务,如理解研究论文中的复杂图表、在网站上执行任务(如在亚马逊上添加支付方式)以及作为实时 AI 教师使用白板进行教学。
功能列表
- AI智能助手:在桌面上添加一个智能助手,能够看到屏幕、听到用户说话并与用户对话。
- 多模态交互:支持视觉、听觉和语音交互,提供更自然的用户体验。
- 实时低延迟:确保交互过程中的低延迟,提升用户体验。
- 复杂任务导航:帮助用户在复杂网站上执行任务,如添加支付方式。
- 实时 AI 教师:通过白板功能进行实时教学,适用于理解复杂图表和架构图。
使用帮助
安装流程
- 克隆仓库:
git clone https://github.com/13point5/gemini-cursor.git
cd gemini-cursor
- 安装依赖:
npm install
- 运行应用:
npm run start
- 配置 API 密钥:
- 在应用中输入 Gemini API 密钥。
- 点击播放按钮和共享屏幕按钮。
- 最小化应用并开始使用。
功能操作指南
- AI智能助手:
- 启动应用后,桌面上会出现 AI 助手。
- 该助手能够看到屏幕内容,听到用户的语音指令,并通过语音与用户互动。
- 多模态交互:
- 应用支持通过摄像头捕捉屏幕内容,并通过麦克风接收用户语音指令。
- 用户可以通过语音指令控制助手执行各种操作,如打开文件、浏览网页等。
- 复杂任务导航:
- 用户可以通过语音指令让助手在复杂网站上执行任务。
- 例如,在亚马逊上添加支付方式时,用户只需告诉助手需要完成的步骤,助手会自动导航并执行操作。
- 实时 AI 教师:
- 启动白板功能后,用户可以通过语音指令让助手在白板上绘制图表、标注重点等。
- 适用于教学和演示复杂概念,如研究论文中的图表和架构图。
常见问题
- 如何获取 Gemini API 密钥?
- 用户需要访问 Google 的 Gemini API 平台,注册并获取 API 密钥。
- 应用运行时出现错误怎么办?
- 请确保 Node.js 版本为 v16 或更高,并且已正确安装所有依赖。
- 检查 API 密钥是否正确配置。