AI个人学习
和实操指南
豆包Marscode

Gemini Cursor:基于Gemini构建的AI桌面智能助手,能看、能听、能说

本文于 2025-02-12 20:43 更新,部分内容具有时效性,如有失效,请留言

综合介绍

Gemini Cursor 是一个基于 Google 的 Gemini 2.0 Flash(实验性)模型的桌面智能助手。它能够通过多模态 API 实现视觉、听觉和语音交互,提供实时低延迟的用户体验。该项目由 @13point5 创建,旨在通过 AI 助手帮助用户更高效地完成复杂任务,如理解研究论文中的复杂图表、在网站上执行任务(如在亚马逊上添加支付方式)以及作为实时 AI 教师使用白板进行教学。

Gemini Cursor:基于Gemini构建的 AI桌面智能助手,能看、能听、能说-1


 

功能列表

  • AI智能助手:在桌面上添加一个智能助手,能够看到屏幕、听到用户说话并与用户对话。
  • 多模态交互:支持视觉、听觉和语音交互,提供更自然的用户体验。
  • 实时低延迟:确保交互过程中的低延迟,提升用户体验。
  • 复杂任务导航:帮助用户在复杂网站上执行任务,如添加支付方式。
  • 实时 AI 教师:通过白板功能进行实时教学,适用于理解复杂图表和架构图。

 

使用帮助

安装流程

  1. 克隆仓库
   git clone https://github.com/13point5/gemini-cursor.git
cd gemini-cursor
  1. 安装依赖
   npm install
  1. 运行应用
   npm run start
  1. 配置 API 密钥
    • 在应用中输入 Gemini API 密钥。
    • 点击播放按钮和共享屏幕按钮。
    • 最小化应用并开始使用。

功能操作指南

  1. AI智能助手
    • 启动应用后,桌面上会出现 AI 助手。
    • 该助手能够看到屏幕内容,听到用户的语音指令,并通过语音与用户互动。
  2. 多模态交互
    • 应用支持通过摄像头捕捉屏幕内容,并通过麦克风接收用户语音指令。
    • 用户可以通过语音指令控制助手执行各种操作,如打开文件、浏览网页等。
  3. 复杂任务导航
    • 用户可以通过语音指令让助手在复杂网站上执行任务。
    • 例如,在亚马逊上添加支付方式时,用户只需告诉助手需要完成的步骤,助手会自动导航并执行操作。
  4. 实时 AI 教师
    • 启动白板功能后,用户可以通过语音指令让助手在白板上绘制图表、标注重点等。
    • 适用于教学和演示复杂概念,如研究论文中的图表和架构图。

常见问题

  • 如何获取 Gemini API 密钥?
    • 用户需要访问 Google 的 Gemini API 平台,注册并获取 API 密钥。
  • 应用运行时出现错误怎么办?
    • 请确保 Node.js 版本为 v16 或更高,并且已正确安装所有依赖。
    • 检查 API 密钥是否正确配置。
未经允许不得转载:首席AI分享圈 » Gemini Cursor:基于Gemini构建的AI桌面智能助手,能看、能听、能说

首席AI分享圈

首席AI分享圈专注于人工智能学习,提供全面的AI学习内容、AI工具和实操指导。我们的目标是通过高质量的内容和实践经验分享,帮助用户掌握AI技术,一起挖掘AI的无限潜能。无论您是AI初学者还是资深专家,这里都是您获取知识、提升技能、实现创新的理想之地。

联系我们
zh_CN简体中文