Gemini Cursor: un asistente inteligente de sobremesa basado en Gemini que puede ver, oír y hablar.

Introducción general

GéminisCursor es un asistente inteligente de escritorio basado en el modelo Gemini 2.0 Flash (experimental) de Google. Permite interacciones visuales, auditivas y de voz a través de una API multimodal, proporcionando una experiencia de usuario en tiempo real y baja latencia. Creado por @13point5, el proyecto pretende utilizar el asistente de IA para ayudar a los usuarios a realizar tareas complejas de forma más eficiente, como comprender diagramas complejos en trabajos de investigación, realizar tareas en sitios web (por ejemplo, añadir métodos de pago en Amazon) y enseñar como profesor de IA en tiempo real utilizando una pizarra.

Gemini Cursor:基于Gemini构建的AI桌面智能助手,能看、能听、能说

 

Lista de funciones

  • Asistente inteligente AI: Añada un asistente inteligente a su escritorio que pueda ver la pantalla, oír al usuario y hablar con él.
  • interacción multimodal: Admite interacciones visuales, auditivas y de voz para una experiencia de usuario más natural.
  • Baja latencia en tiempo real: Garantizar una baja latencia durante las interacciones para mejorar la experiencia del usuario.
  • Navegación de tareas complejas: Ayuda a los usuarios a realizar tareas en sitios web complejos, como añadir métodos de pago.
  • Profesores de IA en tiempo real: Enseñanza en tiempo real a través de la funcionalidad de pizarra para la comprensión de diagramas complejos y mapas arquitectónicos.

 

Utilizar la ayuda

Proceso de instalación

  1. almacén de clones::
   git clone https://github.com/13point5/gemini-cursor.git
cd gemini-cursor
  1. Instalación de dependencias::
   npm install
  1. Ejecutar la aplicación::
   npm run start
  1. Configuración de claves API::
    • En la aplicación, introduzca API Géminis Llave.
    • Haz clic en el botón Reproducir y en el botón Compartir pantalla.
    • Minimiza la aplicación y empieza.

Guía de funcionamiento

  1. Asistente inteligente AI::
    • Al iniciar la aplicación, el Asistente AI aparece en tu escritorio.
    • El asistente es capaz de ver el contenido de la pantalla, escuchar las órdenes de voz del usuario e interactuar con él mediante la voz.
  2. interacción multimodal::
    • La aplicación permite capturar contenido de la pantalla a través de la cámara y recibir comandos de voz del usuario a través del micrófono.
    • Los usuarios pueden controlar el asistente mediante comandos de voz para realizar diversas operaciones, como abrir archivos y navegar por Internet.
  3. Navegación de tareas complejas::
    • Los usuarios pueden utilizar comandos de voz para que el asistente realice tareas en sitios web complejos.
    • Por ejemplo, al añadir un método de pago en Amazon, el usuario sólo tiene que indicar al asistente los pasos que debe completar, y el asistente navegará automáticamente y realizará la acción.
  4. Profesores de IA en tiempo real::
    • Tras activar la función de pizarra, los usuarios pueden utilizar comandos de voz para que el asistente dibuje diagramas, resaltados, etc. en la pizarra.
    • Ideal para enseñar y demostrar conceptos complejos, como diagramas y mapas arquitectónicos en trabajos de investigación.

problemas comunes

  • ¿Cómo obtengo una clave API Gemini?
    • Los usuarios deben visitar la plataforma API Gemini de Google para registrarse y obtener una clave API.
  • ¿Qué debo hacer si aparece un error mientras se ejecuta la aplicación?
    • Asegúrese de que la versión de Node.js es v16 o superior y de que todas las dependencias están instaladas correctamente.
    • Compruebe que la clave API está correctamente configurada.
© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...