Gemini Cursor: un asistente inteligente de sobremesa basado en Gemini que puede ver, oír y hablar.
Últimos recursos sobre IAActualizado hace 6 meses Círculo de intercambio de inteligencia artificial 3.7K 00
Introducción general
GéminisCursor es un asistente inteligente de escritorio basado en el modelo Gemini 2.0 Flash (experimental) de Google. Permite interacciones visuales, auditivas y de voz a través de una API multimodal, proporcionando una experiencia de usuario en tiempo real y baja latencia. Creado por @13point5, el proyecto pretende utilizar el asistente de IA para ayudar a los usuarios a realizar tareas complejas de forma más eficiente, como comprender diagramas complejos en trabajos de investigación, realizar tareas en sitios web (por ejemplo, añadir métodos de pago en Amazon) y enseñar como profesor de IA en tiempo real utilizando una pizarra.

Lista de funciones
- Asistente inteligente AI: Añada un asistente inteligente a su escritorio que pueda ver la pantalla, oír al usuario y hablar con él.
- interacción multimodal: Admite interacciones visuales, auditivas y de voz para una experiencia de usuario más natural.
- Baja latencia en tiempo real: Garantizar una baja latencia durante las interacciones para mejorar la experiencia del usuario.
- Navegación de tareas complejas: Ayuda a los usuarios a realizar tareas en sitios web complejos, como añadir métodos de pago.
- Profesores de IA en tiempo real: Enseñanza en tiempo real a través de la funcionalidad de pizarra para la comprensión de diagramas complejos y mapas arquitectónicos.
Utilizar la ayuda
Proceso de instalación
- almacén de clones::
git clone https://github.com/13point5/gemini-cursor.git
cd gemini-cursor
- Instalación de dependencias::
npm install
- Ejecutar la aplicación::
npm run start
- Configuración de claves API::
- En la aplicación, introduzca API Géminis Llave.
- Haz clic en el botón Reproducir y en el botón Compartir pantalla.
- Minimiza la aplicación y empieza.
Guía de funcionamiento
- Asistente inteligente AI::
- Al iniciar la aplicación, el Asistente AI aparece en tu escritorio.
- El asistente es capaz de ver el contenido de la pantalla, escuchar las órdenes de voz del usuario e interactuar con él mediante la voz.
- interacción multimodal::
- La aplicación permite capturar contenido de la pantalla a través de la cámara y recibir comandos de voz del usuario a través del micrófono.
- Los usuarios pueden controlar el asistente mediante comandos de voz para realizar diversas operaciones, como abrir archivos y navegar por Internet.
- Navegación de tareas complejas::
- Los usuarios pueden utilizar comandos de voz para que el asistente realice tareas en sitios web complejos.
- Por ejemplo, al añadir un método de pago en Amazon, el usuario sólo tiene que indicar al asistente los pasos que debe completar, y el asistente navegará automáticamente y realizará la acción.
- Profesores de IA en tiempo real::
- Tras activar la función de pizarra, los usuarios pueden utilizar comandos de voz para que el asistente dibuje diagramas, resaltados, etc. en la pizarra.
- Ideal para enseñar y demostrar conceptos complejos, como diagramas y mapas arquitectónicos en trabajos de investigación.
problemas comunes
- ¿Cómo obtengo una clave API Gemini?
- Los usuarios deben visitar la plataforma API Gemini de Google para registrarse y obtener una clave API.
- ¿Qué debo hacer si aparece un error mientras se ejecuta la aplicación?
- Asegúrese de que la versión de Node.js es v16 o superior y de que todas las dependencias están instaladas correctamente.
- Compruebe que la clave API está correctamente configurada.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...