Gemini Cursor : un assistant intelligent de bureau basé sur Gemini, capable de voir, d'entendre et de parler.

Introduction générale

GémeauxCurseur est un assistant intelligent de bureau basé sur le modèle Gemini 2.0 Flash (expérimental) de Google. Il permet des interactions visuelles, auditives et vocales par le biais d'une API multimodale, offrant une expérience utilisateur en temps réel et à faible latence. Créé par @13point5, le projet vise à utiliser l'assistant d'intelligence artificielle pour aider les utilisateurs à effectuer des tâches complexes plus efficacement, telles que la compréhension de diagrammes complexes dans des documents de recherche, l'exécution de tâches sur des sites web (par exemple, l'ajout de méthodes de paiement sur Amazon) et l'enseignement en tant qu'enseignant d'intelligence artificielle en temps réel à l'aide d'un tableau blanc.

Gemini Cursor:基于Gemini构建的AI桌面智能助手,能看、能听、能说

 

Liste des fonctions

  • AI assistant intelligentLe logiciel d'aide à la décision : ajoutez à votre bureau un assistant intelligent qui peut voir l'écran, entendre l'utilisateur et lui parler.
  • interaction multimodaleLa technologie de l'information est un atout majeur pour les utilisateurs : elle prend en charge les interactions visuelles, auditives et vocales, pour une expérience utilisateur plus naturelle.
  • Temps réel à faible latenceLes services d'information et de communication : garantir une faible latence lors des interactions afin d'améliorer l'expérience de l'utilisateur.
  • Navigation dans les tâches complexesLes sites web complexes : aider les utilisateurs à effectuer des tâches sur des sites web complexes, telles que l'ajout de méthodes de paiement.
  • Enseignants d'IA en temps réelEnseignement en temps réel grâce à la fonctionnalité de tableau blanc pour la compréhension de diagrammes complexes et de cartes architecturales.

 

Utiliser l'aide

Processus d'installation

  1. entrepôt de clones: :
   git clone https://github.com/13point5/gemini-cursor.git
cd gemini-cursor
  1. Installation des dépendances: :
   npm install
  1. Exécution de l'application: :
   npm run start
  1. Configuration des clés API: :
    • Dans l'application, entrez API Gemini Clé.
    • Cliquez sur le bouton Lire et sur le bouton Partager l'écran.
    • Réduisez l'application et commencez.

Guide d'utilisation des fonctions

  1. AI assistant intelligent: :
    • Lorsque vous lancez l'application, l'assistant AI apparaît sur votre bureau.
    • L'assistant est capable de voir le contenu de l'écran, d'entendre les commandes vocales de l'utilisateur et d'interagir avec lui par la voix.
  2. interaction multimodale: :
    • L'application permet de capturer le contenu de l'écran à l'aide de la caméra et de recevoir des commandes vocales de l'utilisateur à l'aide du microphone.
    • Les utilisateurs peuvent contrôler l'assistant par des commandes vocales pour effectuer diverses opérations, telles que l'ouverture de fichiers et la navigation sur le web.
  3. Navigation dans les tâches complexes: :
    • Les utilisateurs peuvent utiliser des commandes vocales pour permettre à l'assistant d'effectuer des tâches sur des sites web complexes.
    • Par exemple, lors de l'ajout d'une méthode de paiement sur Amazon, l'utilisateur indique simplement à l'assistant les étapes à suivre, et l'assistant navigue et exécute automatiquement l'action.
  4. Enseignants d'IA en temps réel: :
    • Après avoir lancé la fonction de tableau blanc, les utilisateurs peuvent utiliser des commandes vocales pour que l'assistant dessine des diagrammes, des points, etc. sur le tableau blanc.
    • Idéal pour l'enseignement et la démonstration de concepts complexes, tels que les diagrammes et les cartes architecturales dans les documents de recherche.

problèmes courants

  • Comment obtenir une clé d'API Gemini ?
    • Les utilisateurs doivent se rendre sur la plateforme Gemini API de Google pour s'inscrire et obtenir une clé API.
  • Que dois-je faire si j'obtiens une erreur pendant que l'application fonctionne ?
    • Assurez-vous que la version de Node.js est v16 ou supérieure et que toutes les dépendances sont correctement installées.
    • Vérifiez que la clé API est correctement configurée.
© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...