Introdução geral
O Gemini Cursor é um assistente inteligente de desktop baseado no modelo Gemini 2.0 Flash (experimental) do Google. Ele permite interações visuais, auditivas e de voz por meio de uma API multimodal, proporcionando uma experiência de usuário em tempo real e de baixa latência. Criado pela @13point5, o projeto tem como objetivo usar assistentes de IA para ajudar os usuários a realizar tarefas complexas com mais eficiência, como entender diagramas complexos em trabalhos de pesquisa, realizar tarefas em sites (por exemplo, adicionar métodos de pagamento na Amazon) e ensinar como um professor de IA em tempo real usando um quadro branco.
Lista de funções
- Assistente inteligente de IAAssistente inteligente: adicione um assistente inteligente à sua área de trabalho que possa ver a tela, ouvir o usuário e falar com ele.
- interação multimodalSuporte a interações visuais, auditivas e de voz para uma experiência de usuário mais natural.
- Baixa latência em tempo realGaranta a baixa latência durante as interações para aprimorar a experiência do usuário.
- Navegação em tarefas complexasAjuda os usuários a realizar tarefas em sites complexos, como adicionar métodos de pagamento.
- Professores de IA em tempo realEnsino em tempo real por meio da funcionalidade de quadro branco para a compreensão de diagramas complexos e mapas arquitetônicos.
Usando a Ajuda
Processo de instalação
- armazém de clones::
git clone https://github.com/13point5/gemini-cursor.git
cd gemini-cursor
- Instalação de dependências::
npm install
- Executar o aplicativo::
npm run start
- Configuração de chaves de API::
- Digite a chave da API do Gemini no aplicativo.
- Clique no botão Reproduzir e no botão Compartilhar tela.
- Minimize o aplicativo e comece a usar.
Guia de operação de funções
- Assistente inteligente de IA::
- Quando você inicia o aplicativo, o Assistente de IA aparece em sua área de trabalho.
- O assistente é capaz de ver o conteúdo da tela, ouvir os comandos de voz do usuário e interagir com ele por voz.
- interação multimodal::
- O aplicativo suporta a captura de conteúdo da tela por meio da câmera e o recebimento de comandos de voz do usuário por meio do microfone.
- Os usuários podem controlar o assistente por meio de comandos de voz para realizar várias operações, como abrir arquivos e navegar na Web.
- Navegação em tarefas complexas::
- Os usuários podem usar comandos de voz para permitir que o assistente execute tarefas em sites complexos.
- Por exemplo, ao adicionar um método de pagamento na Amazon, o usuário simplesmente informa ao assistente as etapas que precisam ser concluídas, e o assistente navegará automaticamente e executará a ação.
- Professores de IA em tempo real::
- Após iniciar a função de quadro branco, os usuários podem usar comandos de voz para que o assistente desenhe diagramas, destaques, etc. no quadro branco.
- Ideal para ensinar e demonstrar conceitos complexos, como diagramas e mapas arquitetônicos em trabalhos de pesquisa.
problemas comuns
- Como faço para obter uma chave de API do Gemini?
- Os usuários precisam visitar a plataforma Gemini API do Google para se registrar e obter uma chave de API.
- O que devo fazer se receber um erro enquanto o aplicativo estiver em execução?
- Certifique-se de que a versão do Node.js seja v16 ou superior e que todas as dependências estejam instaladas corretamente.
- Verifique se a chave da API está configurada corretamente.