Gemini Cursor: um assistente inteligente de desktop com IA baseado no Gemini que pode ver, ouvir e falar

Recursos mais recentes de IAAtualizado há 7 meses Círculo de compartilhamento de IA

Introdução geral

Gêmeos Cursor é um assistente inteligente de desktop baseado no modelo Gemini 2.0 Flash (experimental) do Google. Ele permite interações visuais, auditivas e de voz por meio de uma API multimodal, proporcionando uma experiência de usuário em tempo real e de baixa latência. Criado por @13point5, o projeto tem como objetivo usar o assistente de IA para ajudar os usuários a realizar tarefas complexas com mais eficiência, como compreender diagramas complexos em trabalhos de pesquisa, realizar tarefas em sites (por exemplo, adicionar métodos de pagamento na Amazon) e ensinar como um professor de IA em tempo real usando um quadro branco.

Gemini Cursor：基于Gemini构建的AI桌面智能助手，能看、能听、能说

Lista de funções

Assistente inteligente de IAAssistente inteligente: adicione um assistente inteligente à sua área de trabalho que possa ver a tela, ouvir o usuário e falar com ele.
interação multimodalSuporte a interações visuais, auditivas e de voz para uma experiência de usuário mais natural.
Baixa latência em tempo realGaranta a baixa latência durante as interações para aprimorar a experiência do usuário.
Navegação em tarefas complexasAjuda os usuários a realizar tarefas em sites complexos, como adicionar métodos de pagamento.
Professores de IA em tempo realEnsino em tempo real por meio da funcionalidade de quadro branco para a compreensão de diagramas complexos e mapas arquitetônicos.

Usando a Ajuda

Processo de instalação

armazém de clones::

   git clone https://github.com/13point5/gemini-cursor.git
cd gemini-cursor

Instalação de dependências::

   npm install

Executar o aplicativo::

   npm run start

Configuração de chaves de API::
- No aplicativo, digite API Gemini Chave.
- Clique no botão Reproduzir e no botão Compartilhar tela.
- Minimize o aplicativo e comece a usar.

Guia de operação de funções

Assistente inteligente de IA::
- Quando você inicia o aplicativo, o Assistente de IA aparece em sua área de trabalho.
- O assistente é capaz de ver o conteúdo da tela, ouvir os comandos de voz do usuário e interagir com ele por voz.
interação multimodal::
- O aplicativo suporta a captura de conteúdo da tela por meio da câmera e o recebimento de comandos de voz do usuário por meio do microfone.
- Os usuários podem controlar o assistente por meio de comandos de voz para realizar várias operações, como abrir arquivos e navegar na Web.
Navegação em tarefas complexas::
- Os usuários podem usar comandos de voz para permitir que o assistente execute tarefas em sites complexos.
- Por exemplo, ao adicionar um método de pagamento na Amazon, o usuário simplesmente informa ao assistente as etapas que precisam ser concluídas, e o assistente navegará automaticamente e executará a ação.
Professores de IA em tempo real::
- Após iniciar a função de quadro branco, os usuários podem usar comandos de voz para que o assistente desenhe diagramas, destaques, etc. no quadro branco.
- Ideal para ensinar e demonstrar conceitos complexos, como diagramas e mapas arquitetônicos em trabalhos de pesquisa.

problemas comuns

Como faço para obter uma chave de API do Gemini?
- Os usuários precisam visitar a plataforma Gemini API do Google para se registrar e obter uma chave de API.
O que devo fazer se receber um erro enquanto o aplicativo estiver em execução?
- Certifique-se de que a versão do Node.js seja v16 ou superior e que todas as dependências estejam instaladas corretamente.
- Verifique se a chave da API está configurada corretamente.