Aprendizagem pessoal com IA
e orientação prática

Ichigo (llama3-s): assistente de IA de voz local em tempo real, versão de código aberto da Siri

Introdução geral

O Ichigo é um projeto de código aberto de IA de fala em tempo real que visa ampliar os modelos de linguagem baseados em texto com recursos nativos de "escuta". O projeto usa técnicas de fusão iniciais inspiradas no documento Chameleon da Meta. O Ichigo pretende ser um assistente de voz ponderado de código aberto para dispositivos nativos, semelhante ao Siri. O projeto está em andamento de forma aberta e os parceiros são bem-vindos para participar do esforço de crowdsourcing para avançar o conjunto de dados de fala.

Ichigo (llama3-s): assistente de IA de voz local em tempo real, versão de código aberto do Siri-1


 

Lista de funções

  • Reconhecimento de fala em tempo realCapacidade de processar e entender a entrada de voz do usuário em tempo real.
  • Capacidade de diálogo em várias rodadasSuporte para várias rodadas de diálogo, capacidade de manter o contexto em um diálogo.
  • gerenciamento de ruídoA capacidade de rejeitar o processamento de entradas de áudio que não sejam de fala por meio de treinamento melhora a experiência do usuário.
  • Código aberto e dimensionávelO código do projeto e os pesos do modelo são totalmente de código aberto e os usuários podem baixá-los e ampliá-los.
  • implantação localSuporte à implementação em dispositivos locais para proteger a privacidade do usuário.

 

Usando a Ajuda

Processo de instalação

  1. Preparação ambiental ::
    • Certifique-se de que o Python 3.8 ou superior esteja instalado.
    • Instale as bibliotecas de dependência necessárias:pip install -r requirements.txt.
  2. Modelos para download ::
    • Use o seguinte comando para fazer o download do modelo Ichigo:
      git clone https://github.com/homebrewltd/ichigo.git
      cd ichigo
      pip install -e .
      
  3. Configuração do conjunto de dados ::
    • Baixe o conjunto de dados necessário do HuggingFace e defina o caminho do conjunto de dados no arquivo de configuração.
  4. Demonstração de lançamento ::
    • Inicie o Gradio Demo local com o seguinte comando:
      python demo.py --use-4bit --use-8bit
      

Processo de uso

  1. Início dos serviços ::
    • Depois de executar o comando acima, visite a URL fornecida localmente para acessar a interface da IU da Web do Ichigo.
  2. entrada de voz ::
    • Na interface da UI da Web, clique no ícone do microfone para iniciar a gravação; o sistema processará e exibirá os resultados do reconhecimento de fala em tempo real.
  3. diálogo em várias camadas ::
    • O sistema suporta várias rodadas de diálogo, em que o usuário pode inserir continuamente a fala e o sistema manterá o contexto para entender e responder.
  4. gerenciamento de ruído ::
    • O sistema é treinado para reconhecer e rejeitar o processamento de entradas de áudio que não sejam de fala, garantindo a precisão dos resultados do reconhecimento.
  5. Extensões personalizadas ::
    • Os usuários podem modificar o código e o modelo conforme necessário para adicionar novos recursos ou aprimorar os existentes.

Procedimento de operação detalhado

  1. Download e instalação ::
    • Visite a página do GitHub da Ichigo e siga o processo de instalação para fazer download e instalar as dependências e os modelos necessários.
  2. Configuração e inicialização ::
    • De acordo com o arquivo de configuração fornecido pelo projeto, defina o caminho do conjunto de dados e os parâmetros do modelo para iniciar o serviço local.
  3. Usando a interface do usuário da Web ::
    • Experimente os recursos de reconhecimento de fala em tempo real e de diálogo em várias rodadas da Ichigo por meio de entrada de voz e interação pela interface da IU da Web.
  4. Extensão e personalização ::
    • Compreender a arquitetura e o funcionamento do sistema com base na documentação do projeto e nos comentários do código para extensões personalizadas.
Aprendizagem fácil com IA

O guia do leigo para começar a usar a IA

Ajuda você a aprender a utilizar as ferramentas de IA com baixo custo e a partir de uma base zero.A IA, assim como o software de escritório, é uma habilidade essencial para todos. Dominar a IA lhe dará uma vantagem em sua busca de emprego e metade do esforço em seu trabalho e estudos futuros.

Ver detalhes>
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Ichigo (llama3-s): assistente de IA de voz local em tempo real, versão de código aberto da Siri

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil