Introdução geral
O Ichigo é um projeto de código aberto de IA de fala em tempo real que visa ampliar os modelos de linguagem baseados em texto com recursos nativos de "escuta". O projeto usa técnicas de fusão iniciais inspiradas no documento Chameleon da Meta. O Ichigo pretende ser um assistente de voz ponderado de código aberto para dispositivos nativos, semelhante ao Siri. O projeto está em andamento de forma aberta e os parceiros são bem-vindos para participar do esforço de crowdsourcing para avançar o conjunto de dados de fala.
Lista de funções
- Reconhecimento de fala em tempo realCapacidade de processar e entender a entrada de voz do usuário em tempo real.
- Capacidade de diálogo em várias rodadasSuporte para várias rodadas de diálogo, capacidade de manter o contexto em um diálogo.
- gerenciamento de ruídoA capacidade de rejeitar o processamento de entradas de áudio que não sejam de fala por meio de treinamento melhora a experiência do usuário.
- Código aberto e dimensionávelO código do projeto e os pesos do modelo são totalmente de código aberto e os usuários podem baixá-los e ampliá-los.
- implantação localSuporte à implementação em dispositivos locais para proteger a privacidade do usuário.
Usando a Ajuda
Processo de instalação
- Preparação ambiental ::
- Certifique-se de que o Python 3.8 ou superior esteja instalado.
- Instale as bibliotecas de dependência necessárias:
pip install -r requirements.txt
.
- Modelos para download ::
- Use o seguinte comando para fazer o download do modelo Ichigo:
git clone https://github.com/homebrewltd/ichigo.git cd ichigo pip install -e .
- Use o seguinte comando para fazer o download do modelo Ichigo:
- Configuração do conjunto de dados ::
- Baixe o conjunto de dados necessário do HuggingFace e defina o caminho do conjunto de dados no arquivo de configuração.
- Demonstração de lançamento ::
- Inicie o Gradio Demo local com o seguinte comando:
python demo.py --use-4bit --use-8bit
- Inicie o Gradio Demo local com o seguinte comando:
Processo de uso
- Início dos serviços ::
- Depois de executar o comando acima, visite a URL fornecida localmente para acessar a interface da IU da Web do Ichigo.
- entrada de voz ::
- Na interface da UI da Web, clique no ícone do microfone para iniciar a gravação; o sistema processará e exibirá os resultados do reconhecimento de fala em tempo real.
- diálogo em várias camadas ::
- O sistema suporta várias rodadas de diálogo, em que o usuário pode inserir continuamente a fala e o sistema manterá o contexto para entender e responder.
- gerenciamento de ruído ::
- O sistema é treinado para reconhecer e rejeitar o processamento de entradas de áudio que não sejam de fala, garantindo a precisão dos resultados do reconhecimento.
- Extensões personalizadas ::
- Os usuários podem modificar o código e o modelo conforme necessário para adicionar novos recursos ou aprimorar os existentes.
Procedimento de operação detalhado
- Download e instalação ::
- Visite a página do GitHub da Ichigo e siga o processo de instalação para fazer download e instalar as dependências e os modelos necessários.
- Configuração e inicialização ::
- De acordo com o arquivo de configuração fornecido pelo projeto, defina o caminho do conjunto de dados e os parâmetros do modelo para iniciar o serviço local.
- Usando a interface do usuário da Web ::
- Experimente os recursos de reconhecimento de fala em tempo real e de diálogo em várias rodadas da Ichigo por meio de entrada de voz e interação pela interface da IU da Web.
- Extensão e personalização ::
- Compreender a arquitetura e o funcionamento do sistema com base na documentação do projeto e nos comentários do código para extensões personalizadas.