Ichigo (llama3-s): assistente de IA de voz local em tempo real, versão de código aberto da Siri

Recursos mais recentes de IAAtualizado há 8 meses Círculo de compartilhamento de IA

12.8K 00

Introdução geral

O Ichigo é um projeto de código aberto de IA de fala em tempo real que visa ampliar os modelos de linguagem baseados em texto com recursos nativos de "escuta". O projeto usa técnicas de fusão iniciais inspiradas no documento Chameleon da Meta. O Ichigo pretende ser um assistente de voz ponderado de código aberto para dispositivos nativos, semelhante ao Siri. O projeto está em andamento de forma aberta e os parceiros são bem-vindos para participar do esforço de crowdsourcing para avançar o conjunto de dados de fala.

Lista de funções

Reconhecimento de fala em tempo realCapacidade de processar e entender a entrada de voz do usuário em tempo real.
Capacidade de diálogo em várias rodadasSuporte para várias rodadas de diálogo, capacidade de manter o contexto em um diálogo.
gerenciamento de ruídoA capacidade de rejeitar o processamento de entradas de áudio que não sejam de fala por meio de treinamento melhora a experiência do usuário.
Código aberto e dimensionávelO código do projeto e os pesos do modelo são totalmente de código aberto e os usuários podem baixá-los e ampliá-los.
implantação localSuporte à implementação em dispositivos locais para proteger a privacidade do usuário.

Usando a Ajuda

Processo de instalação

Preparação ambiental ::
- Certifique-se de que o Python 3.8 ou superior esteja instalado.
- Instale as bibliotecas de dependência necessárias:pip install -r requirements.txt.
Modelos para download ::
- Use o seguinte comando para fazer o download do modelo Ichigo:
```
git clone https://github.com/homebrewltd/ichigo.git
cd ichigo
pip install -e .
```
Configuração do conjunto de dados ::
- Baixe o conjunto de dados necessário do HuggingFace e defina o caminho do conjunto de dados no arquivo de configuração.
Demonstração de lançamento ::
- Inicie o Gradio Demo local com o seguinte comando:
```
python demo.py --use-4bit --use-8bit
```

Processo de uso

Início dos serviços ::
- Depois de executar o comando acima, visite a URL fornecida localmente para acessar a interface da IU da Web do Ichigo.
entrada de voz ::
- Na interface da UI da Web, clique no ícone do microfone para iniciar a gravação; o sistema processará e exibirá os resultados do reconhecimento de fala em tempo real.
diálogo em várias camadas ::
- O sistema suporta várias rodadas de diálogo, em que o usuário pode inserir continuamente a fala e o sistema manterá o contexto para entender e responder.
gerenciamento de ruído ::
- O sistema é treinado para reconhecer e rejeitar o processamento de entradas de áudio que não sejam de fala, garantindo a precisão dos resultados do reconhecimento.
Extensões personalizadas ::
- Os usuários podem modificar o código e o modelo conforme necessário para adicionar novos recursos ou aprimorar os existentes.

Procedimento de operação detalhado

Download e instalação ::
- Visite a página do GitHub da Ichigo e siga o processo de instalação para fazer download e instalar as dependências e os modelos necessários.
Configuração e inicialização ::
- De acordo com o arquivo de configuração fornecido pelo projeto, defina o caminho do conjunto de dados e os parâmetros do modelo para iniciar o serviço local.
Usando a interface do usuário da Web ::
- Experimente os recursos de reconhecimento de fala em tempo real e de diálogo em várias rodadas da Ichigo por meio de entrada de voz e interação pela interface da IU da Web.
Extensão e personalização ::
- Compreender a arquitetura e o funcionamento do sistema com base na documentação do projeto e nos comentários do código para extensões personalizadas.

Recursos mais recentes de IA # Projeto de código aberto AI Java # Produtos multimodais interativos em tempo real

Direitos autorais do artigo Círculo de compartilhamento de IA A todos, favor não reproduzir sem permissão.

Petal: uso de IA para analisar e gerenciar documentos, recuperando vários documentos para gerar respostas bem documentadas

Recursos mais recentes de IA # AI Writing # Recuperação de conhecimento e estrutura RAG

8 meses atrás

013.9K

DeOldify: a ferramenta clássica de código aberto para colorir fotos e vídeos em preto e branco usando técnicas de IA

Recursos mais recentes de IA # Ampliação e restauração de imagens AI # Controle de estilo de imagem AI # Projeto de código aberto AI Java

8 meses atrás

013.7K

Ajelix：智能化Excel数据分析工具，接入多种数据源，AI生成各类可视化分析图表

Ajelix: ferramentas inteligentes de análise de dados do Excel, acesso a uma variedade de fontes de dados, IA para gerar uma variedade de gráficos de análise visual

Recursos mais recentes de IA # Análise de dados de IA

9 meses atrás

012.6K

Plug-in Dify com suporte a consultas a bancos de dados

Recursos mais recentes de IA # Projeto de código aberto AI Java

6 meses atrás

013.6K

Sem comentários

Você precisa estar conectado para participar dos comentários!

Faça login agora

Nenhum comentário...

Ichigo (llama3-s): assistente de IA de voz local em tempo real, versão de código aberto da Siri

Introdução geral

Lista de funções

Usando a Ajuda

Processo de instalação

Processo de uso

Procedimento de operação detalhado

SFT-data-builder: gere dados de treinamento de IA usando a API de modelo grande gratuita, geração de dados de treinamento de modelo grande de custo 0

VideoChat: pessoa digital interativa por voz em tempo real com clonagem personalizada de imagens e tons, com suporte a soluções de voz de ponta a ponta e soluções em cascata

Artigos relacionados

Petal: uso de IA para analisar e gerenciar documentos, recuperando vários documentos para gerar respostas bem documentadas

DeOldify: a ferramenta clássica de código aberto para colorir fotos e vídeos em preto e branco usando técnicas de IA

Ajelix: ferramentas inteligentes de análise de dados do Excel, acesso a uma variedade de fontes de dados, IA para gerar uma variedade de gráficos de análise visual

Plug-in Dify com suporte a consultas a bancos de dados

Sem comentários

Últimas coleções

Artigos mais recentes

Ichigo (llama3-s): assistente de IA de voz local em tempo real, versão de código aberto da Siri

Introdução geral

Lista de funções

Usando a Ajuda

Processo de instalação

Processo de uso

Procedimento de operação detalhado

SFT-data-builder: gere dados de treinamento de IA usando a API de modelo grande gratuita, geração de dados de treinamento de modelo grande de custo 0

VideoChat: pessoa digital interativa por voz em tempo real com clonagem personalizada de imagens e tons, com suporte a soluções de voz de ponta a ponta e soluções em cascata

Artigos relacionados

Petal: uso de IA para analisar e gerenciar documentos, recuperando vários documentos para gerar respostas bem documentadas

DeOldify: a ferramenta clássica de código aberto para colorir fotos e vídeos em preto e branco usando técnicas de IA

Ajelix: ferramentas inteligentes de análise de dados do Excel, acesso a uma variedade de fontes de dados, IA para gerar uma variedade de gráficos de análise visual

Plug-in Dify com suporte a consultas a bancos de dados

Sem comentários

Ferramentas de IA selecionadas

Últimas coleções

Artigos mais recentes