Aprendizagem pessoal com IA
e orientação prática
Sapo pintado em alumínio

Foudinge Scrub: Criando um gráfico de conhecimento a partir de avaliações de restaurantes

Introdução geral

O Foudinge Scrub é uma ferramenta da Web de código aberto hospedada no GitHub e criada pelo desenvolvedor Théophile Cantelobre. Ela foi projetada para ajudar os usuários a limpar e editar entidades do gráfico de conhecimento extraídas de dados textuais complexos, visando especificamente os dados rastreados do site de avaliação de restaurantes LeFooding.com. Criada usando a estrutura Flask e JavaScript puro, a ferramenta oferece suporte a recursos como pesquisa de texto completo para usuários que precisam lidar com dados duplicados ou problemas de codificação. Ao incorporar técnicas de geração estruturada do Large Language Model (LLM), o Foudinge Scrub oferece uma interface intuitiva que permite aos usuários otimizar com eficiência os resultados da extração, mantendo a integridade estrutural dos dados. O código do projeto e os recursos relacionados estão disponíveis publicamente no GitHub para que os desenvolvedores possam reutilizar ou melhorar.

Foudinge Scrub: Criando um gráfico de conhecimento a partir de avaliações de restaurantes-1


 

Lista de funções

  • Limpeza e desduplicação de dadosDescrição: identificar e reparar entidades duplicadas ou itens de erro extraídos de dados de texto.
  • Pesquisa de texto completoSuporte para pesquisas rápidas de entidades ou palavras-chave específicas na interface de edição.
  • Edição estruturadaObjetivo: fornecer uma interface visual para ajustar manualmente as entidades no gráfico de conhecimento, mantendo a consistência da estrutura de dados.
  • Problemas de codificação corrigidosCodificação de caracteres: Resolve erros de codificação de caracteres causados pelo SQLite ou por outros motivos.
  • Suporte a código aberto:: o código do projeto está disponível publicamente e os usuários podem fazer download, modificar ou contribuir com o código.

 

Usando a Ajuda

Aquisição e instalação

O Foudinge Scrub é um projeto de código aberto baseado no GitHub; os usuários precisam primeiro fazer o download do código e executá-lo localmente. Veja a seguir o processo de instalação detalhado:

1. condições prévias

  • sistema operacional: Windows, MacOS ou Linux.
  • dependência de softwareRequer Python 3.7+, Git e um editor de código (como o VS Code).
  • ambiente de redeVerifique se você tem acesso ao GitHub e instale os PyPIs necessários para suas dependências.

2. fazer o download do projeto

  • Abra um terminal ou uma ferramenta de linha de comando.
  • Digite o seguinte comando para clonar o repositório:
    git clone https://github.com/theophilec/foudinge-scrub.git
  • Vá para o catálogo de projetos:
    cd foudinge-scrub
    

3. instalação de dependências

  • O projeto é baseado no desenvolvimento do Flask e do JavaScript e requer a instalação de uma dependência do Python. Execute o seguinte comando:
    pip install -r requirements.txt
    
  • no caso de requisitos.txt A documentação não é fornecida, as dependências principais podem ser instaladas manualmente:
    pip install flask
    
  • A parte JavaScript usa modelos Jinja, que não exigem instalação adicional, mas certifique-se de que você tenha um navegador moderno (por exemplo, Chrome, Firefox) localmente.

4. executar o aplicativo

  • Execute o aplicativo Flask no diretório raiz do projeto:
    python app.py
    
  • Após a inicialização bem-sucedida, o terminal exibirá algo como Executado em http://127.0.0.1:5000/ A dica.
  • Abra seu navegador e digite http://127.0.0.1:5000/Para acessar a interface do Foudinge Scrub, clique aqui.

5 Solução de problemas

  • se encontrarmos ModuleNotFoundErrorVerifique se há instalações de dependências ausentes.
  • Se a porta estiver ocupada, modifique o app.py número da porta no 5000 mudar para 5001.

Funções principais

Limpeza e desduplicação de dados

  1. Preparar dadosO Foudinge Scrub processa dados de avaliação de restaurantes do LeFooding.com por padrão. Para obter dados personalizados, consulte theophilec/foudinge rastrear o código no repositório (usando SQLite, asyncio e aiohttp) para gerar arquivos de gráficos de conhecimento compatíveis.
  2. Importar dadosArquivo de dados: Coloca o arquivo de dados no diretório especificado do projeto (geralmente o diretório raiz ou o caminho especificado pelo arquivo de configuração).
  3. Iniciar a limpezaQuando a interface da Web é aberta, o sistema carrega automaticamente os dados e exibe um mapeamento visual. Entidades duplicadas ou errôneas são destacadas ou marcadas.
  4. ajuste manualClique na entidade duplicada, selecione "Merge" (Mesclar) ou "Delete" (Excluir), confirme e salve as alterações.
  5. Validação dos resultadosApós a limpeza, o atlas é atualizado em tempo real para garantir que não haja erros de omissão.

Pesquisa de texto completo

  1. Entrar no modo de pesquisaLocalize a caixa de pesquisa na parte superior da interface (geralmente um campo de entrada ao lado de um ícone de lupa).
  2. Inserir palavras-chaveDigite o nome da entidade a ser pesquisada (por exemplo, nome do restaurante, nome da pessoa) ou uma palavra-chave.
  3. Exibir resultadosO sistema listará as correspondências e clicará para ir para o local da entidade correspondente.
  4. Uso avançadoSuporte a pesquisas difusas, por exemplo, digitar "Gren" corresponde a "Grenat".

Edição estruturada

  1. Abra a tela de ediçãoNa visualização do gráfico, clique no nó que precisa ser editado (por exemplo, o campo "Chef" de um restaurante).
  2. Conteúdo da modificaçãoDigite o novo valor na caixa de edição pop-up, por exemplo, altere o nome do restaurante antes de "Neil Mahatsry" de "La Brasserie Communale" para outra coisa.
  3. Salvar alteraçõesClique no botão "Save" (Salvar) e o sistema verificará o formato dos dados para garantir que a estrutura seja consistente.
  4. DesfazerSe você cometer um erro, poderá clicar no botão "Undo" (Desfazer) para restaurar o status anterior.

Problemas de codificação corrigidos

  1. Identificação do problemaSe a interface estiver distorcida (por exemplo, "Antoine Joannier" se torna "Antoine Joanniér"), há um erro de codificação.
  2. reparo automáticoCodificação: Selecione "Fix encoding" (Corrigir codificação) no menu Setup (Configuração) e o sistema tentará padronizar o UTF-8 ou outros formatos de codificação.
  3. entrada manualSe a correção automática falhar, edite manualmente o campo com erros e insira os caracteres corretos.

Funções em destaque

Otimização de gráficos de conhecimento em conjunto com o LLM

O principal recurso do Foudinge Scrub é o uso de modelos de linguagem em grande escala (LLMs) para gerar dados estruturados que podem ser otimizados por meio de edição manual. Por exemplo, ao extrair "Antoine Joannier trabalhou na La Brasserie Communale antes de trabalhar na Grenat" de uma avaliação de restaurante, o LLM gera JSON:

{
"Person": {
"nome": "Antoine Joannier", "função".
"role": "Host" (anfitrião), "previous_restaurants" (restaurantes anteriores).
"previous_restaurants": ["La Brasserie Communale"]
}
}

Você pode ajustar essa estrutura na interface, por exemplo, adicionando um novo campo "current_restaurant" e preenchendo-o com "Grenat", da seguinte forma:

  1. Verifique os nós para exibição de JSON.
  2. Clique em "Add Field" (Adicionar campo) e insira os pares de valores-chave.
  3. Quando salvo, o mapeamento é atualizado e reflete o novo relacionamento.

Colaboração de código aberto

  • Código de contribuiçãoOs usuários podem bifurcar o repositório, fazer alterações no código e enviar uma solicitação pull, por exemplo, para adicionar um novo algoritmo de pesquisa ou otimizar a interface.
  • Ver documentoO arquivo README no diretório raiz do projeto fornece instruções básicas; para obter a lógica de código detalhada, consulte o arquivo app.py e arquivos JavaScript.

Recomendações de uso

  • uso inicialExecute os dados de amostra primeiro para se familiarizar com o layout da interface e a lógica de operação.
  • Dados em grande escalaSe estiver lidando com um grande número de comentários, é recomendável importá-los em lotes para evitar atrasos no navegador.
  • Suporte à comunidadeFaça uma pergunta na página de problemas do GitHub, os desenvolvedores ou a comunidade podem ajudar.

Com essas etapas, os usuários podem começar a usar rapidamente o Foudinge Scrub e concluir com eficiência as tarefas de limpeza de dados e otimização de gráficos de conhecimento.

CDN1
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Foudinge Scrub: Criando um gráfico de conhecimento a partir de avaliações de restaurantes

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil