Foudinge Scrub: construir un grafo de conocimiento a partir de reseñas de restaurantes

Introducción general

Foudinge Scrub es una herramienta web de código abierto alojada en GitHub y creada por el desarrollador Théophile Cantelobre. Está diseñada para ayudar a los usuarios a limpiar y editar entidades del grafo de conocimiento extraídas de datos textuales complejos, en concreto datos rastreados del sitio de reseñas de restaurantes LeFooding.com. Construida con el framework Flask y JavaScript puro, la herramienta admite funciones como la búsqueda de texto completo para los usuarios que necesiten tratar datos duplicados o problemas de codificación. Al incorporar técnicas de generación estructurada del Large Language Model (LLM), Foudinge Scrub ofrece una interfaz intuitiva que permite a los usuarios optimizar eficazmente los resultados de la extracción manteniendo la integridad estructural de los datos. El código del proyecto y los recursos relacionados están disponibles públicamente en GitHub para que los desarrolladores puedan reutilizarlos o mejorarlos.

Foudinge Scrub:从餐厅评论中构建知识图谱

 

Lista de funciones

  • Limpieza y desduplicación de datos:: Identificar y reparar entidades duplicadas o elementos de error extraídos de datos de texto.
  • Búsqueda de texto completo:: Soporte para búsquedas rápidas de entidades específicas o palabras clave en la interfaz de edición.
  • Edición estructurada:: Proporcionar una interfaz visual para ajustar manualmente las entidades en el grafo de conocimiento manteniendo la coherencia de la estructura de datos.
  • Problemas de codificación solucionados: Resuelve errores de codificación de caracteres causados por SQLite u otras razones.
  • Soporte de código abierto:: El código del proyecto está a disposición del público y los usuarios pueden descargarlo, modificarlo o aportar código.

 

Utilizar la ayuda

Adquisición e instalación

Foudinge Scrub es un proyecto de código abierto basado en GitHub, los usuarios necesitan descargar el código primero y ejecutarlo localmente. A continuación se detalla el proceso de instalación:

1. Condiciones previas

  • sistema operativoWindows, MacOS o Linux.
  • dependencia del softwareRequiere Python 3.7+, Git y un editor de código (como VS Code).
  • entorno de redAsegúrate de que tienes acceso a GitHub e instala las PyPIs necesarias para tus dependencias.

2. Descargar el proyecto

  • Abra un terminal o una herramienta de línea de comandos.
  • Introduzca el siguiente comando para clonar el repositorio:
    git clone https://github.com/theophilec/foudinge-scrub.git
  • Vaya al catálogo de proyectos:
    cd foudinge-scrub
    

3. Instalación de dependencias

  • El proyecto se basa en Flask y el desarrollo de JavaScript y requiere una dependencia de Python para ser instalado. Ejecute el siguiente comando:
    pip install -r requirements.txt
    
  • en caso de que requirements.txt No se proporciona documentación, las dependencias del núcleo pueden instalarse manualmente:
    pip install flask
    
  • La parte JavaScript utiliza plantillas Jinja, que no requieren instalación adicional, pero asegúrese de tener un navegador moderno (por ejemplo, Chrome, Firefox) localmente.

4. Ejecutar la aplicación

  • Ejecute la aplicación Flask en el directorio raíz del proyecto:
    python app.py
    
  • Después de arrancar con éxito, el terminal mostrará algo como Running on http://127.0.0.1:5000/ El consejo.
  • Abra su navegador y escriba http://127.0.0.1:5000/Para acceder a la interfaz de Foudinge Scrub, haga clic aquí.

5. Solución de problemas

  • si nos encontramos ModuleNotFoundErrorCompruebe si faltan instalaciones de dependencias.
  • Si el puerto está ocupado, modifique el app.py número de puerto en el 5000 cambiar a 5001.

Funciones principales

Limpieza y desduplicación de datos

  1. Preparar los datosFoudinge Scrub procesa datos de reseñas de restaurantes de LeFooding.com por defecto. Para obtener datos personalizados, consulte theophilec/foudinge rastrear código en el repositorio (utilizando SQLite, asyncio y aiohttp) para generar archivos de grafos de conocimiento compatibles.
  2. Importar datosColoca el fichero de datos en el directorio especificado del proyecto (normalmente el directorio raíz o la ruta especificada por el fichero de configuración).
  3. Iniciar la limpiezaFunción: cuando se abre la interfaz web, el sistema carga automáticamente los datos y muestra una cartografía visual. Las entidades duplicadas o erróneas se resaltan o marcan.
  4. ajuste manualHaga clic en la entidad duplicada, seleccione "Fusionar" o "Eliminar", confirme y guarde los cambios.
  5. Validación de los resultadosEl atlas: tras la limpieza, el atlas se actualiza en tiempo real para garantizar que no haya errores por omisión.

Búsqueda de texto completo

  1. Acceder al modo de búsquedaBusque el cuadro de búsqueda en la parte superior de la interfaz (normalmente un campo de entrada junto a un icono de lupa).
  2. Introducir palabras claveIntroduzca el nombre de la entidad que desea buscar (por ejemplo, el nombre de un restaurante o de una persona) o una palabra clave.
  3. Ver resultadosEl sistema listará las coincidencias y hará clic para saltar a la ubicación de la entidad correspondiente.
  4. Uso avanzado:: Admite búsquedas difusas, por ejemplo, al escribir "Gren" se obtiene "Grenat".

Edición estructurada

  1. Abrir la pantalla de edición:: En la vista del gráfico, haga clic en el nodo que desea editar (por ejemplo, el campo "Chef" de un restaurante).
  2. Contenido de la modificaciónIntroduzca el nuevo valor en el cuadro de edición emergente, por ejemplo, cambie el nombre del restaurante que aparece antes de "Neil Mahatsry" de "La Brasserie Communale" a otro.
  3. Guardar cambiosHaga clic en el botón "Guardar". El sistema comprobará el formato de los datos para asegurarse de que la estructura es coherente.
  4. Deshacer:: Si ha cometido un error, puede hacer clic en el botón "Deshacer" para restablecer el estado anterior.

Problemas de codificación solucionados

  1. Identificación del problema:: Si la interfaz es confusa (por ejemplo, "Antoine Joannier" se convierte en "Antoine Joanniér"), hay un error de codificación.
  2. reparación de automóviles: Seleccione "Fijar codificación" en el menú Configuración y el sistema intentará normalizar en UTF-8 u otros formatos de codificación.
  3. entrada manualSi la corrección automática falla, edite manualmente el campo confuso e introduzca los caracteres correctos.

Funciones destacadas

Optimización de grafos de conocimiento junto con LLM

La principal característica de Foudinge Scrub es el uso de modelos lingüísticos a gran escala (LLM) para generar datos estructurados que pueden optimizarse mediante edición manual. Por ejemplo, al extraer "Antoine Joannier trabajó en La Brasserie Communale antes de trabajar en Grenat" de una reseña de restaurante, el LLM genera JSON:

{
"Person": {
"name": "Antoine Joannier",
"role": "Host",
"previous_restaurants": ["La Brasserie Communale"]
}
}

Puede ajustar esta estructura en la interfaz, por ejemplo añadiendo un nuevo campo "current_restaurant" y rellenándolo con "Grenat" de la siguiente manera:

  1. Compruebe los nodos para la visualización JSON.
  2. Haga clic en "Añadir campo" e introduzca los pares clave-valor.
  3. Cuando se guarda, la asignación se actualiza y refleja la nueva relación.

Colaboración de código abierto

  • Aportar códigoLos usuarios pueden bifurcar el repositorio, realizar cambios en el código y enviar una solicitud de extracción, por ejemplo para añadir un nuevo algoritmo de búsqueda u optimizar la interfaz.
  • Ver documentoEl archivo README en el directorio raíz del proyecto proporciona instrucciones básicas, para una lógica de código detallada consulte el archivo app.py y archivos JavaScript.

Recomendaciones de uso

  • uso inicialEjecute primero los datos de muestra para familiarizarse con el diseño de la interfaz y la lógica de funcionamiento.
  • Datos a gran escalaSi se trata de un gran número de comentarios, se recomienda importarlos por lotes para evitar retrasos en la navegación.
  • Apoyo comunitarioHaz una pregunta en la página de incidencias de GitHub, los desarrolladores o la comunidad podrán ayudarte.

Con estos pasos, los usuarios pueden empezar a utilizar rápidamente Foudinge Scrub y completar eficazmente las tareas de limpieza de datos y optimización de gráficos de conocimiento.

© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...