Foudinge Scrub: построение графа знаний на основе отзывов о ресторанах
Общее введение
Foudinge Scrub - это веб-инструмент с открытым исходным кодом, размещенный на GitHub и созданный разработчиком Теофилем Кантелобром (Théophile Cantelobre). Он предназначен для помощи пользователям в очистке и редактировании сущностей графа знаний, извлеченных из сложных текстовых данных, в частности, данных, полученных с сайта отзывов о ресторанах LeFooding.com. Созданный с использованием фреймворка Flask и чистого JavaScript, инструмент поддерживает такие функции, как полнотекстовый поиск для пользователей, которым нужно разобраться с дублирующимися данными или проблемами кодирования. Благодаря использованию методов структурированной генерации из Large Language Model (LLM), Foudinge Scrub предоставляет интуитивно понятный интерфейс, который позволяет пользователям эффективно оптимизировать результаты извлечения, сохраняя при этом структурную целостность данных. Код проекта и сопутствующие ресурсы находятся в открытом доступе на GitHub и могут быть использованы разработчиками повторно или улучшены.

Список функций
- Очистка и дедупликация данных:: Выявление и исправление дублирующихся сущностей или ошибочных элементов, извлеченных из текстовых данных.
- Полнотекстовый поиск:: Поддержка быстрого поиска определенных сущностей или ключевых слов в интерфейсе редактирования.
- Структурированное редактирование:: Предоставить визуальный интерфейс для ручной настройки сущностей в графе знаний, сохраняя структуру данных целостной.
- Исправлены проблемы с кодированием: Устранение ошибок кодировки символов, вызванных SQLite или другими причинами.
- Поддержка открытых источников:: Код проекта находится в открытом доступе, и пользователи могут загружать, изменять или вносить свой вклад.
Использование помощи
Приобретение и установка
Foudinge Scrub - это проект с открытым исходным кодом, основанный на GitHub, пользователям необходимо сначала загрузить код и запустить его локально. Ниже приведен подробный процесс установки:
1. предварительные условия
- операционная система: Windows, MacOS или Linux.
- зависимость от программного обеспечения: Требуется Python 3.7+, Git и редактор кода (например, VS Code).
- сетевое окружение: Убедитесь, что у вас есть доступ к GitHub, и установите PyPI, необходимые для ваших зависимостей.
2. Загрузка проекта
- Откройте терминал или инструмент командной строки.
- Введите следующую команду, чтобы клонировать репозиторий:
git clone https://github.com/theophilec/foudinge-scrub.git
- Перейдите в каталог проектов:
cd foudinge-scrub
3. Установка зависимостей
- Проект основан на Flask и разработке JavaScript и требует установки зависимости от Python. Выполните следующую команду:
pip install -r requirements.txt
- в случае, если
requirements.txt
Документация не предоставляется, основные зависимости могут быть установлены вручную:pip install flask
- В части JavaScript используются шаблоны Jinja, которые не требуют дополнительной установки, но убедитесь, что у вас установлен современный браузер (например, Chrome, Firefox).
4. Запуск приложения
- Запустите приложение Flask в корневом каталоге проекта:
python app.py
- После успешного запуска на экране терминала появится что-то вроде
Running on http://127.0.0.1:5000/
Совет. - Откройте браузер и введите
http://127.0.0.1:5000/
Чтобы перейти к интерфейсу Foudinge Scrub, нажмите здесь.
5. Устранение неполадок
- если мы столкнемся
ModuleNotFoundError
Проверьте установку отсутствующих зависимостей. - Если порт занят, измените значение
app.py
номер порта в5000
превратиться в5001
.
Основные функции
Очистка и дедупликация данных
- Подготовьте данные: Foudinge Scrub по умолчанию обрабатывает данные об отзывах о ресторанах с сайта LeFooding.com. Для получения индивидуальных данных, пожалуйста, обратитесь к
theophilec/foudinge
Выполните код в репозитории (используя SQLite, asyncio и aiohttp) для создания совместимых файлов графа знаний. - Импортные данные: Помещает файл данных в указанный каталог проекта (обычно корневой каталог или путь, указанный в конфигурационном файле).
- Приступить к очистке:: При открытии веб-интерфейса система автоматически загружает данные и отображает визуальное отображение. Дублирующиеся или ошибочные сущности выделяются или помечаются.
- ручная регулировка: Нажмите на дублирующую сущность, выберите "Объединить" или "Удалить", подтвердите и сохраните изменения.
- Валидация результатов: После очистки атлас обновляется в режиме реального времени, чтобы гарантировать отсутствие ошибок.
Полнотекстовый поиск
- Войдите в режим поиска: Найдите поле поиска в верхней части интерфейса (обычно это поле ввода рядом со значком увеличительного стекла).
- Введите ключевые слова: Введите название объекта, который необходимо найти (например, название ресторана, имя человека), или ключевое слово.
- Посмотреть результаты: Система выведет список совпадений и щелкнет, чтобы перейти к соответствующему местоположению объекта.
- Расширенное использование:: Поддерживает нечеткий поиск, например, если набрать "Gren", то получится "Grenat".
Структурированное редактирование
- Откройте экран редактирования:: В представлении графика щелкните узел, который необходимо отредактировать (например, поле "Шеф-повар" для ресторана).
- Содержание модификации: Введите новое значение во всплывающем окне редактирования, например, измените название ресторана перед "Нилом Махацри" с "La Brasserie Communale" на какое-нибудь другое.
- Сохранить изменения: Нажмите кнопку "Сохранить", система проверит формат данных, чтобы убедиться, что структура соответствует.
- Отменить:: Если вы допустили ошибку, вы можете нажать кнопку "Отменить", чтобы восстановить предыдущий статус.
Исправлены проблемы с кодированием
- Определение проблемы:: Если интерфейс искажен (например, "Antoine Joannier" становится "Antoine Joanniér"), это означает, что произошла ошибка кодирования.
- авторемонт: Выберите "Исправить кодировку" в меню "Настройка", и система попытается стандартизировать UTF-8 или другие форматы кодировки.
- ручной ввод: Если автоматическое исправление не помогло, вручную отредактируйте запутанное поле и введите правильные символы.
Основные функции
Оптимизация графов знаний в сочетании с LLM
Основная особенность Foudinge Scrub - использование крупномасштабных языковых моделей (LLM) для создания структурированных данных, которые можно дополнительно оптимизировать путем ручного редактирования. Например, при извлечении фразы "Antoine Joannier работал в La Brasserie Communale до работы в Grenat" из отзыва о ресторане LLM генерирует JSON:
{
"Person": {
"name": "Antoine Joannier",
"role": "Host",
"previous_restaurants": ["La Brasserie Communale"]
}
}
Вы можете настроить эту структуру в интерфейсе, например, добавив новое поле "current_restaurant" и заполнив его "Grenat", следующим образом:
- Проверьте узлы на отображение JSON.
- Нажмите кнопку "Добавить поле" и введите пары ключ-значение.
- При сохранении отображение обновляется и отражает новые отношения.
Сотрудничество с открытым исходным кодом
- Внести код: Пользователи могут форкнуть репозиторий, внести изменения в код и отправить запрос на выгрузку, например, чтобы добавить новый алгоритм поиска или оптимизировать интерфейс.
- Посмотреть документ: Файл README в корневом каталоге проекта содержит основные инструкции, за подробной логикой кода обратитесь к файлу
app.py
и файлы JavaScript.
Рекомендации по использованию
- первоначальное использование: Сначала запустите примерные данные, чтобы ознакомиться с расположением интерфейса и логикой работы.
- Крупномасштабные данные: При работе с большим количеством комментариев рекомендуется импортировать их партиями, чтобы избежать отставания браузера.
- Поддержка общества: Задайте вопрос на странице GitHub Issues, разработчики или сообщество могут помочь.
Выполнив эти шаги, пользователи смогут быстро приступить к работе с Foudinge Scrub и эффективно выполнять задачи по очистке данных и оптимизации графов знаний.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...