일반 소개
푸딩 스크럽은 GitHub에서 호스팅되는 오픈 소스 웹 도구로, 개발자 Théophile Cantelobre가 만들었습니다. 사용자가 복잡한 텍스트 데이터에서 추출한 지식 그래프 엔티티를 정리하고 편집할 수 있도록 설계되었으며, 특히 레스토랑 리뷰 사이트인 LeFooding.com에서 크롤링한 데이터를 대상으로 합니다. 플라스크 프레임워크와 순수 JavaScript를 사용하여 구축된 이 도구는 중복 데이터나 코딩 문제를 처리해야 하는 사용자를 위해 전체 텍스트 검색과 같은 기능을 지원합니다. 대규모 언어 모델(LLM)의 구조화된 생성 기술을 통합한 Foudinge Scrub은 사용자가 데이터의 구조적 무결성을 유지하면서 추출 결과를 효율적으로 최적화할 수 있는 직관적인 인터페이스를 제공합니다. 프로젝트 코드와 관련 리소스는 개발자가 재사용하거나 개선할 수 있도록 GitHub에 공개되어 있습니다.

기능 목록
- 데이터 정리 및 중복 제거:: 텍스트 데이터에서 추출된 중복 개체 또는 오류 항목을 식별하고 복구합니다.
- 전체 텍스트 검색:: 편집 인터페이스에서 특정 개체 또는 키워드에 대한 빠른 검색을 지원합니다.
- 구조화된 편집:: 데이터 구조를 일관되게 유지하면서 지식 그래프에서 엔티티를 수동으로 조정할 수 있는 시각적 인터페이스를 제공합니다.
- 코딩 문제 수정SQLite 또는 기타 이유로 발생한 문자 인코딩 오류를 해결합니다.
- 오픈 소스 지원:: 프로젝트 코드는 공개적으로 사용 가능하며 사용자는 코드를 다운로드, 수정 또는 기여할 수 있습니다.
도움말 사용
획득 및 설치
푸딩 스크럽은 GitHub 기반의 오픈 소스 프로젝트이므로 사용자는 먼저 코드를 다운로드하여 로컬에서 실행해야 합니다. 자세한 설치 과정은 다음과 같습니다:
1. 전제 조건
- 운영 체제Windows, MacOS 또는 Linux.
- 소프트웨어 종속성파이썬 3.7 이상, Git, 코드 편집기(예: VS Code)가 필요합니다.
- 네트워크 환경GitHub에 액세스할 수 있는지 확인하고 종속성에 필요한 PyPI를 설치합니다.
2. 프로젝트 다운로드
- 터미널 또는 명령줄 도구를 엽니다.
- 다음 명령을 입력하여 리포지토리를 복제합니다:
git clone https://github.com/theophilec/foudinge-scrub.git
- 프로젝트 카탈로그로 이동합니다:
cd foudinge-scrub
3. 종속성 설치
- 이 프로젝트는 플라스크와 자바스크립트 개발을 기반으로 하며 Python 종속성을 설치해야 합니다. 다음 명령을 실행합니다:
pip install -r requirements.txt
- 다음과 같은 경우
requirements.txt
문서가 제공되지 않으며 핵심 종속성은 수동으로 설치할 수 있습니다:pip install flask
- 자바스크립트 부분은 추가 설치가 필요 없는 Jinja 템플릿을 사용하지만 로컬에 최신 브라우저(예: Chrome, Firefox)가 있는지 확인하세요.
4. 애플리케이션 실행
- 프로젝트 루트 디렉터리에서 플라스크 애플리케이션을 실행합니다:
python app.py
- 시작에 성공하면 터미널에 다음과 같은 내용이 표시됩니다.
Running on http://127.0.0.1:5000/
팁. - 브라우저를 열고 다음을 입력합니다.
http://127.0.0.1:5000/
Foudinge 스크럽 인터페이스에 액세스하려면 여기를 클릭하세요.
5. 문제 해결
- 만나면
ModuleNotFoundError
를 클릭하고 누락된 종속성 설치가 있는지 확인합니다. - 포트가 사용 중인 경우, 포트가 사용 중이면
app.py
포트 번호의5000
로 변경5001
.
주요 기능
데이터 정리 및 중복 제거
- 데이터 준비푸딩 스크럽은 기본적으로 르푸딩닷컴의 레스토랑 리뷰 데이터를 처리합니다. 사용자 지정 데이터는 다음을 참조하세요.
theophilec/foudinge
리포지토리의 크롤링 코드(SQLite, asyncio 및 aiohttp 사용)를 사용하여 호환 가능한 지식 그래프 파일을 생성합니다. - 데이터 가져오기데이터 파일을 프로젝트의 지정된 디렉토리(일반적으로 루트 디렉토리 또는 구성 파일에서 지정한 경로)에 배치합니다.
- 정리 시작:: 웹 인터페이스가 열리면 시스템이 자동으로 데이터를 로드하고 시각적 매핑을 표시합니다. 중복되거나 잘못된 엔티티는 강조 표시되거나 표시됩니다.
- 수동 조정: 중복 항목을 클릭하고 '병합' 또는 '삭제'를 선택한 다음 변경 사항을 확인하고 저장합니다.
- 결과 검증정리 후 아틀라스는 누락 오류가 없도록 실시간으로 업데이트됩니다.
전체 텍스트 검색
- 검색 모드로 들어가기인터페이스 상단의 검색창(일반적으로 돋보기 아이콘 옆에 있는 입력 필드)을 찾습니다.
- 키워드 입력검색할 업체명(예: 레스토랑 이름, 사람 이름) 또는 키워드를 입력합니다.
- 결과 보기: 시스템이 일치하는 항목을 나열하고 클릭하면 해당 엔티티 위치로 이동합니다.
- 고급 사용법:: 퍼지 검색을 지원합니다(예: "Gren"을 입력하면 "Grenat"과 일치).
구조화된 편집
- 편집 화면 열기:: 그래프 보기에서 편집해야 하는 노드(예: 레스토랑의 '셰프' 필드)를 클릭합니다.
- 수정 내용:: 팝업 편집 상자에 새 값을 입력합니다(예: 'Neil Mahatsry' 앞의 레스토랑 이름을 'La Brasserie Communale'에서 다른 이름으로 변경).
- 변경 사항 저장'저장' 버튼을 클릭하면 시스템이 데이터 형식을 확인하여 구조가 일관성이 있는지 확인합니다.
- 실행 취소:: 실수한 경우 '실행 취소' 버튼을 클릭하여 이전 상태로 복원할 수 있습니다.
코딩 문제 수정
- 문제 식별:: 인터페이스가 왜곡된 경우(예: "앙투안 조아니에"가 "앙투안 조아니에르"로 바뀜) 코딩 오류가 있는 것입니다.
- 자동 복구설정 메뉴에서 '인코딩 수정'을 선택하면 시스템이 UTF-8 또는 기타 인코딩 포맷으로 표준화를 시도합니다.
- 수동 입력자동 수정이 실패하면 왜곡된 필드를 수동으로 수정하고 올바른 문자를 입력합니다.
주요 기능
LLM과 연계한 지식 그래프 최적화
푸딩 스크럽의 핵심 기능은 대규모 언어 모델(LLM)을 사용해 수동 편집을 통해 더욱 최적화할 수 있는 구조화된 데이터를 생성하는 것입니다. 예를 들어, 레스토랑 리뷰에서 "앙투안 조아니에는 그르나트에서 일하기 전에 라 브라세리 코뮤날레에서 일했다"를 추출할 때 LLM은 JSON을 생성합니다:
{
"Person": {
"name": "Antoine Joannier",
"role": "Host",
"previous_restaurants": ["La Brasserie Communale"]
}
}
인터페이스에서 이 구조를 조정할 수 있습니다(예: 새 필드 "current_restaurant"를 추가하고 다음과 같이 "Grenat"로 채우는 방식):
- JSON 표시를 위한 노드를 확인합니다.
- '필드 추가'를 클릭하고 키-값 쌍을 입력합니다.
- 저장하면 매핑이 업데이트되어 새 관계를 반영합니다.
오픈 소스 협업
- 코드 기여사용자는 리포지토리를 포크하고 코드를 변경한 후 새로운 검색 알고리즘을 추가하거나 인터페이스를 최적화하는 등의 풀 리퀘스트를 제출할 수 있습니다.
- 문서 보기프로젝트 루트 디렉토리에 있는 README 파일은 기본 지침을 제공하며, 자세한 코드 로직은
app.py
및 JavaScript 파일.
사용 권장 사항
- 초기 사용샘플 데이터를 먼저 실행하여 인터페이스 레이아웃과 작동 로직에 익숙해지도록 합니다.
- 대규모 데이터많은 수의 댓글을 처리하는 경우 브라우저 지연을 방지하기 위해 일괄적으로 가져오는 것이 좋습니다.
- 커뮤니티 지원GitHub 이슈 페이지에서 질문을 하면 개발자나 커뮤니티에서 도움을 줄 수 있습니다.
이러한 단계를 통해 사용자는 Foudinge Scrub을 빠르게 시작하고 데이터 정리 및 지식 그래프 최적화 작업을 효율적으로 완료할 수 있습니다.
© 저작권 정책
기사 저작권 AI 공유 서클 모두 무단 복제하지 마세요.
관련 문서
댓글 없음...