일반 소개
E2M(Everything to Markdown)은 다양한 파일 형식을 마크다운 형식으로 변환하도록 설계된 오픈 소스 Python 라이브러리입니다. 이 도구는 doc, docx, epub, html, htm, url, pdf, ppt, pptx, mp3, m4a 등 다양한 파일 유형을 지원합니다. E2M은 파일 콘텐츠를 효율적으로 파싱하고 변환하는 파서-변환기 아키텍처를 채택하여 데이터 검색 강화 생성(RAG) 및 모델 훈련 또는 미세 조정을 위한 유연한 구성 옵션을 제공합니다. E2M의 목표는 사용자에게 문서 형식 조율 프로세스를 간소화하는 고품질 데이터 변환 서비스를 제공하는 것입니다. 각 형식에는 전용 파서와 변환기가 있으며, 파서 파서는 파일에서 텍스트와 이미지를 추출하고 변환기는 추출된 콘텐츠를 마크다운으로 변환하는 데 사용합니다.

기능 목록
- 파일 구문 분석텍스트 및 이미지 데이터를 포함한 여러 파일 형식의 구문 분석을 지원합니다.
- 형식 변환: 구문 분석된 데이터를 마크다운 형식으로 변환합니다.
- 여러 파서 및 변환기다양한 엔진과 전략을 지원하는 파서 및 변환기.
- 오픈 소스 및 유연한 구성오픈 소스 코드와 사용자가 사용자 지정할 수 있는 유연한 구성 옵션을 제공합니다.
- API 서비스다른 애플리케이션에 쉽게 통합할 수 있도록 API 서비스를 제공합니다.
도움말 사용
설치 프로세스
- 환경 만들기::
conda create -n e2m python=3.10
conda activate e2m
- pip 업데이트::
pip install --upgrade pip
- E2M 설치::
- git을 통해 설치(권장)합니다:
bash
pip install git+https://github.com/wisupai/e2m.git --index-url https://pypi.org/simple - 핍을 통한 설치:
bash
pip install --upgrade wisup_e2m - 수동 설치:
bash
git clone https://github.com/wisupai/e2m.git
cd e2m
pip install poetry
poetry build
pip install dist/wisup_e2m-0.1.63-py3-none-any.whl
- git을 통해 설치(권장)합니다:
사용법
- API 서비스 시작하기::
gunicorn wisup_e2m.api.main:app --workers 4 --worker-class uvicorn.workers.UvicornWorker --bind 0.0.0.0:8000
- API 문서에 액세스브라우저를 열고 다음을 방문하세요.
http://127.0.0.1:8000/docs
를 클릭해 API 문서와 사용 예시를 확인하세요.
주요 기능
- 파일 구문 분석 및 변환::
- 파서를 사용하여 파일 내용을 구문 분석합니다:
from wisup_e2m.parsers import PdfParser parser = PdfParser() text_data = parser.parse('example.pdf')
- 변환기를 사용하여 구문 분석된 콘텐츠를 마크다운 형식으로 변환합니다:
from wisup_e2m.converters import TextConverter converter = TextConverter() markdown_data = converter.convert(text_data)
- 사용자 지정 구성::
- 구성 파일 수정
config.yaml
를 클릭하고 필요에 따라 구문 분석기와 변환기의 매개 변수를 조정합니다:
parsers: pdf: engine: 'unstructured' converters: text: engine: 'litellm'
- 구성 파일 수정
- 다른 애플리케이션과 통합::
- API 서비스를 사용하여 파일 구문 분석 및 변환을 위한 HTTP 요청을 전송하는 다른 애플리케이션에 E2M을 통합하세요:
python
import requests
response = requests.post('http://127.0.0.1:8000/convert', files={'file': open('example.pdf', 'rb')})
markdown_data = response.text
- API 서비스를 사용하여 파일 구문 분석 및 변환을 위한 HTTP 요청을 전송하는 다른 애플리케이션에 E2M을 통합하세요:
© 저작권 정책
이 글은 저작권이 있으며 무단으로 복제해서는 안 됩니다.
관련 문서
댓글 없음...