E2M: 여러 파일 형식을 마크다운으로 변환하고, 균일한 문서 서식을 쉽게 달성하세요.

최신 AI 리소스8 개월 전에 게시 됨 AI 공유 서클
2.9K 00

일반 소개

E2M(Everything to Markdown)은 다양한 파일 형식을 마크다운 형식으로 변환하도록 설계된 오픈 소스 Python 라이브러리입니다. 이 도구는 doc, docx, epub, html, htm, url, pdf, ppt, pptx, mp3, m4a 등 다양한 파일 유형을 지원합니다. E2M은 파일 콘텐츠를 효율적으로 파싱하고 변환하는 파서-변환기 아키텍처를 채택하여 데이터 검색 강화 생성(RAG) 및 모델 훈련 또는 미세 조정을 위한 유연한 구성 옵션을 제공합니다. E2M의 목표는 사용자에게 문서 형식 조율 프로세스를 간소화하는 고품질 데이터 변환 서비스를 제공하는 것입니다. 각 형식에는 전용 파서와 변환기가 있으며, 파서 파서는 파일에서 텍스트와 이미지를 추출하고 변환기는 추출된 콘텐츠를 마크다운으로 변환하는 데 사용합니다.

E2M:将多种文件格式转换为Markdown,轻松实现文档格式统一

 

기능 목록

  • 파일 구문 분석텍스트 및 이미지 데이터를 포함한 여러 파일 형식의 구문 분석을 지원합니다.
  • 형식 변환: 구문 분석된 데이터를 마크다운 형식으로 변환합니다.
  • 여러 파서 및 변환기다양한 엔진과 전략을 지원하는 파서 및 변환기.
  • 오픈 소스 및 유연한 구성오픈 소스 코드와 사용자가 사용자 지정할 수 있는 유연한 구성 옵션을 제공합니다.
  • API 서비스다른 애플리케이션에 쉽게 통합할 수 있도록 API 서비스를 제공합니다.

 

도움말 사용

설치 프로세스

  1. 환경 만들기::
   conda create -n e2m python=3.10
conda activate e2m
  1. pip 업데이트::
   pip install --upgrade pip
  1. E2M 설치::
    • git을 통해 설치(권장)합니다: bash
      pip install git+https://github.com/wisupai/e2m.git --index-url https://pypi.org/simple
    • 핍을 통한 설치: bash
      pip install --upgrade wisup_e2m
    • 수동 설치: bash
      git clone https://github.com/wisupai/e2m.git
      cd e2m
      pip install poetry
      poetry build
      pip install dist/wisup_e2m-0.1.63-py3-none-any.whl

사용법

  1. API 서비스 시작하기::
   gunicorn wisup_e2m.api.main:app --workers 4 --worker-class uvicorn.workers.UvicornWorker --bind 0.0.0.0:8000
  1. API 문서에 액세스브라우저를 열고 다음을 방문하세요.http://127.0.0.1:8000/docs를 클릭해 API 문서와 사용 예시를 확인하세요.

주요 기능

  1. 파일 구문 분석 및 변환::
    • 파서를 사용하여 파일 내용을 구문 분석합니다:
     from wisup_e2m.parsers import PdfParser
    parser = PdfParser()
    text_data = parser.parse('example.pdf')
    
    • 변환기를 사용하여 구문 분석된 콘텐츠를 마크다운 형식으로 변환합니다:
     from wisup_e2m.converters import TextConverter
    converter = TextConverter()
    markdown_data = converter.convert(text_data)
    
  2. 사용자 지정 구성::
    • 구성 파일 수정config.yaml를 클릭하고 필요에 따라 구문 분석기와 변환기의 매개 변수를 조정합니다:
     parsers:
    pdf:
    engine: 'unstructured'
    converters:
    text:
    engine: 'litellm'
    
  3. 다른 애플리케이션과 통합::
    • API 서비스를 사용하여 파일 구문 분석 및 변환을 위한 HTTP 요청을 전송하는 다른 애플리케이션에 E2M을 통합하세요: python
      import requests
      response = requests.post('http://127.0.0.1:8000/convert', files={'file': open('example.pdf', 'rb')})
      markdown_data = response.text
© 저작권 정책
AiPPT

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...