E2M: 여러 파일 형식을 마크다운으로 변환하고, 균일한 문서 서식을 쉽게 달성하세요.

최신 AI 리소스12개월 전에 게시됨 AI 공유 서클
35.5K 00
堆友AI

일반 소개

E2M(Everything to Markdown)은 다양한 파일 형식을 마크다운 형식으로 변환하도록 설계된 오픈 소스 Python 라이브러리입니다. 이 도구는 doc, docx, epub, html, htm, url, pdf, ppt, pptx, mp3, m4a 등 다양한 파일 유형을 지원합니다. E2M은 파일 콘텐츠를 효율적으로 파싱하고 변환하는 파서-변환기 아키텍처를 채택하여 데이터 검색 강화 생성(RAG) 및 모델 훈련 또는 미세 조정을 위한 유연한 구성 옵션을 제공합니다. E2M의 목표는 사용자에게 문서 형식 조율 프로세스를 간소화하는 고품질 데이터 변환 서비스를 제공하는 것입니다. 각 형식에는 전용 파서와 변환기가 있으며, 파서 파서는 파일에서 텍스트와 이미지를 추출하고 변환기는 추출된 콘텐츠를 마크다운으로 변환하는 데 사용합니다.

E2M:将多种文件格式转换为Markdown,轻松实现文档格式统一

 

기능 목록

  • 파일 구문 분석텍스트 및 이미지 데이터를 포함한 여러 파일 형식의 구문 분석을 지원합니다.
  • 형식 변환: 구문 분석된 데이터를 마크다운 형식으로 변환합니다.
  • 여러 파서 및 변환기다양한 엔진과 전략을 지원하는 파서 및 변환기.
  • 오픈 소스 및 유연한 구성오픈 소스 코드와 사용자가 사용자 지정할 수 있는 유연한 구성 옵션을 제공합니다.
  • API 서비스다른 애플리케이션에 쉽게 통합할 수 있도록 API 서비스를 제공합니다.

 

도움말 사용

설치 프로세스

  1. 환경 만들기::
   conda create -n e2m python=3.10
conda activate e2m
  1. pip 업데이트::
   pip install --upgrade pip
  1. E2M 설치::
    • git을 통해 설치(권장)합니다: bash
      pip install git+https://github.com/wisupai/e2m.git --index-url https://pypi.org/simple
    • 핍을 통한 설치: bash
      pip install --upgrade wisup_e2m
    • 수동 설치: bash
      git clone https://github.com/wisupai/e2m.git
      cd e2m
      pip install poetry
      poetry build
      pip install dist/wisup_e2m-0.1.63-py3-none-any.whl

사용법

  1. API 서비스 시작하기::
   gunicorn wisup_e2m.api.main:app --workers 4 --worker-class uvicorn.workers.UvicornWorker --bind 0.0.0.0:8000
  1. API 문서에 액세스브라우저를 열고 다음을 방문하세요.http://127.0.0.1:8000/docs를 클릭해 API 문서와 사용 예시를 확인하세요.

주요 기능

  1. 파일 구문 분석 및 변환::
    • 파서를 사용하여 파일 내용을 구문 분석합니다:
     from wisup_e2m.parsers import PdfParser
    parser = PdfParser()
    text_data = parser.parse('example.pdf')
    
    • 변환기를 사용하여 구문 분석된 콘텐츠를 마크다운 형식으로 변환합니다:
     from wisup_e2m.converters import TextConverter
    converter = TextConverter()
    markdown_data = converter.convert(text_data)
    
  2. 사용자 지정 구성::
    • 구성 파일 수정config.yaml를 클릭하고 필요에 따라 구문 분석기와 변환기의 매개 변수를 조정합니다:
     parsers:
    pdf:
    engine: 'unstructured'
    converters:
    text:
    engine: 'litellm'
    
  3. 다른 애플리케이션과 통합::
    • API 서비스를 사용하여 파일 구문 분석 및 변환을 위한 HTTP 요청을 전송하는 다른 애플리케이션에 E2M을 통합하세요: python
      import requests
      response = requests.post('http://127.0.0.1:8000/convert', files={'file': open('example.pdf', 'rb')})
      markdown_data = response.text
© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...