문서 추출 및 정리

총 67개 기사

순서대로 정렬

OneFileLLM: 여러 데이터 소스를 단일 텍스트 파일로 통합하기

종합 소개 OneFileLLM은 여러 데이터 소스를 하나의 텍스트 파일로 통합하여 대규모 언어 모델(LLM)에 쉽게 입력할 수 있도록 설계된 오픈 소스 명령줄 도구입니다. 이 도구는 GitHub 리포지토리, ArXiv 논문, YouTube 동영상 전사, 웹...

11개월 전

053.3K

Chatlog: WeChat 채팅 로그 추출 및 쿼리를 위한 오픈 소스 도구

일반 소개 Chatlog는 WeChat의 로컬 데이터베이스에서 채팅 로그를 추출하고 쿼리하는 데 중점을 둔 오픈 소스 도구입니다. 이 도구는 WeChat 버전 3.x와 4.0을 지원하며, Windows와 macOS 시스템을 모두 포괄합니다. 사용자는 명령줄, 터미널 인터페이스 또는 H...

12개월 전

0126.1K

VOP: 복잡한 도표와 수학 공식을 추출하기 위한 OCR 도구

종합 소개 다목적 OCR 프로그램은 복잡한 학술 및 교육 문서 작업을 위해 설계된 오픈 소스 광학 문자 인식(OCR) 도구입니다. PDF, 이미지 및 기타 문서에서 텍스트, 표, 수학 공식, 다이어그램 및 회로도를 추출하고 생성할 수 있습니다.

12개월 전

050.2K

DevDocs: 기술 문서를 빠르게 크롤링하고 정리할 수 있는 MCP 서비스

일반 소개 DevDocs는 CyberAGI 팀에서 개발하고 GitHub에서 호스팅하는 완전 무료 오픈 소스 도구입니다. 프로그래머와 소프트웨어 개발자를 위해 설계된 이 도구는 기술 문서의 URL로 시작하여 관련 페이지를 자동으로 크롤링하고 이를 간결한 마...

12개월 전

055.7K

PDF 콘텐츠를 자동으로 구문 분석하고 오픈 소스 서비스의 텍스트와 양식을 추출합니다.

종합 소개 PDF 문서의 레이아웃을 자동으로 분석하고 페이지의 텍스트, 제목, 이미지, 표, 수식 및 기타 요소를 식별하며 올바른 순서를 결정합니다. 이 도구는 OCR 기능을 지원하며 스캔한 PDF를 검색 가능한 텍스트로 변환할 수 있습니다. Docker에서 실행되며 두 가지 모델을 제공합니다...

12개월 전

057.1K

Workers AI를 기반으로 여러 파일을 무료로 마크다운 형식으로 변환하세요.

일반 소개 서버리스 마크다운 컨버터는 다양한 파일을 마크다운으로 변환하는 무료 오픈 소스 도구로, Cloudflare Worker 및 Workers AI를 기반으로 합니다....

1 년 전

054.4K

GPT-Crawler: 웹사이트 콘텐츠를 자동으로 크롤링하여 지식창고 문서 생성하기

일반 소개 GPT-Crawler는 BuilderIO 팀이 개발하여 GitHub에서 호스팅하는 오픈 소스 도구입니다. 하나 이상의 웹사이트 URL을 입력하여 페이지 콘텐츠를 크롤링하고, 구조화된 지식 파일(output.jso...

10개월 전

056.2K

pure.md: URL 앞에 "pure.md/"를 삽입하여 깨끗한 텍스트를 추출합니다.

일반 소개 pure.md는 웹 콘텐츠나 파일을 마크다운 형식으로 빠르게 변환하는 데 중점을 둔 AI 에이전트 및 개발자용 도구입니다. 프록시 서비스를 통해 크롤러 방지 제한을 우회하고 웹 페이지의 핵심 데이터를 추출하여 깔끔한 마크다운을 출력합니다.

최신 AI 리소스 # AI 오픈 서비스 # 문서 추출 및 정리

1 년 전

061.3K

Cloudsquid: 문서를 업로드하고 구조화된 데이터의 지능적인 추출을 위한 요구 사항을 설명하세요.

회사 소개 클라우드스퀴드는 2023년 독일 베를린에서 설립된 회사로, 인공지능으로 문서 처리를 간소화하는 데 주력하고 있습니다. 핵심 제품은 온라인 데이터 추출 플랫폼으로, 사용자가 PDF, 이미지, 오디오, 비디오 등의 문서를 업로드하고 추출해야 할 내용을 간단히 입력하기만 하면 됩니다.

최신 AI 리소스 # 문서 추출 및 정리

1 년 전

054K

PDF Craft: PDF 스캔 문서를 마크다운 오픈 소스 도구로 변환하기

일반 소개 PDF Craft는 책의 PDF를 스캔하고 마크다운 형식으로 변환하기 위해 설계된 오픈 소스 도구입니다. oomol-lab에서 개발했으며 전자책을 정리하고 싶어하는 사용자를 위해 깃허브에서 호스팅됩니다. 이 도구는 이것을 통해 작동합니다 ...

1 년 전

078.1K

Supametas.AI: 비정형 데이터를 LLM 고가용성 데이터로 추출하기

포괄적인 소개 Supametas.AI는 웹 페이지, 문서, 오디오 및 비디오의 혼란을 AI가 사용할 수 있는 구조화된 데이터로 정리하는 데 특화된 데이터 처리 플랫폼입니다. 웹 링크, API, 로컬 파일 등 여러 소스에서 데이터를 수집한 다음 JSON으로 출력하는 것을 지원합니다.

최신 AI 리소스 # AI 오픈 서비스 # 문서 추출 및 정리

1 년 전

054K

MarkPDFDown: 멀티모달 모델을 기반으로 PDF를 마크다운으로 변환하기

일반 소개 마크다운은 오픈 소스 도구입니다. 이 도구는 멀티모달 빅 언어 모델을 사용하여 PDF 파일을 마크다운 형식으로 변환합니다. 이 도구의 목표는 간단합니다: PDF 문서를 만드는 것입니다.

1 년 전

059.7K

스몰도클링: 소량의 효율적인 문서 처리를 위한 시각적 언어 모델

포괄적인 소개 SmolDocling은 ds4sd 팀이 IBM과 협력하여 개발한 시각 언어 모델(VLM)로, SmolVLM-256M에 구축되어 Hugging Face 플랫폼에서 호스팅됩니다. 크기가 작고, 단지 ...

1 년 전

051.1K

플라잉 패들 PP-TableMagic: 복잡한 테이블을 위한 구조화된 정보 추출

표 인식의 목표는 이미지에서 표를 구문 분석하여 표 구조와 셀 위치를 정확하게 식별하고 이를 구조화된 표 형식(예: HTML)으로 변환하는 것입니다. 오늘날의 정보화 시대에는 여전히 많은 양의 중요한 표 데이터가 비정형화된 상태로 존재합니다(예: 통계표 그림이 있는 스캔 문서...).

1 년 전

064.8K

미스트랄 OCR: 94.89% 전체 정확도, 1000페이지/30초, 단돈 1달러

인류 문명의 오랜 역사에서 정보를 획득하고 분석하는 방식의 모든 도약은 사회 발전에 크게 기여해 왔습니다. 고대 상형문자에서 휴대용 파피루스, 이후 인쇄기의 등장, 그리고 오늘날의 디지털 물결에 이르기까지 각 기술 혁신은 인류 지식 보급의 패러다임을 크게 확장했습니다....

1 년 전

059.1K

Firecrawl MCP Server：基于 Firecrawl 的网页爬虫 MCP 服务

파이어크롤 MCP 서버: 파이어크롤 기반 웹 크롤러 MCP 서비스

일반 소개 파이어크롤 MCP 서버는 모델 컨텍스트 프로토콜(MCP) 프로토콜 구현을 기반으로 MendableAI에서 개발한 오픈 소스 도구로, 파이어크롤 A...

1 년 전

070.8K

olmOCR: PDF 문서를 텍스트로 변환, 표, 수식 및 필기 콘텐츠 인식 지원

일반 소개 olmOCR은 Allen 인공 지능 연구소(AI2)의 AllenNLP 팀이 개발한 오픈 소스 도구로 PDF 파일 변환에 중점을 두고 있습니다...

1 년 전

066.8K

par_scrape: 웹 데이터의 지능적 추출을 위한 크롤러 도구

일반 소개 파스크랩은 개발자 폴 로벨로가 GitHub에서 출시한 Python 기반 오픈 소스 웹 크롤러 도구로, 사용자가 웹 페이지에서 데이터를 지능적으로 추출할 수 있도록 설계되었습니다. 이 도구는 셀레늄을 통합합니다...

1 년 전

053.1K

PDF-Extract-Kit: 오픈 소스 도구의 PDF 콘텐츠의 복잡한 구조를 추출합니다.

포괄적 인 소개 PDF-Extract-Kit은 복잡하고 다양한 PDF 문서에서 고품질 콘텐츠를 효율적으로 추출하는 데 중점을두고 OpenDataLab 팀에서 개발 한 오픈 소스 프로젝트입니다. 고급 문서 구문 분석 기술을 통합하여 레이아웃 감지, 수식 인식을 지원합니다 ...

1 년 전

0102.7K

Crawl4LLM: LLM 사전 교육을 위한 효율적인 웹 크롤링 도구

종합 소개 Crawl4LLM은 칭화대학교와 카네기멜론대학교가 공동으로 개발한 오픈 소스 프로젝트로, 대규모 모델(LLM)의 사전 학습을 위한 웹 크롤링의 효율성을 최적화하는 데 중점을 두고 있습니다. 고품질 웹 데이터를 지능적으로 선별하여 비효율적인 크롤링을 크게 줄이며, 원래 크롤링해야 하는 1...

1 년 전

055.4K

Markdownify MCP Server：基于MCP协议将各种内容转换为Markdown格式

Markdownify MCP 서버: MCP 프로토콜을 기반으로 다양한 콘텐츠를 마크다운 형식으로 변환합니다.

일반 소개 마크다운파이 MCP 서버는 모델 컨텍스트 프로토콜을 기반으로 하는 오픈 소스 도구로, 개발자 Zach Caceres가 GitHub에서 호스팅합니다 ...

1 년 전

063.8K

CodeWeaver: 코드 구조와 콘텐츠로부터 마크다운 문서를 자동으로 생성합니다.

일반 소개 CodeWeaver는 코드 라이브러리를 탐색하기 쉬운 하나의 마크다운 문서로 엮도록 설계된 명령줄 도구입니다. 디렉터리를 재귀적으로 스캔하고 각 파일의 내용을 코드 블록에 포함시켜 프로젝트의 파일 계층 구조를 구조적으로 표현합니다. 이 도구는...

1 년 전

057.4K

크로이츠베르크: 모든 문서에서 텍스트를 추출하는 오픈 소스 도구

일반 소개 Kreuzberg는 PDF 파일에서 텍스트 추출을 간소화하기 위한 라이브러리로, 간단하고 번거로움 없는 텍스트 추출 솔루션을 제공하도록 설계되었습니다. 이 라이브러리는 특히 RAG(검색 증강 생성)에 적합합니다.

1 년 전

059.5K

인스트럭터: 대규모 언어 모델을 위한 구조화된 출력 워크플로우를 간소화하는 Python 라이브러리

일반 소개 인스트럭터는 대규모 언어 모델(LLM)의 구조화된 출력을 처리하기 위해 설계된 인기 있는 Python 라이브러리입니다. Pydantic을 기반으로 구축되어 데이터 관리를 위한 간단하고 투명하며 사용자 친화적인 API를 제공합니다....

1 년 전

053.4K

zChunk: Llama-70B를 기반으로 하는 일반적인 시맨틱 청크 전략

종합 소개 zChunk는 제로엔트로피에서 개발한 새로운 청킹 전략으로, 일반적인 의미론적 청킹을 위한 솔루션을 제공하는 것을 목표로 합니다. 이 전략은 청크 생성을 유도하여 문서의 청크 프로세스를 최적화하고 정보 검색을 높은 수준으로 유지하도록 보장하는 Llama-70B 모델을 기반으로 합니다.

1 년 전

048.8K

Pulse: 문서 처리 및 데이터 추출을 위한 비즈니스 솔루션

개요 Pulse는 문서 처리 및 데이터 추출에 중점을 둔 지능형 플랫폼으로, 기업과 개발자가 다양하고 복잡한 문서를 효율적으로 파싱하고 처리할 수 있도록 설계되었습니다. 고급 컴퓨터 비전과 멀티모달 처리 기술을 통해 Pulse는 텍스트, 이미지, 표 등에서 데이터를 정확하게 추출할 수 있습니다.

최신 AI 리소스 # 문서 추출 및 정리

1 년 전

052K

행 채우기: 문서에서 구조화된 정보 일괄 추출 및 자동 분석

일반 소개 Rowfill은 지식 근로자를 위해 설계된 오픈 소스 문서 처리 플랫폼입니다. 고급 인공 지능 기술을 사용하여 복잡한 문서, 이미지 및 PDF에서 데이터를 추출, 분석 및 처리하며, Rowfill은 네이티브 LLM(대규모 언어 모델)과 Ope...

1 년 전

052K

PPTX2MD: PPTX 파일을 마크다운으로 변환하는 특수 도구

일반 소개 PPTX2MD는 파워포인트 PPTX 파일을 마크다운 형식으로 변환하도록 설계된 오픈 소스 도구입니다. GitHub 사용자 ssine이 개발한 이 도구는 제목, 목록, 텍스트 서식(예: 굵게, 이탤릭체, 색상 및 슈퍼 ...

1 년 전

074K

리포믹스: 대규모 모델 검색을 위해 코드 베이스를 텍스트 파일로 패키징하기

일반 소개 Repomix(이전의 Repopack)는 전체 코드베이스를 AI 친화적인 단일 파일로 패키징하도록 설계된 오픈 소스 도구입니다. 이 도구를 사용하면 개발자는 코드베이스를 대규모 언어 모델(예: Claude, Chat ...

1 년 전

086.9K

Yek: git 리포지토리 텍스트 파일을 읽고 대형 모델을 위해 빠르게 청크 처리하기

일반 소개 Yek은 저장소나 디렉터리에서 텍스트 파일을 읽고, 청크화하여 대규모 언어 모델(LLM)에서 사용하기 위해 직렬화하기 위한 빠른 Rust 기반 도구입니다. 이 도구는 기본적으로 .gitignore 규칙을 사용하여 불필요한 파일을 건너뛰고, ...

1 년 전

056.4K

LlamaParse：Llamaindex推出的高品质解析文档，提取数据服务（每日免费提取1000页）

LlamaParse: Llamaindex의 고품질 문서 구문 분석 및 데이터 추출 서비스(하루 1,000페이지 무료).

포괄적 인 소개 LlamaParse는 PDF, PowerPoint, Word 문서 및 스프레드 시트와 같은 복잡한 문서를 처리하고 구조화 된 데이터로 변환 할 수있는 강력한 문서 구문 분석 도구입니다.LlamaParse는 다양한 사용 방법을 제공합니다 ...

최신 AI 리소스 # AI 오픈 서비스 # 문서 추출 및 정리

1 년 전

066.3K

UnDatas.IO: 다양한 유형의 비정형 데이터를 정확하게 파싱하기 위한 API 서비스(유료)

종합 소개 UnDatas.IO는 비정형 데이터 구문 분석 및 처리에 중점을 둔 플랫폼입니다. 고급 기술을 활용하여 문서 레이아웃을 자동으로 인식하고 표, 이미지, 수식, 텍스트를 분류하여 데이터 처리 프로세스를 크게 간소화합니다. 이 플랫폼은 데이터 정렬에 많은 시간을 절약해줄 뿐만 아니라...

최신 AI 리소스 # AI 오픈 서비스 # 문서 추출 및 정리

1 년 전

051.5K

Zerox: PDF, DOCX, 마크다운으로 이미지 변환, 시각적 모델 고정밀 OCR

일반 소개 Zerox는 시각적 모델을 통해 PDF, DOCX, 이미지 및 기타 문서를 마크다운 형식으로 변환하도록 설계된 오픈 소스 프로젝트입니다. 이 프로젝트는 getomni-ai 팀에 의해 개발되었으며 간단하고 효율적인 OCR(광학 문자 인식) 솔루션을 제공합니다.Ze ...

1 년 전

074.3K

SemHash: 시맨틱 텍스트 중복 제거를 빠르게 구현하여 데이터 정리 효율성 향상

개요 SemHash는 의미적 유사성을 기준으로 데이터 세트의 중복을 제거하기 위한 가볍고 유연한 도구입니다. 이 도구는 Model2Vec의 빠른 임베딩 생성과 Vicinity.SemHa...의 효율적인 ANN(근사 최인접 이웃) 유사성 검색을 결합합니다.

1 년 전

068.3K

Parseur: 문서 데이터 자동 추출, 다양한 문서에서 구조화된 텍스트 추출

일반 설명 Parseur는 사용자가 PDF, 이메일 및 기타 문서에서 텍스트 데이터를 자동으로 추출할 수 있도록 설계된 선도적인 AI 데이터 추출 소프트웨어입니다. Parseur를 사용하면 비정형 데이터를 정형 데이터로 쉽게 변환하여 다양한 애플리케이션으로 전송할 수 있습니다.

최신 AI 리소스 # 문서 추출 및 정리

1 년 전

058.5K

AI 함수: 입력 콘텐츠를 구조화된 출력으로 변환하는 (API) 서비스

종합 소개 Weco AI Functions는 사용자가 AI 함수를 빠르게 빌드하고 배포할 수 있도록 설계된 강력한 플랫폼입니다. 사용자는 작업을 간단히 설명하기만 하면 A/B 테스트와 관찰 모니터링을 통해 구조화된 출력 패턴을 생성할 수 있습니다. 이 플랫폼은 노코드 프로토타이핑을 지원합니다...

최신 AI 리소스 # AI 오픈 서비스 # 문서 추출 및 정리

1 년 전

049.8K

NV Ingest: 복잡한 형식의 문서를 구문 분석하고 멀티모달 데이터를 메타데이터와 텍스트로 추출합니다.

포괄적인 소개 NV Ingest(NVIDIA Ingest)는 수십만 개의 복잡하고 지저분한 비정형 PDF 및 기타 엔터프라이즈 문서를 구문 분석하도록 설계된 조기 액세스 마이크로서비스 제품군입니다. 이러한 문서를 메타데이터 및 텍스트로 변환하여 검색에 포함할 수 있습니다.

1 년 전

062.6K

Trellis：转换非结构文档为结构化EXCEL格式数据，PDF快速转表格（付费）

트렐리스: 비정형 문서를 정형화된 EXCEL 형식 데이터로 변환, PDF로 빠르게 변환(유료)

일반 소개 Trellis는 복잡한 비정형 데이터 소스를 정형 SQL 형식으로 변환하는 데 중점을 둔 데이터 플랫폼입니다. 강력한 AI 엔진을 통해 재무 문서, 음성 통화, 이메일 등 다양한 데이터 소스를 처리하고 이를 사용할 수 있는 데이터로 변환할 수 있습니다.

최신 AI 리소스 # 문서 추출 및 정리

1 년 전

048.8K

Ollama OCR: Ollama의 시각적 모델을 사용하여 이미지에서 텍스트 추출

종합 소개 Ollama OCR은 Ollama 플랫폼에서 제공하는 최첨단 시각 언어 모델을 사용하여 이미지에서 텍스트를 추출하는 강력한 광학 문자 인식(OCR) 툴킷입니다. 이 프로젝트는 Python 패키지로 제공되며 사용자 친화적인 Strea...

1 년 전

0102.3K

llms.txt Generator：快速抓取网站内容并，生成LLM训练文本数据集

llms.txt 생성기: 웹사이트 콘텐츠를 빠르게 캡처하고 LLM 교육 텍스트 데이터 세트를 생성합니다.

종합 소개 llmstxt-generator는 대규모 언어 모델링(LLM)의 학습 및 추론을 위한 고품질 텍스트 데이터 세트 준비에 특화된 전문 웹 콘텐츠 추출 및 통합 도구입니다. 이 도구는 Mendable AI에서 @firec...

1 년 전

052.6K

Doc2X: 문서 이미지 수식 인식 및 변환 도구, 다중 형식 변환 및 고정밀 번역 지원

종합 소개 Doc2X는 강력한 문서 이미지 수식 인식 및 변환 도구로, 효율적이고 지능적인 문서 처리 솔루션을 제공하기 위해 최선을 다하고 있습니다. 학술 연구 논문, 교과서, 기업 문서, 재무 보고서 등 어떤 문서든 Doc2X는 PDF 표를 정확하게 식별할 수 있으며...

1 년 전

085.7K

ExtractThinker: 문서를 구조화된 데이터로 추출하고 분류하여 문서 처리 프로세스를 최적화합니다.

포괄적인 소개 ExtractThinker는 LLM(대규모 언어 모델)을 사용하여 문서에서 구조화된 데이터를 추출하고 분류하는 유연한 문서 인텔리전스 도구로, 원활한 ORM과 같은 문서 처리 워크플로우를 제공합니다. Tess를 비롯한 다양한 문서 로더를 지원합니다.

1 년 전

058.8K

HtmlRAG：构建高效HTML检索增强生成系统，优化RAG系统中的HTML文档检索与处理

HtmlRAG: 효율적인 HTML 검색 강화 생성 시스템 구축, RAG 시스템에서 HTML 문서 검색 및 처리 최적화

종합 소개 HtmlRAG는 검색 증강 생성(RAG) 시스템에서 HTML 문서 처리를 개선하는 데 초점을 맞춘 혁신적인 오픈 소스 프로젝트입니다. 이 프로젝트는 RAG 시스템에서 HTML 서식을 사용하는 것이 일반 텍스트보다 더 효율적이라고 주장하는 새로운 접근 방식을 제시합니다. 이 프로젝트에는 완전한 ...

1 년 전

054.9K

ScrapeGraphAI：一个提示词搞定网页抓取，无需编写规则智能网页内容提取工具

스크랩그래프AI: 웹 크롤링을 위한 한 마디로, 규칙을 작성할 필요가 없는 지능형 웹 콘텐츠 추출 도구

포괄적인 소개 ScrapeGraphAI는 대규모 언어 모델링(LLM)과 직접 그래프 로직을 영리하게 결합하여 웹사이트와 로컬 문서를 위한 스크래핑 파이프라인을 생성하는 혁신적인 Python 웹 스크래핑 라이브러리입니다. 이 도구를 독특하게 만드는 것은 완벽한 수준의 단순성과 강력함입니다...

1 년 전

056.1K

비전 구문 분석: 시각 언어 모델을 사용하여 PDF 문서를 마크다운 형식으로 지능적으로 변환하기

포괄적 인 소개 Vision Parse는 혁신적인 문서 처리 도구로, 최첨단 시각 언어 모델 (비전 언어 모델) 기술, 고품질 마크 다운 형식으로 지능적으로 변환 된 PDF 문서 기능을 영리하게 결합합니다....

1 년 전

054.9K

Outlines：通过正则表达式、JSON或Pydantic模型生成结构化文本输出

개요: 정규식, JSON 또는 Pydantic 모델을 통해 구조화된 텍스트 출력 생성

개요 아웃라인은 구조화된 텍스트 생성을 통해 대규모 언어 모델(LLM)의 적용을 향상시키기 위해 dottxt-ai에서 개발한 오픈 소스 라이브러리입니다. 이 라이브러리는 OpenAI, 트랜스포머 등 다양한 모델 통합을 지원합니다.

1 년 전

081.8K

MarkItDown: 다양한 파일을 마크다운 형식으로 변환하는 Microsoft 문서 지능형 변환 도구

일반 소개 마크잇다운은 다양한 파일과 오피스 문서를 마크다운 형식으로 변환하기 위해 Microsoft에서 개발한 Python 도구입니다. 이 도구는 PDF, 파워포인트, 워드, 엑셀, 다이어그램 등 다양한 파일 형식을 지원합니다.

1 년 전

061.8K

Chunkr: 시각적 모델을 사용해 문서를 수집하고 텍스트 단락 계층 구조를 기반으로 지능형 청킹을 수행하는 올인원 서비스입니다.

일반 소개 Chunkr는 PDF, PPTX, DOCX 및 Excel 파일을 RAG(검색 증강 생성) 및 LLM(대규모 언어 모델링)에 사용하기 적합한 데이터로 변환하는 데 전용으로 사용되는 자체 호스팅 API입니다. 이 프로젝트는 Lumina에서 개발했습니다...

1 년 전

053.1K

GitIngest: 깃허브 코드 리포지토리를 LLM 이해에 적합한 텍스트로 빠르게 변환하기

일반 소개 GitIngest는 GitHub 코드 리포지토리를 대규모 언어 모델(LLM) 힌트에 적합한 텍스트로 변환하도록 설계된 오픈 소스 도구입니다. 사용자는 간단한 조작으로 모든 GitHub 리포지토리의 콘텐츠를 추출하고 LLM에 맞게 형식을 지정할 수 있습니다.

1 년 전

078.8K

E2M: 여러 파일 형식을 마크다운으로 변환하고, 균일한 문서 서식을 쉽게 달성하세요.

일반 소개 E2M(Everything to Markdown)은 다양한 파일 형식을 마크다운 형식으로 변환하도록 설계된 오픈 소스 Python 라이브러리입니다. 이 도구는 doc, docx, epub, html, htm, u... 등의 형식을 지원합니다.

1 년 전

059.5K

Docling：支持多种格式文档解析并导出为Markdown和JSON，PDF支持OCR

Docling: 다양한 형식의 문서 파싱 지원 마크다운 및 JSON으로 내보내기, PDF 지원 OCR

포괄적 인 소개 Docling은 PDF, DOCX, PPTX, XLSX, 이미지, HTML, AsciiDoc 및 Markdown을 포함한 광범위한 문서 형식을 지원하는 강력한 문서 구문 분석 및 내보내기 도구로, 이러한 문서를 구문 분석하고 내보낼 수 있습니다.

1 년 전

0104.6K

MegaParse：解析各类型文档为LLM可用数据，完整保留文档中的表格、图片等所有信息

MegaParse: 각 유형의 문서를 LLM 사용 가능한 데이터로 구문 분석하여 표와 그림 등 문서의 모든 정보를 전체적으로 보존합니다.

일반 소개 MegaParse는 대규모 언어 모델(LLM)의 데이터 처리를 최적화하도록 설계된 강력하고 다재다능한 문서 구문 분석 도구입니다. 텍스트, PDF, PowerPoint 프레젠테이션, Word 문서 등 어떤 작업을 하든 MegaParse...

1 년 전

061.4K

ViTLP: 일반적으로 복잡한 PDF 문서에서 구조화된 데이터를 추출하고 텍스트 레이아웃을 위한 사전 학습된 모델을 시각적으로 안내하여 생성합니다.

종합 소개 ViTLP(문서 인텔리전스를 위한 시각적 가이드 생성 텍스트 레이아웃 사전 교육)는 오픈 소스 프로젝트입니다...

최신 AI 리소스 # OCR # 문서 추출 및 정리

1 년 전

052.5K

Trieve: 검색, 추천 및 분석을 제공하는 풀서비스 RAG 클라우드 인프라

일반 소개 Trieve는 검색, 추천, RAG(검색 증강 생성) 및 분석을 위해 Devflow에서 개발한 포괄적인 인프라입니다. 이 플랫폼은 API를 통해 제공되며 AWS, GCP, K...에 대한 자체 호스팅을 지원합니다.

최신 AI 리소스 # AI 오픈 서비스 # 문서 추출 및 정리

1 년 전

059.4K

pdf2htmlEX：PDF无损转换为HTML，保持文本格式，适用于学术论文和杂志排版

pdf2htmlEX: PDF를 HTML로 무손실 변환하여 텍스트 서식을 유지하며 학술 논문 및 잡지 조판에 적합합니다.

포괄적 인 소개 pdf2htmlEX는 PDF 파일의 내용을 분석하고 HTML + CSS를 사용하여 시각 효과를 정확하게 복원하여 PDF 파일을 HTML 형식으로 변환하도록 설계된 오픈 소스 도구로, PDF 문서가 브라우저로 변환됩니다 ...

1 년 전

059.4K

Maxun: 웹 데이터를 자동으로 크롤링하여 API 또는 스프레드시트로 변환하는 코드가 필요 없는 오픈 소스 플랫폼입니다.

종합 소개 Maxun은 오픈 소스 노코드 웹 데이터 추출 플랫폼으로, 사용자가 몇 분 안에 로봇을 훈련시켜 웹 데이터를 자동으로 크롤링하고 이를 API 또는 스프레드시트로 변환할 수 있습니다. 이 플랫폼은 페이징과 스크롤을 지원하고, 웹사이트 레이아웃 변경에 적응하며, 강력한 데이터 크롤링 기능을 제공합니다.

1 년 전

060.4K

OmniParse: 문서/멀티미디어에서 비정형 데이터를 추출하여 정형 데이터로 구문 분석합니다.

일반 소개 OmniParse는 모든 비정형 데이터를 GenAI(생성 인공 지능) 프레임워크에 최적화된 정형화된 실행 가능한 데이터로 변환하도록 설계된 강력한 데이터 구문 분석 및 최적화 플랫폼입니다. 문서, 표, 이미지, 동영상, 오디오 파일 등 어떤 종류의 데이터를 작업하든 상관없습니다.

1 년 전

051.6K

Parsio: PDF, 이메일 및 기타 문서에서 주요 구조화된 데이터 자동 추출

일반 설명 Parsio는 PDF, 이메일 및 기타 문서에서 구조화된 데이터를 자동으로 추출하는 AI 기반 문서 및 이메일 데이터 추출 도구입니다. 이 플랫폼은 강력한 PDF 파서 및 OCR 기능을 제공하며 다음과 같은 다양한 문서 유형을 지원합니다.

최신 AI 리소스 # 문서 추출 및 정리

1 년 전

056.1K

촌키: 경량 RAG 텍스트 청크 라이브러리

개요 Chonkie는 개발자가 텍스트를 빠르고 쉽게 청킹할 수 있도록 설계된 가볍고 효율적인 RAG(검색 증강 생성) 텍스트 청킹 라이브러리입니다. 이 라이브러리는 다음과 같은 다양한 청킹 방법을 지원합니다.

1 년 전

071.1K

TextIn: 범용 문서 변환, PDF를 마크다운으로 변환하는 도구

종합 소개 TextIn은 사용자가 PDF 문서를 마크다운 형식으로 효율적으로 변환할 수 있도록 설계된 전문 PDF to 마크다운 도구입니다. 이 도구는 다양한 파일 형식, 작동하기 쉽고 빠른 변환 속도를 지원하며 원본 PDF 형식과 내용을 유지합니다....

최신 AI 리소스 # 문서 추출 및 정리

1 년 전

052.6K

文本提取API（text-extract-api）：视觉提取文本信息，匿名化的PDF提取工具

텍스트 추출 API(text-extract-api): 텍스트 정보의 시각적 추출, 익명화된 PDF 추출 도구

포괄적인 소개 텍스트 추출 API(text-extract-api)는 다양한 문서 형식(예: PDF, Word, PPTX 등)에서 콘텐츠를 추출하고 파싱하도록 설계된 강력한 도구입니다. 이 API는 최첨단 광학 문자 인식(OCR) 기술과 Ol ...

1 년 전

054.9K

Datalab：专用OCR识别AI模型，PDF转Markdown（开源/API）

Datalab: 전용 OCR 인식 AI 모델, PDF를 마크다운으로 변환(오픈 소스/API)

포괄적인 소개 Datalab은 OCR, 레이아웃 분석, PDF에서 마크다운으로의 변환 등에 중점을 둔 다양한 고급 AI 모델을 제공합니다. 이러한 모델은 고성능일 뿐만 아니라 사용하기 쉽고 오픈 소스입니다. 플랫폼의 마커 모델은 빠르고 정확하게 ...

1 년 전

063K

MinerU：PDF文档提取转换为多模态Markdown格式，支持电子书OCR扫描

MinerU: PDF 문서 추출 및 멀티모달 마크다운 포맷으로 변환, 전자책 OCR 스캔 지원

개요 MinerU는 상하이 인공 지능 연구소의 OpenDataLab 팀이 개발한 오픈 소스 데이터 추출 도구로, 복잡한 PDF 문서, 웹 페이지 및 전자책에서 콘텐츠를 효율적으로 추출하는 데 중점을 두고 있습니다. 이미지, 수식, 표 및 기타 요소가 포함된 멀티모달 PDF를 추출할 수 있습니다.

2 년 전

0135.5K

마커: PDF를 마크다운 오픈 소스 도구로 빠르게 변환하기

일반 설명 마커는 PDF 파일을 마크다운 형식으로 빠르고 정확하게 변환하도록 설계된 딥러닝 기반 문서 처리 도구입니다. 다양한 문서 유형을 지원하며 특히 책과 과학 논문을 변환하는 데 최적화되어 있으며, 마커는 헤더를 제거할 수 있습니다 ...

1 년 전

0122K

Mathpix: PDF 및 이미지 문서 구조화 변환 소프트웨어, 다중 터미널 지원

일반 설명 Mathpix는 연구자, 개발자 및 기업을 위해 설계된 강력한 AI 기반 문서 자동화 도구입니다. PDF와 이미지를 검색 가능하고 내보낼 수 있으며 기계가 읽을 수 있는 텍스트로 빠르고 정확하게 변환합니다.Mathpix는 다양한 기능을 제공합니다.

최신 AI 리소스 # AI 오픈 서비스 # 문서 추출 및 정리

2 년 전

0103.5K

비정형: 비정형 문서 전처리 오픈 소스, 비정형 데이터 처리 도구

포괄적인 소개 Unstructured-IO는 PDF, HTML, Word 문서 등과 같은 이미지 및 텍스트 문서를 처리하고 전처리하기 위한 오픈 소스 구성 요소 세트를 제공합니다. 주요 목표는 데이터 처리 워크플로우를 단순화하고 최적화하는 것으로, 특히 대규모 언어 모델(LL...

2 년 전

070.1K

리더 API: 웹 콘텐츠 추출 도구, HTML을 마크다운으로 변환하는 도구

일반 소개 Jina AI의 Reader 프로젝트는 https://r.jina.ai/转换成适合大型语言模型 접두사를 추가하여 모든 URL을 가져오는 오픈 소스 도구(Reader 오픈 소스 주소)입니다.

2 년 전

0331.9K

그게 아닙니다.