문서 추출 및 정리

총 67개 기사
Chatlog:提取和查询微信聊天记录的开源工具

Chatlog: WeChat 채팅 로그 추출 및 쿼리를 위한 오픈 소스 도구

일반 소개 Chatlog는 WeChat의 로컬 데이터베이스에서 채팅 로그를 추출하고 쿼리하는 데 중점을 둔 오픈 소스 도구입니다. 이 도구는 WeChat 버전 3.x와 4.0을 지원하며, Windows와 macOS 시스템을 모두 포괄합니다. 사용자는 명령줄, 터미널 인터페이스 또는 H...
4개월 전
01.9K
DevDocs:快速抓取并整理技术文档的MCP服务

DevDocs: 기술 문서를 빠르게 크롤링하고 정리할 수 있는 MCP 서비스

일반 소개 DevDocs는 CyberAGI 팀에서 개발하고 GitHub에서 호스팅하는 완전 무료 오픈 소스 도구입니다. 프로그래머와 소프트웨어 개발자를 위해 설계된 이 도구는 기술 문서의 URL로 시작하여 관련 페이지를 자동으로 크롤링하고 이를 간결한 마...
4개월 전
01.4K
自动解析PDF内容并提取文字与表格的开源服务

PDF 콘텐츠를 자동으로 구문 분석하고 오픈 소스 서비스의 텍스트와 양식을 추출합니다.

종합 소개 PDF 문서의 레이아웃을 자동으로 분석하고 페이지의 텍스트, 제목, 이미지, 표, 수식 및 기타 요소를 식별하며 올바른 순서를 결정합니다. 이 도구는 OCR 기능을 지원하며 스캔한 PDF를 검색 가능한 텍스트로 변환할 수 있습니다. Docker에서 실행되며 두 가지 모델을 제공합니다...
4개월 전
01.1K
Cloudsquid:上传文档并描述要求智能提取结构化数据

Cloudsquid: 문서를 업로드하고 구조화된 데이터의 지능적인 추출을 위한 요구 사항을 설명하세요.

회사 소개 클라우드스퀴드는 2023년 독일 베를린에서 설립된 회사로, 인공지능으로 문서 처리를 간소화하는 데 주력하고 있습니다. 핵심 제품은 온라인 데이터 추출 플랫폼으로, 사용자가 PDF, 이미지, 오디오, 비디오 등의 문서를 업로드하고 추출해야 할 내용을 간단히 입력하기만 하면 됩니다.
5개월 전
01.2K
PDF Craft:PDF扫描文件转Markdown的开源工具

PDF Craft: PDF 스캔 문서를 마크다운 오픈 소스 도구로 변환하기

일반 소개 PDF Craft는 책의 PDF를 스캔하고 마크다운 형식으로 변환하기 위해 설계된 오픈 소스 도구입니다. oomol-lab에서 개발했으며 전자책을 정리하고 싶어하는 사용자를 위해 깃허브에서 호스팅됩니다. 이 도구는 이것을 통해 작동합니다 ...
5개월 전
01.3K
Supametas.AI:提取非结构化数据为LLM高可用数据

Supametas.AI: 비정형 데이터를 LLM 고가용성 데이터로 추출하기

포괄적인 소개 Supametas.AI는 웹 페이지, 문서, 오디오 및 비디오의 혼란을 AI가 사용할 수 있는 구조화된 데이터로 정리하는 데 특화된 데이터 처리 플랫폼입니다. 웹 링크, API, 로컬 파일 등 여러 소스에서 데이터를 수집한 다음 JSON으로 출력하는 것을 지원합니다.
5개월 전
01.1K
飞桨 PP-TableMagic:复杂表格结构化信息提取神器

플라잉 패들 PP-TableMagic: 복잡한 테이블을 위한 구조화된 정보 추출

표 인식의 목표는 이미지에서 표를 구문 분석하여 표 구조와 셀 위치를 정확하게 식별하고 이를 구조화된 표 형식(예: HTML)으로 변환하는 것입니다. 오늘날의 정보화 시대에는 여전히 많은 양의 중요한 표 데이터가 비정형화된 상태로 존재합니다(예: 통계표 그림이 있는 스캔 문서...).
5개월 전
02.3K
Mistral OCR:94.89%总体精度,1000 页/30秒,只需1美元

미스트랄 OCR: 94.89% 전체 정확도, 1000페이지/30초, 단돈 1달러

인류 문명의 오랜 역사에서 정보를 획득하고 분석하는 방식의 모든 도약은 사회 발전에 크게 기여해 왔습니다. 고대 상형문자에서 휴대용 파피루스, 이후 인쇄기의 등장, 그리고 오늘날의 디지털 물결에 이르기까지 각 기술 혁신은 인류 지식 보급의 패러다임을 크게 확장했습니다....
5개월 전
01.4K
PDF-Extract-Kit:提取复杂结构PDF内容的开源工具

PDF-Extract-Kit: 오픈 소스 도구의 PDF 콘텐츠의 복잡한 구조를 추출합니다.

포괄적 인 소개 PDF-Extract-Kit은 복잡하고 다양한 PDF 문서에서 고품질 콘텐츠를 효율적으로 추출하는 데 중점을두고 OpenDataLab 팀에서 개발 한 오픈 소스 프로젝트입니다. 고급 문서 구문 분석 기술을 통합하여 레이아웃 감지, 수식 인식을 지원합니다 ...
6개월 전
01.8K
Crawl4LLM:为LLM预训练提供的高效网页爬取工具

Crawl4LLM: LLM 사전 교육을 위한 효율적인 웹 크롤링 도구

종합 소개 Crawl4LLM은 칭화대학교와 카네기멜론대학교가 공동으로 개발한 오픈 소스 프로젝트로, 대규모 모델(LLM)의 사전 학습을 위한 웹 크롤링의 효율성을 최적화하는 데 중점을 두고 있습니다. 고품질 웹 데이터를 지능적으로 선별하여 비효율적인 크롤링을 크게 줄이며, 원래 크롤링해야 하는 1...
6개월 전
01.2K
CodeWeaver:将代码结构和内容自动生成Markdown文档

CodeWeaver: 코드 구조와 콘텐츠로부터 마크다운 문서를 자동으로 생성합니다.

일반 소개 CodeWeaver는 코드 라이브러리를 탐색하기 쉬운 하나의 마크다운 문서로 엮도록 설계된 명령줄 도구입니다. 디렉터리를 재귀적으로 스캔하고 각 파일의 내용을 코드 블록에 포함시켜 프로젝트의 파일 계층 구조를 구조적으로 표현합니다. 이 도구는...
6개월 전
01.2K
Instructor:简化大语言模型结构化输出工作流的Python库

인스트럭터: 대규모 언어 모델을 위한 구조화된 출력 워크플로우를 간소화하는 Python 라이브러리

일반 소개 인스트럭터는 대규모 언어 모델(LLM)의 구조화된 출력을 처리하기 위해 설계된 인기 있는 Python 라이브러리입니다. Pydantic을 기반으로 구축되어 데이터 관리를 위한 간단하고 투명하며 사용자 친화적인 API를 제공합니다....
6개월 전
01.4K
zChunk:基于Llama-70B的通用语义分块策略

zChunk: Llama-70B를 기반으로 하는 일반적인 시맨틱 청크 전략

종합 소개 zChunk는 제로엔트로피에서 개발한 새로운 청킹 전략으로, 일반적인 의미론적 청킹을 위한 솔루션을 제공하는 것을 목표로 합니다. 이 전략은 청크 생성을 유도하여 문서의 청크 프로세스를 최적화하고 정보 검색을 높은 수준으로 유지하도록 보장하는 Llama-70B 모델을 기반으로 합니다.
6개월 전
01.4K
Pulse:文档处理与数据提取的商业解决方案

Pulse: 문서 처리 및 데이터 추출을 위한 비즈니스 솔루션

개요 Pulse는 문서 처리 및 데이터 추출에 중점을 둔 지능형 플랫폼으로, 기업과 개발자가 다양하고 복잡한 문서를 효율적으로 파싱하고 처리할 수 있도록 설계되었습니다. 고급 컴퓨터 비전과 멀티모달 처리 기술을 통해 Pulse는 텍스트, 이미지, 표 등에서 데이터를 정확하게 추출할 수 있습니다.
6개월 전
01.2K
Rowfill:批量提取文档结构化信息并自动化分析

행 채우기: 문서에서 구조화된 정보 일괄 추출 및 자동 분석

일반 소개 Rowfill은 지식 근로자를 위해 설계된 오픈 소스 문서 처리 플랫폼입니다. 고급 인공 지능 기술을 사용하여 복잡한 문서, 이미지 및 PDF에서 데이터를 추출, 분석 및 처리하며, Rowfill은 네이티브 LLM(대규모 언어 모델)과 Ope...
6개월 전
01.3K
Yek:读取git仓库文本文件并快速分块,以供大模型使用

Yek: git 리포지토리 텍스트 파일을 읽고 대형 모델을 위해 빠르게 청크 처리하기

일반 소개 Yek은 저장소나 디렉터리에서 텍스트 파일을 읽고, 청크화하여 대규모 언어 모델(LLM)에서 사용하기 위해 직렬화하기 위한 빠른 Rust 기반 도구입니다. 이 도구는 기본적으로 .gitignore 규칙을 사용하여 불필요한 파일을 건너뛰고, ...
7개월 전
02K
UnDatas.IO:精准解析各类非结构化数据的API服务(付费)

UnDatas.IO: 다양한 유형의 비정형 데이터를 정확하게 파싱하기 위한 API 서비스(유료)

종합 소개 UnDatas.IO는 비정형 데이터 구문 분석 및 처리에 중점을 둔 플랫폼입니다. 고급 기술을 활용하여 문서 레이아웃을 자동으로 인식하고 표, 이미지, 수식, 텍스트를 분류하여 데이터 처리 프로세스를 크게 간소화합니다. 이 플랫폼은 데이터 정렬에 많은 시간을 절약해줄 뿐만 아니라...
7개월 전
01.4K
Zerox:PDF、DOCX、图像转换为Markdown,视觉模型高精度OCR

Zerox: PDF, DOCX, 마크다운으로 이미지 변환, 시각적 모델 고정밀 OCR

일반 소개 Zerox는 시각적 모델을 통해 PDF, DOCX, 이미지 및 기타 문서를 마크다운 형식으로 변환하도록 설계된 오픈 소스 프로젝트입니다. 이 프로젝트는 getomni-ai 팀에 의해 개발되었으며 간단하고 효율적인 OCR(광학 문자 인식) 솔루션을 제공합니다.Ze ...
7개월 전
01.6K
Parseur:自动化提取文档数据,各类文档中提取结构化文本

Parseur: 문서 데이터 자동 추출, 다양한 문서에서 구조화된 텍스트 추출

일반 설명 Parseur는 사용자가 PDF, 이메일 및 기타 문서에서 텍스트 데이터를 자동으로 추출할 수 있도록 설계된 선도적인 AI 데이터 추출 소프트웨어입니다. Parseur를 사용하면 비정형 데이터를 정형 데이터로 쉽게 변환하여 다양한 애플리케이션으로 전송할 수 있습니다.
7개월 전
01.7K
AI Functions:将输入内容转换为结构化输出的(API)服务

AI 함수: 입력 콘텐츠를 구조화된 출력으로 변환하는 (API) 서비스

종합 소개 Weco AI Functions는 사용자가 AI 함수를 빠르게 빌드하고 배포할 수 있도록 설계된 강력한 플랫폼입니다. 사용자는 작업을 간단히 설명하기만 하면 A/B 테스트와 관찰 모니터링을 통해 구조화된 출력 패턴을 생성할 수 있습니다. 이 플랫폼은 노코드 프로토타이핑을 지원합니다...
6개월 전
01.5K
NV Ingest:解析复杂格式文档,提取多模态数据为元数据和文本

NV Ingest: 복잡한 형식의 문서를 구문 분석하고 멀티모달 데이터를 메타데이터와 텍스트로 추출합니다.

포괄적인 소개 NV Ingest(NVIDIA Ingest)는 수십만 개의 복잡하고 지저분한 비정형 PDF 및 기타 엔터프라이즈 문서를 구문 분석하도록 설계된 조기 액세스 마이크로서비스 제품군입니다. 이러한 문서를 메타데이터 및 텍스트로 변환하여 검색에 포함할 수 있습니다.
7개월 전
02K
Trellis:转换非结构文档为结构化EXCEL格式数据,PDF快速转表格(付费)

트렐리스: 비정형 문서를 정형화된 EXCEL 형식 데이터로 변환, PDF로 빠르게 변환(유료)

일반 소개 Trellis는 복잡한 비정형 데이터 소스를 정형 SQL 형식으로 변환하는 데 중점을 둔 데이터 플랫폼입니다. 강력한 AI 엔진을 통해 재무 문서, 음성 통화, 이메일 등 다양한 데이터 소스를 처리하고 이를 사용할 수 있는 데이터로 변환할 수 있습니다.
7개월 전
01.4K
Doc2X:文档图片公式识别与转换工具,支持多格式转换与高精度翻译

Doc2X: 문서 이미지 수식 인식 및 변환 도구, 다중 형식 변환 및 고정밀 번역 지원

종합 소개 Doc2X는 강력한 문서 이미지 수식 인식 및 변환 도구로, 효율적이고 지능적인 문서 처리 솔루션을 제공하기 위해 최선을 다하고 있습니다. 학술 연구 논문, 교과서, 기업 문서, 재무 보고서 등 어떤 문서든 Doc2X는 PDF 표를 정확하게 식별할 수 있으며...
6개월 전
01.9K
ExtractThinker:提取和分类文档为结构化数据,优化文档处理流程

ExtractThinker: 문서를 구조화된 데이터로 추출하고 분류하여 문서 처리 프로세스를 최적화합니다.

포괄적인 소개 ExtractThinker는 LLM(대규모 언어 모델)을 사용하여 문서에서 구조화된 데이터를 추출하고 분류하는 유연한 문서 인텔리전스 도구로, 원활한 ORM과 같은 문서 처리 워크플로우를 제공합니다. Tess를 비롯한 다양한 문서 로더를 지원합니다.
7개월 전
01.7K
HtmlRAG:构建高效HTML检索增强生成系统,优化RAG系统中的HTML文档检索与处理

HtmlRAG: 효율적인 HTML 검색 강화 생성 시스템 구축, RAG 시스템에서 HTML 문서 검색 및 처리 최적화

종합 소개 HtmlRAG는 검색 증강 생성(RAG) 시스템에서 HTML 문서 처리를 개선하는 데 초점을 맞춘 혁신적인 오픈 소스 프로젝트입니다. 이 프로젝트는 RAG 시스템에서 HTML 서식을 사용하는 것이 일반 텍스트보다 더 효율적이라고 주장하는 새로운 접근 방식을 제시합니다. 이 프로젝트에는 완전한 ...
7개월 전
01.8K
ScrapeGraphAI:一个提示词搞定网页抓取,无需编写规则智能网页内容提取工具

스크랩그래프AI: 웹 크롤링을 위한 한 마디로, 규칙을 작성할 필요가 없는 지능형 웹 콘텐츠 추출 도구

포괄적인 소개 ScrapeGraphAI는 대규모 언어 모델링(LLM)과 직접 그래프 로직을 영리하게 결합하여 웹사이트와 로컬 문서를 위한 스크래핑 파이프라인을 생성하는 혁신적인 Python 웹 스크래핑 라이브러리입니다. 이 도구를 독특하게 만드는 것은 완벽한 수준의 단순성과 강력함입니다...
7개월 전
01.5K
Chunkr:使用视觉模型进行文档摄取以及根据文本段落层级智能分块的一体化服务

Chunkr: 시각적 모델을 사용해 문서를 수집하고 텍스트 단락 계층 구조를 기반으로 지능형 청킹을 수행하는 올인원 서비스입니다.

일반 소개 Chunkr는 PDF, PPTX, DOCX 및 Excel 파일을 RAG(검색 증강 생성) 및 LLM(대규모 언어 모델링)에 사용하기 적합한 데이터로 변환하는 데 전용으로 사용되는 자체 호스팅 API입니다. 이 프로젝트는 Lumina에서 개발했습니다...
8개월 전
02.7K
GitIngest:快速将Github代码仓库转为适合LLM理解的文本

GitIngest: 깃허브 코드 리포지토리를 LLM 이해에 적합한 텍스트로 빠르게 변환하기

일반 소개 GitIngest는 GitHub 코드 리포지토리를 대규모 언어 모델(LLM) 힌트에 적합한 텍스트로 변환하도록 설계된 오픈 소스 도구입니다. 사용자는 간단한 조작으로 모든 GitHub 리포지토리의 콘텐츠를 추출하고 LLM에 맞게 형식을 지정할 수 있습니다.
8개월 전
02.6K
MegaParse:解析各类型文档为LLM可用数据,完整保留文档中的表格、图片等所有信息

MegaParse: 각 유형의 문서를 LLM 사용 가능한 데이터로 구문 분석하여 표와 그림 등 문서의 모든 정보를 전체적으로 보존합니다.

일반 소개 MegaParse는 대규모 언어 모델(LLM)의 데이터 처리를 최적화하도록 설계된 강력하고 다재다능한 문서 구문 분석 도구입니다. 텍스트, PDF, PowerPoint 프레젠테이션, Word 문서 등 어떤 작업을 하든 MegaParse...
8개월 전
02.1K
pdf2htmlEX:PDF无损转换为HTML,保持文本格式,适用于学术论文和杂志排版

pdf2htmlEX: PDF를 HTML로 무손실 변환하여 텍스트 서식을 유지하며 학술 논문 및 잡지 조판에 적합합니다.

포괄적 인 소개 pdf2htmlEX는 PDF 파일의 내용을 분석하고 HTML + CSS를 사용하여 시각 효과를 정확하게 복원하여 PDF 파일을 HTML 형식으로 변환하도록 설계된 오픈 소스 도구로, PDF 문서가 브라우저로 변환됩니다 ...
9개월 전
01.7K
Maxun:开源无代码平台,自动抓取网页数据并转换为API或电子表格

Maxun: 웹 데이터를 자동으로 크롤링하여 API 또는 스프레드시트로 변환하는 코드가 필요 없는 오픈 소스 플랫폼입니다.

종합 소개 Maxun은 오픈 소스 노코드 웹 데이터 추출 플랫폼으로, 사용자가 몇 분 안에 로봇을 훈련시켜 웹 데이터를 자동으로 크롤링하고 이를 API 또는 스프레드시트로 변환할 수 있습니다. 이 플랫폼은 페이징과 스크롤을 지원하고, 웹사이트 레이아웃 변경에 적응하며, 강력한 데이터 크롤링 기능을 제공합니다.
7개월 전
01.9K
OmniParse:从文档/多媒体中提取任何非结构化数据解析为结构化数据

OmniParse: 문서/멀티미디어에서 비정형 데이터를 추출하여 정형 데이터로 구문 분석합니다.

일반 소개 OmniParse는 모든 비정형 데이터를 GenAI(생성 인공 지능) 프레임워크에 최적화된 정형화된 실행 가능한 데이터로 변환하도록 설계된 강력한 데이터 구문 분석 및 최적화 플랫폼입니다. 문서, 표, 이미지, 동영상, 오디오 파일 등 어떤 종류의 데이터를 작업하든 상관없습니다.
9개월 전
01.8K
Datalab:专用OCR识别AI模型,PDF转Markdown(开源/API)

Datalab: 전용 OCR 인식 AI 모델, PDF를 마크다운으로 변환(오픈 소스/API)

포괄적인 소개 Datalab은 OCR, 레이아웃 분석, PDF에서 마크다운으로의 변환 등에 중점을 둔 다양한 고급 AI 모델을 제공합니다. 이러한 모델은 고성능일 뿐만 아니라 사용하기 쉽고 오픈 소스입니다. 플랫폼의 마커 모델은 빠르고 정확하게 ...
9개월 전
02.1K
MinerU:PDF文档提取转换为多模态Markdown格式,支持电子书OCR扫描

MinerU: PDF 문서 추출 및 멀티모달 마크다운 포맷으로 변환, 전자책 OCR 스캔 지원

개요 MinerU는 상하이 인공 지능 연구소의 OpenDataLab 팀이 개발한 오픈 소스 데이터 추출 도구로, 복잡한 PDF 문서, 웹 페이지 및 전자책에서 콘텐츠를 효율적으로 추출하는 데 중점을 두고 있습니다. 이미지, 수식, 표 및 기타 요소가 포함된 멀티모달 PDF를 추출할 수 있습니다.
10개월 전
02.5K
Unstructured:开源预处理非结构化文档,无结构数据处理的利器

비정형: 비정형 문서 전처리 오픈 소스, 비정형 데이터 처리 도구

포괄적인 소개 Unstructured-IO는 PDF, HTML, Word 문서 등과 같은 이미지 및 텍스트 문서를 처리하고 전처리하기 위한 오픈 소스 구성 요소 세트를 제공합니다. 주요 목표는 데이터 처리 워크플로우를 단순화하고 최적화하는 것으로, 특히 대규모 언어 모델(LL...
11개월 전
02K