OCR

총 27개 기사

순서대로 정렬

VOP: 복잡한 도표와 수학 공식을 추출하기 위한 OCR 도구

종합 소개 다목적 OCR 프로그램은 복잡한 학술 및 교육 문서 작업을 위해 설계된 오픈 소스 광학 문자 인식(OCR) 도구입니다. PDF, 이미지 및 기타 문서에서 텍스트, 표, 수학 공식, 다이어그램 및 회로도를 추출하고 생성할 수 있습니다.

1 년 전

053.1K

PDF 콘텐츠를 자동으로 구문 분석하고 오픈 소스 서비스의 텍스트와 양식을 추출합니다.

종합 소개 PDF 문서의 레이아웃을 자동으로 분석하고 페이지의 텍스트, 제목, 이미지, 표, 수식 및 기타 요소를 식별하며 올바른 순서를 결정합니다. 이 도구는 OCR 기능을 지원하며 스캔한 PDF를 검색 가능한 텍스트로 변환할 수 있습니다. Docker에서 실행되며 두 가지 모델을 제공합니다...

1 년 전

060.2K

RolmOCR: 필기 및 기울어진 문자를 인식하는 문서 OCR 모델

일반 소개 RolmOCR은 Qwen2.5-VL-7B 시각 언어 모델을 기반으로 Reducto AI 팀에서 개발한 오픈 소스 광학 문자 인식(OCR) 도구입니다. 유사한 도구보다 이미지와 PDF 파일에서 텍스트를 더 빠르게 추출할 수 있습니다 ...

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # OCR

1 년 전

065.1K

uniOCR: 크로스 플랫폼 오픈 소스 텍스트 인식 도구

일반 소개 uniOCR은 mediar-ai 팀에서 개발한 오픈 소스 텍스트 인식 도구입니다. Rust 언어를 기반으로 하며 macOS, Windows 및 Linux 시스템을 지원합니다. 사용자는 이를 사용하여 사진에서 텍스트를 추출할 수 있습니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # OCR

1 년 전

081.7K

PDF Craft: PDF 스캔 문서를 마크다운 오픈 소스 도구로 변환하기

일반 소개 PDF Craft는 책의 PDF를 스캔하고 마크다운 형식으로 변환하기 위해 설계된 오픈 소스 도구입니다. oomol-lab에서 개발했으며 전자책을 정리하고 싶어하는 사용자를 위해 깃허브에서 호스팅됩니다. 이 도구는 이것을 통해 작동합니다 ...

1 년 전

082.8K

스몰도클링: 소량의 효율적인 문서 처리를 위한 시각적 언어 모델

포괄적인 소개 SmolDocling은 ds4sd 팀이 IBM과 협력하여 개발한 시각 언어 모델(VLM)로, SmolVLM-256M에 구축되어 Hugging Face 플랫폼에서 호스팅됩니다. 크기가 작고, 단지 ...

1 년 전

053K

미스트랄 OCR: 94.89% 전체 정확도, 1000페이지/30초, 단돈 1달러

인류 문명의 오랜 역사에서 정보를 획득하고 분석하는 방식의 모든 도약은 사회 발전에 크게 기여해 왔습니다. 고대 상형문자에서 휴대용 파피루스, 이후 인쇄기의 등장, 그리고 오늘날의 디지털 물결에 이르기까지 각 기술 혁신은 인류 지식 보급의 패러다임을 크게 확장했습니다....

1 년 전

061.1K

Ollama OCR: Ollama의 시각적 모델을 사용하여 이미지에서 텍스트 추출

종합 소개 Ollama OCR은 Ollama 플랫폼에서 제공하는 최첨단 시각 언어 모델을 사용하여 이미지에서 텍스트를 추출하는 강력한 광학 문자 인식(OCR) 툴킷입니다. 이 프로젝트는 Python 패키지로 제공되며 사용자 친화적인 Strea...

1 년 전

0106.4K

STranslate: 여러 번역 인터페이스와 OCR 기능을 갖춘 경량 번역 도구

일반 소개 STranslate는 WPF에서 개발한 즉시 사용 가능한 번역 및 OCR 도구입니다. 이 도구는 다양한 언어와 텍스트 유형에 대해 효율적이고 편리한 번역 및 광학 문자 인식(OCR) 기능을 제공하도록 설계되었습니다.STranslate는 개방형...

최신 AI 리소스 # AI 번역 # OCR

1 년 전

062.7K

VisionParser: 영수증 및 송장의 고정밀 처리를 위한 OCR 도구, API 사용 가능

일반 설명 VisionParser는 영수증과 송장 처리를 위해 설계된 OCR(광학 문자 인식) 툴입니다. 고급 생성 AI 기술을 통해 VisionParser는 모든 종류의 영수증과 송장을 구조화된 데이터로 빠르고 정확하게 변환하여 다음과 같은 작업을 수행할 수 있습니다.

최신 AI 리소스 # OCR

1 년 전

058.7K

Chunkr: 시각적 모델을 사용해 문서를 수집하고 텍스트 단락 계층 구조를 기반으로 지능형 청킹을 수행하는 올인원 서비스입니다.

일반 소개 Chunkr는 PDF, PPTX, DOCX 및 Excel 파일을 RAG(검색 증강 생성) 및 LLM(대규모 언어 모델링)에 사용하기 적합한 데이터로 변환하는 데 전용으로 사용되는 자체 호스팅 API입니다. 이 프로젝트는 Lumina에서 개발했습니다...

1 년 전

055.5K

Llama OCR：利用免费Llama 3.2 Vision接口，三行代码将图像转换为Markdown的OCR库

Llama OCR: 무료 Llama 3.2 Vision 인터페이스를 사용하여 이미지를 3줄의 코드로 마크다운으로 변환하는 OCR 라이브러리입니다.

일반 소개 Llama OCR은 문서를 마크다운 포맷으로 변환할 수 있는 Llama 3.2 Vision 기반의 OCR(광학 문자 인식) 라이브러리입니다. 이 라이브러리는 Nutlope에서 개발했으며 Together...

1 년 전

063K

Docling：支持多种格式文档解析并导出为Markdown和JSON，PDF支持OCR

Docling: 다양한 형식의 문서 파싱 지원 마크다운 및 JSON으로 내보내기, PDF 지원 OCR

포괄적 인 소개 Docling은 PDF, DOCX, PPTX, XLSX, 이미지, HTML, AsciiDoc 및 Markdown을 포함한 광범위한 문서 형식을 지원하는 강력한 문서 구문 분석 및 내보내기 도구로, 이러한 문서를 구문 분석하고 내보낼 수 있습니다.

1 년 전

0109.7K

ViTLP: 일반적으로 복잡한 PDF 문서에서 구조화된 데이터를 추출하고 텍스트 레이아웃을 위한 사전 학습된 모델을 시각적으로 안내하여 생성합니다.

종합 소개 ViTLP(문서 인텔리전스를 위한 시각적 가이드 생성 텍스트 레이아웃 사전 교육)는 오픈 소스 프로젝트입니다...

최신 AI 리소스 # OCR # 문서 추출 및 정리

1 년 전

054.7K

ScreenPipe：24小时收集录屏和操作信息并转换为本地知识库，通过AI助手对话、总结、回顾知识

ScreenPipe: 녹화된 화면 및 작동 정보를 24시간 수집하여 AI 어시스턴트 대화, 요약, 지식 검토를 통해 로컬 지식 베이스로 변환합니다.

일반 설명 ScreenPipe는 24시간 연중무휴로 화면 콘텐츠 녹화, 스크린샷 및 오디오 캡처에 중점을 둔 mediar-ai에서 개발한 AI 보조 도구입니다. rewind.ai와 cursor.com의 ...

1 년 전

067.5K

文本提取API（text-extract-api）：视觉提取文本信息，匿名化的PDF提取工具

텍스트 추출 API(text-extract-api): 텍스트 정보의 시각적 추출, 익명화된 PDF 추출 도구

포괄적인 소개 텍스트 추출 API(text-extract-api)는 다양한 문서 형식(예: PDF, Word, PPTX 등)에서 콘텐츠를 추출하고 파싱하도록 설계된 강력한 도구입니다. 이 API는 최첨단 광학 문자 인식(OCR) 기술과 Ol ...

1 년 전

057.9K

그림에서 Excel로 무료 변환 도구: 그림에서 복잡한 서식이 있는 표를 효율적으로 식별하고 Excel 파일로 변환합니다.

일반 설명 그림에서 엑셀로 무료 도구는 그림의 표 형식 데이터를 빠르고 정확하게 식별하고 엑셀 파일로 변환할 수 있는 효율적인 온라인 도구입니다. 이 도구는 JPG, PNG 등 다양한 이미지 형식을 지원하며 웹 페이지, iOS 앱, 안드로이드 앱에서 사용할 수 있습니다...

최신 AI 리소스 # OCR

1 년 전

079K

Datalab：专用OCR识别AI模型，PDF转Markdown（开源/API）

Datalab: 전용 OCR 인식 AI 모델, PDF를 마크다운으로 변환(오픈 소스/API)

포괄적인 소개 Datalab은 OCR, 레이아웃 분석, PDF에서 마크다운으로의 변환 등에 중점을 둔 다양한 고급 AI 모델을 제공합니다. 이러한 모델은 고성능일 뿐만 아니라 사용하기 쉽고 오픈 소스입니다. 플랫폼의 마커 모델은 빠르고 정확하게 ...

1 년 전

066.6K

eSearch: 다기능 크로스 플랫폼 OCR 도구, 통합 검색 | 번역 | 검색 맵 | 화면 녹화 및 기타 기능

일반 소개 eSearch는 xushengfeng에서 개발한 오픈 소스 크로스 플랫폼 스크린샷 도구로 Windows, macOS 및 Linux 시스템을 지원합니다. 스크린샷, OCR 인식, 검색, 번역, 매핑 등 다양한 기능이 통합되어 있습니다.

최신 AI 리소스 # OCR

2 년 전

059.3K

Surya: 전문 다국어 문서 OCR 도구, 오픈 소스 네이티브 배포

종합 소개 Surya는 90개 이상의 언어로 텍스트 인식을 지원하는 오픈 소스 다국어 문서 OCR 툴킷입니다. 줄 단위 텍스트 감지뿐만 아니라 레이아웃 분석, 읽기 순서 감지, 표 인식도 수행하며, Surya의 성능은 모든 유형의 클라우드 서비스와 비교할 수 있습니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # OCR

2 년 전

0120.9K

MinerU：PDF文档提取转换为多模态Markdown格式，支持电子书OCR扫描

MinerU: PDF 문서 추출 및 멀티모달 마크다운 포맷으로 변환, 전자책 OCR 스캔 지원

개요 MinerU는 상하이 인공 지능 연구소의 OpenDataLab 팀이 개발한 오픈 소스 데이터 추출 도구로, 복잡한 PDF 문서, 웹 페이지 및 전자책에서 콘텐츠를 효율적으로 추출하는 데 중점을 두고 있습니다. 이미지, 수식, 표 및 기타 요소가 포함된 멀티모달 PDF를 추출할 수 있습니다.

2 년 전

0141.6K

PixPin: 길고 역동적인 스크린샷, 내장된 기본 텍스트 인식(OCR)

일반 소개 PixPin은 사용자의 생산성을 향상시키기 위해 설계된 강력한 스크린샷 및 게시 도구입니다. 일상적인 사무용이든 전문가용이든, PixPin은 편리한 스크린샷, 붙여넣기, 긴 스크린샷, 텍스트 인식(OCR) 및 동적 스크린샷 기능을 제공합니다. 간단한 인터페이스와 ...

최신 AI 리소스 # OCR

2 년 전

0112.4K

GOT-OCR2.0: QWen2 0.5B 엔드투엔드 멀티모달 OCR 모델 기반

종합 소개 GOT-OCR2.0은 통합된 엔드투엔드 모델을 통해 OCR 기술을 OCR-2.0으로 발전시키는 것을 목표로 하는 StepStar가 공동 제안한 오픈 소스 광학 문자 인식(OCR) 모델입니다. 이 모델은 일반 텍스트 인식, 그래픽 인식 등 광범위한 OCR 작업을 지원합니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # OCR

2 년 전

066.1K

PaddleOCR: 80개 이상의 언어 인식을 지원하는 플라잉 패들 기반의 다국어 OCR 툴 라이브러리입니다.

종합 소개 PaddleOCR은 실용적이고 초경량 OCR 시스템을 제공하도록 설계된 PaddlePaddle 기반의 다국어 OCR 툴킷입니다. 80개 이상의 언어 인식을 지원하며 데이터 주석 및 합성 도구를 제공하여 현업에서 사용할 수 있도록 지원합니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # OCR

1 년 전

088.3K

Pix2Text: 오픈 소스 무료 이미지 텍스트 인식 도구

Pix2Text 일반 소개 Pix2Text(P2T)는 이미지 텍스트와 수학 공식 인식을 제공하는 Mathpix를 대체하도록 설계된 오픈 소스 무료 도구입니다. 사용자는 웹 버전을 통해 이 도구를 무료로 사용할 수 있으며, 하루에 최대 10,000개까지 인식할 수 있습니다....

최신 AI 리소스 # OCR

2 년 전

071.8K

Umi-OCR: 오픈 소스 오프라인 OCR 소프트웨어, 일괄 이미지 인식 및 PDF 인식

Umi-OCR 일반 소개 Umi-OCR은 스크린샷, 일괄 이미지 가져오기, PDF 문서 인식, 워터마크 및 머리글과 바닥글 제외, QR코드 스캔 및 생성을 지원하는 오픈 소스 무료 오프라인 OCR 소프트웨어입니다. 이 소프트웨어에는 Windows 및 Linux용 다국어 라이브러리가 내장되어 있습니다.

최신 AI 리소스 # OCR

2 년 전

0103.6K