AIパーソナル・ラーニング
と実践的なガイダンス
豆包Marscode1
全60記事

タグ: ドキュメントの抽出とクリーニング 3ページ

Outlines:通过正则表达式、JSON或Pydantic模型生成结构化文本输出-首席AI分享圈

アウトライン: 正規表現、JSON、Pydanticモデルによる構造化テキスト出力の生成

概論 Outlinesはdottxt-aiによって開発されたオープンソースライブラリで、構造化テキスト生成を通して大規模言語モデル(LLM)のアプリケーションを強化します。このライブラリは、OpenAI、トランスフォーマー、llama.cppなど、様々なモデルの統合をサポートしています。

MarkItDown:微软文档智能转换工具,转换各种文件为Markdown格式-首席AI分享圈

MarkItDown:Microsoftドキュメントインテリジェント変換ツール、様々なファイルをMarkdown形式に変換

一般的な紹介 MarkItDownはMicrosoftによって開発されたPythonツールで、様々なファイルやオフィス文書をMarkdown形式に変換するように設計されています。このツールは、PDF、PowerPoint、Word、Excel、画像(EXIFメタデータとOCR)、音声(EXIFメタデータと言語...

Chunkr:使用视觉模型进行文档摄取以及根据文本段落层级智能分块的一体化服务-首席AI分享圈

Chunkr: 文書の取り込みにビジュアルモデルを使用し、テキストの段落階層に基づくインテリジェントなチャンキングを行うオールインワンサービス。

包括的な紹介 Chunkrは、PDF、PPTX、DOCX、ExcelファイルをRAG(Retrieval Augmented Generation)やLLM(Large Language Modelling)で使用するのに適したデータに変換するためのセルフホストAPIです。このAPIはLumina AI Inc.によって開発され、ドキュメントの取り込みに高度なビジュアルモデルを使用しています。

GitIngest:快速将Github代码仓库转为适合LLM理解的文本-首席AI分享圈

GitIngest: GithubのコードリポジトリをLLMの理解に適したテキストに素早く変換

概要 GitIngestは、GitHubのコードリポジトリをLarge Language Model (LLM)のヒントに適したテキストに変換するために設計されたオープンソースツールです。簡単な操作で、GitHubリポジトリの内容をLLMに適したテキストに抽出・整形することができます。このツールは、ワンクリックで解析...

E2M:将多种文件格式转换为Markdown,轻松实现文档格式统一-首席AI分享圈

E2M: 複数のファイル形式をMarkdownに変換し、簡単に統一されたドキュメントフォーマットを実現する

一般的な紹介 E2M (Everything to Markdown)は、幅広いファイル形式をMarkdown形式に変換するために設計されたオープンソースのPythonライブラリです。このツールは、doc、docx、epub、html、htm、url、pdf、ppt、pptx、mp3、m4aを含む幅広いファイル形式をサポートしています。

MegaParse:解析各类型文档为LLM可用数据,完整保留文档中的表格、图片等所有信息-首席AI分享圈

MegaParse:各タイプのドキュメントをLLMで利用可能なデータに解析し、表や写真などドキュメント内のすべての情報をそのまま保存する。

一般的な紹介 MegaParseは、大規模言語モデル(LLM)のデータ処理を最適化するために設計された、強力で多機能な文書解析ツールです。MegaParseは、テキスト、PDF、PowerPointプレゼンテーション、Word文書など、どのような文書を処理する場合でも、簡単に、そして確実に解析処理を行うことができます。

ViTLP:排版复杂PDF文档提取结构化数据,视觉引导生成文本布局预训练模型-首席AI分享圈

ViTLP: 組版が複雑なPDF文書から構造化データを抽出し、テキストレイアウトのための事前学習済みモデルを視覚的に誘導して生成する

包括的な紹介 ViTLP(Visually Guided Generative Text-Layout Pre-training for Document Intelligence)は、視覚的にガイドされた生成的なテキストレイアウトの事前学習モデルを通じて、ドキュメントインテリジェンス処理を強化することを目的としたオープンソースプロジェクトです。このプロジェクトはVeason-silverbul...によって開発されました。

Trieve:提供搜索、推荐和分析的全方位RAG云基础设施-首席AI分享圈

Trieve:検索、レコメンデーション、アナリティクスを提供するフルサービスのRAGクラウドインフラストラクチャ

概要 Trieveは、検索、レコメンデーション、RAG(Retrieval Augmented Generation)、分析のために設計された、Devflow, Inc.によって開発された包括的なインフラストラクチャです。このプラットフォームはAPI経由で提供され、セルフホスティングをサポートし、AWS、GCP、Kubernetes、Docker Composeなどの環境で利用可能です。

pdf2htmlEX:PDF无损转换为HTML,保持文本格式,适用于学术论文和杂志排版-首席AI分享圈

pdf2htmlEX: テキストフォーマットを維持したまま、PDFをHTMLにロスレス変換。

包括的な紹介 pdf2htmlEXは、PDFファイルをHTML形式に変換するために設計されたオープンソースのツールです。PDFファイルの内容を分析し、正確にその視覚効果を復元するためにHTML + CSSを使用することにより、ブラウザにPDF文書をWebページ上で直接見ることができます。このツールは、特に多くのPDFファイルを含む場合に適しています。

Maxun:开源无代码平台,自动抓取网页数据并转换为API或电子表格-首席AI分享圈

Maxun:ウェブデータを自動的にクロールし、APIやスプレッドシートに変換するオープンソースのコード不要プラットフォーム

包括的な紹介 Maxunはオープンソースのコード不要のウェブデータ抽出プラットフォームで、ウェブデータを自動的にクロールしてAPIやスプレッドシートに変換するロボットを数分で訓練することができます。このプラットフォームは、ページングとスクロールをサポートし、ウェブサイトのレイアウトの変更に対応し、強力なデータクローリング機能を提供します。

OmniParse:从文档/多媒体中提取任何非结构化数据解析为结构化数据-首席AI分享圈

OmniParse: ドキュメント/マルチメディアからあらゆる非構造化データを抽出し、構造化データにパースします。

概要 OmniParseは、あらゆる非構造化データを構造化された実用的なデータに変換するために設計された強力なデータ解析および最適化プラットフォームで、GenAI(Generative Artificial Intelligence)フレームワーク用に最適化されています。文書、表、画像、動画、音声ファイル、ウェブコンテンツのいずれを扱う場合でも、OmniParseは...

Parsio:自动从 PDF、电子邮件和其他文档中提取关键结构化数据-首席AI分享圈

Parsio: PDF、電子メール、その他のドキュメントから主要な構造化データを自動的に抽出します。

概論 ParsioはAIベースの文書・電子メールデータ抽出ツールで、PDFや電子メール、その他の文書から構造化されたデータを自動的に抽出します。このプラットフォームは、強力なPDFパーサーとOCR機能を提供し、請求書、名刺、IDを含む幅広い種類のドキュメントをサポートします。

Chonkie: 軽量なRAGテキストチャンキングライブラリ

一般的な紹介 Chonkieは軽量で効率的なRAG(Retrieval-Augmented Generation)テキストチャンキングライブラリで、開発者が素早く簡単にテキストをチャンキングできるように設計されています。このライブラリは、トークン、単語、センテンス、意味的類似性に基づいたチャンキングなど、様々なチャンキング手法をサポートしています。

TextIn:通用文档转换,PDF转Markdown工具-首席AI分享圈

TextIn: ユニバーサルドキュメント変換、PDF to Markdownツール

包括的な紹介 TextInは、ユーザーが効率的にPDF文書をMarkdown形式に変換するために設計された専門的なPDF to Markdownツールです。このツールは様々なファイル形式をサポートし、操作が簡単で、変換速度が速く、元のPDF形式と内容を保持することができ、文書処理の効率を向上させます。それが...

文本提取API(text-extract-api):视觉提取文本信息,匿名化的PDF提取工具-首席AI分享圈

テキスト抽出 API (text-extract-api): テキスト情報の視覚的抽出、匿名化 PDF 抽出ツール

概要 テキスト抽出API(text-extract-api)は、様々な文書形式(PDF、Word、PPTXなど)からコンテンツを抽出・解析するために設計された強力なツールです。このAPIは、最先端の光学式文字認識(OCR)技術とOllamaがサポートするモデルを利用し、あらゆる文書や画像を...

Datalab:专用OCR识别AI模型,PDF转Markdown(开源/API)-首席AI分享圈

Datalab:専用のOCR認識AIモデル、PDF to Markdown(オープンソース/API)

包括的な紹介 Datalabは、OCR、レイアウト分析、PDFからMarkdownへの変換などに焦点を当てた高度なAIモデルを幅広く提供しています。これらのモデルは高性能であるだけでなく、使いやすくオープンソースです。プラットフォーム上のMarkerモデルは、表を含むPDFを素早く正確にMarkdownに変換することができます...

MinerU:PDF文档提取转换为多模态Markdown格式,支持电子书OCR扫描-首席AI分享圈

MinerU: PDFドキュメントの抽出とマルチモーダルMarkdownフォーマットへの変換、電子書籍OCRスキャンのサポート

包括的な紹介 MinerUは、上海人工知能研究所のOpenDataLabチームによって開発されたオープンソースのデータ抽出ツールで、複雑なPDF文書、ウェブページ、電子ブックからコンテンツを効率的に抽出することに重点を置いています。画像、数式、表、その他の要素を含むマルチモーダルPDFドキュメントを、分析しやすいm...

Marker:快速将PDF转换为Markdown的开源工具-首席AI分享圈

Marker:PDFをMarkdownに素早く変換するオープンソースツール

一般的な紹介 Markerは、PDFファイルをMarkdown形式に迅速かつ正確に変換するために設計されたディープラーニングベースの文書処理ツールです。幅広い種類のドキュメントをサポートし、特に書籍や科学論文の変換に最適化されています。Markerは、ヘッダーやフッターなどの冗長なコンテンツを削除し、表や...

ja日本語