AIパーソナル・ラーニング
と実践的なガイダンス
ビーンバッグ・マースコード1
全66記事

タグ: ドキュメントの抽出とクリーニング 3ページ

llms.txt Generator:快速抓取网站内容并,生成LLM训练文本数据集-首席AI分享圈

llms.txt Generator: Webサイトのコンテンツを素早くキャプチャし、LLMトレーニング用テキストデータセットを生成します。

包括的な紹介 llmstxt-generatorは、大規模言語モデル(LLM)の学習と推論のための高品質なテキストデータセットを準備することに特化した、専門的なウェブコンテンツの抽出と統合ツールです。Mendable AIによって開発されたこのツールは、@firecrawl_devによって提供されたウェブクローリング技術とGPT-4-miniを使用しています。

Doc2X:文档图片公式识别与转换工具,支持多格式转换与高精度翻译-首席AI分享圈

Doc2X:文書画像式認識・変換ツール、マルチフォーマット変換と高精度翻訳をサポート

包括的な紹介 Doc2Xは、強力な文書画像数式認識と変換ツールで、効率的でインテリジェントな文書処理ソリューションを提供することを約束します。学術研究論文、教科書、企業文書、財務報告書など、Doc2XはPDF内の表や数式を正確に識別し、1つのキーで変換することができます...

ExtractThinker:提取和分类文档为结构化数据,优化文档处理流程-首席AI分享圈

ExtractThinker: ドキュメントを構造化データに抽出・分類し、ドキュメント処理プロセスを最適化します。

ExtractThinkerは、大規模言語モデル(LLM)を活用してドキュメントから構造化データを抽出・分類し、ORMのようなシームレスなドキュメント処理ワークフローを提供する、柔軟なドキュメントインテリジェンスツールです。Tesseract OCR、Azure Form Recog...など、複数のドキュメントローダーをサポートしています。

HtmlRAG:构建高效HTML检索增强生成系统,优化RAG系统中的HTML文档检索与处理-首席AI分享圈

HtmlRAG:効率的なHTML検索拡張生成システムの構築、RAGシステムにおけるHTML文書の検索と処理の最適化

包括的な紹介 HtmlRAGは、RAG(Retrieval Augmented Generation)システムにおけるHTML文書の処理を改善することに焦点を当てた、革新的なオープンソースプロジェクトである。このプロジェクトは、RAGシステムにおけるHTMLフォーマットの使用が、プレーンテキストよりも効率的であるという新しいアプローチを提案する。このプロジェクトは、HTML文書の検索から検索結果の表示までの完全なデータ処理フローを包含している。

ScrapeGraphAI:一个提示词搞定网页抓取,无需编写规则智能网页内容提取工具-首席AI分享圈

ScrapeGraphAI:ウェブクローリングのための単一のキューワード、ルールを書く必要のないインテリジェントなウェブコンテンツ抽出ツール

包括的な紹介 ScrapeGraphAIは、ラージ・ランゲージ・モデリング(LLM)とダイレクト・グラフ・ロジックを巧みに組み合わせ、ウェブサイトやローカル・ドキュメントのスクレイピング・パイプラインを作成する革新的なPythonウェブ・スクレイピング・ライブラリです。このツールのユニークさは、シンプルさとパワーの完璧なバランスにある。

Vision Parse:使用视觉语言模型将PDF文档智能转换为Markdown格式-首席AI分享圈

Vision Parse: 視覚言語モデルを用いたPDFドキュメントのMarkdownフォーマットへのインテリジェント変換

総合紹介 Vision Parseは、最先端の視覚言語モデル(Vision Language Models)技術を巧みに組み合わせ、PDF文書を高品質なMarkdown形式のコンテンツにインテリジェントに変換する画期的な文書処理ツールです。このツールは、一流の視覚言語モデルを幅広くサポートしています。

Outlines:通过正则表达式、JSON或Pydantic模型生成结构化文本输出-首席AI分享圈

アウトライン: 正規表現、JSON、Pydanticモデルによる構造化テキスト出力の生成

概論 Outlinesはdottxt-aiによって開発されたオープンソースライブラリで、構造化テキスト生成を通して大規模言語モデル(LLM)のアプリケーションを強化します。このライブラリは、OpenAI、トランスフォーマー、llama.cppなど、様々なモデルの統合をサポートしています。

MarkItDown:微软文档智能转换工具,转换各种文件为Markdown格式-首席AI分享圈

MarkItDown:Microsoftドキュメントインテリジェント変換ツール、様々なファイルをMarkdown形式に変換

一般的な紹介 MarkItDownはMicrosoftによって開発されたPythonツールで、様々なファイルやオフィス文書をMarkdown形式に変換するように設計されています。このツールは、PDF、PowerPoint、Word、Excel、画像(EXIFメタデータとOCR)、音声(EXIFメタデータと言語...

Chunkr:使用视觉模型进行文档摄取以及根据文本段落层级智能分块的一体化服务-首席AI分享圈

Chunkr: 文書の取り込みにビジュアルモデルを使用し、テキストの段落階層に基づくインテリジェントなチャンキングを行うオールインワンサービス。

包括的な紹介 Chunkrは、PDF、PPTX、DOCX、ExcelファイルをRAG(Retrieval Augmented Generation)やLLM(Large Language Modelling)で使用するのに適したデータに変換するためのセルフホストAPIです。このAPIはLumina AI Inc.によって開発され、ドキュメントの取り込みに高度なビジュアルモデルを使用しています。

GitIngest:快速将Github代码仓库转为适合LLM理解的文本-首席AI分享圈

GitIngest: GithubのコードリポジトリをLLMの理解に適したテキストに素早く変換

概要 GitIngestは、GitHubのコードリポジトリをLarge Language Model (LLM)のヒントに適したテキストに変換するために設計されたオープンソースツールです。簡単な操作で、GitHubリポジトリの内容をLLMに適したテキストに抽出・整形することができます。このツールは、ワンクリックで解析...

E2M:将多种文件格式转换为Markdown,轻松实现文档格式统一-首席AI分享圈

E2M: 複数のファイル形式をMarkdownに変換し、簡単に統一されたドキュメントフォーマットを実現する

一般的な紹介 E2M (Everything to Markdown)は、幅広いファイル形式をMarkdown形式に変換するために設計されたオープンソースのPythonライブラリです。このツールは、doc、docx、epub、html、htm、url、pdf、ppt、pptx、mp3、m4aを含む幅広いファイル形式をサポートしています。

MegaParse:解析各类型文档为LLM可用数据,完整保留文档中的表格、图片等所有信息-首席AI分享圈

MegaParse:各タイプのドキュメントをLLMで利用可能なデータに解析し、表や写真などドキュメント内のすべての情報をそのまま保存する。

一般的な紹介 MegaParseは、大規模言語モデル(LLM)のデータ処理を最適化するために設計された、強力で多機能な文書解析ツールです。MegaParseは、テキスト、PDF、PowerPointプレゼンテーション、Word文書など、どのような文書を処理する場合でも、簡単に、そして確実に解析処理を行うことができます。

ViTLP:排版复杂PDF文档提取结构化数据,视觉引导生成文本布局预训练模型-首席AI分享圈

ViTLP: 組版が複雑なPDF文書から構造化データを抽出し、テキストレイアウトのための事前学習済みモデルを視覚的に誘導して生成する

包括的な紹介 ViTLP(Visually Guided Generative Text-Layout Pre-training for Document Intelligence)は、視覚的にガイドされた生成的なテキストレイアウトの事前学習モデルを通じて、ドキュメントインテリジェンス処理を強化することを目的としたオープンソースプロジェクトです。このプロジェクトはVeason-silverbul...によって開発されました。

Trieve:提供搜索、推荐和分析的全方位RAG云基础设施-首席AI分享圈

Trieve:検索、レコメンデーション、アナリティクスを提供するフルサービスのRAGクラウドインフラストラクチャ

概要 Trieveは、検索、レコメンデーション、RAG(Retrieval Augmented Generation)、分析のために設計された、Devflow, Inc.によって開発された包括的なインフラストラクチャです。このプラットフォームはAPI経由で提供され、セルフホスティングをサポートし、AWS、GCP、Kubernetes、Docker Composeなどの環境で利用可能です。

pdf2htmlEX:PDF无损转换为HTML,保持文本格式,适用于学术论文和杂志排版-首席AI分享圈

pdf2htmlEX: テキストフォーマットを維持したまま、PDFをHTMLにロスレス変換。

包括的な紹介 pdf2htmlEXは、PDFファイルをHTML形式に変換するために設計されたオープンソースのツールです。PDFファイルの内容を分析し、正確にその視覚効果を復元するためにHTML + CSSを使用することにより、ブラウザにPDF文書をWebページ上で直接見ることができます。このツールは、特に多くのPDFファイルを含む場合に適しています。

Maxun:开源无代码平台,自动抓取网页数据并转换为API或电子表格-首席AI分享圈

Maxun:ウェブデータを自動的にクロールし、APIやスプレッドシートに変換するオープンソースのコード不要プラットフォーム

包括的な紹介 Maxunはオープンソースのコード不要のウェブデータ抽出プラットフォームで、ウェブデータを自動的にクロールしてAPIやスプレッドシートに変換するロボットを数分で訓練することができます。このプラットフォームは、ページングとスクロールをサポートし、ウェブサイトのレイアウトの変更に対応し、強力なデータクローリング機能を提供します。

OmniParse:从文档/多媒体中提取任何非结构化数据解析为结构化数据-首席AI分享圈

OmniParse: ドキュメント/マルチメディアからあらゆる非構造化データを抽出し、構造化データにパースします。

概要 OmniParseは、あらゆる非構造化データを構造化された実用的なデータに変換するために設計された強力なデータ解析および最適化プラットフォームで、GenAI(Generative Artificial Intelligence)フレームワーク用に最適化されています。文書、表、画像、動画、音声ファイル、ウェブコンテンツのいずれを扱う場合でも、OmniParseは...

Parsio:自动从 PDF、电子邮件和其他文档中提取关键结构化数据-首席AI分享圈

Parsio: PDF、電子メール、その他のドキュメントから主要な構造化データを自動的に抽出します。

概論 ParsioはAIベースの文書・電子メールデータ抽出ツールで、PDFや電子メール、その他の文書から構造化されたデータを自動的に抽出します。このプラットフォームは、強力なPDFパーサーとOCR機能を提供し、請求書、名刺、IDを含む幅広い種類のドキュメントをサポートします。

ja日本語