AIパーソナル・ラーニング
と実践的なガイダンス
豆包Marscode1
全60記事

タグ: ドキュメントの抽出とクリーニング 4ページ

Mathpix:PDF和图片文档结构化转换软件,支持多终端-首席AI分享圈

Mathpix:PDFと画像ドキュメントの構造変換ソフトウェア、マルチターミナルをサポート

概要 Mathpixは、研究者、開発者、および企業向けに設計された、強力なAI駆動型文書自動化ツールです。Mathpixは、PDFや画像を検索可能、エクスポート可能、機械可読テキストに迅速かつ正確に変換します。Mathpixは、数式認識、LaT...

Unstructured:开源预处理非结构化文档,无结构数据处理的利器-首席AI分享圈

非構造化:オープンソースの非構造化ドキュメントの前処理、非構造化データ処理ツール

包括的な紹介 Unstructured-IOは、PDF、HTML、Word文書などの画像やテキスト文書の処理と前処理のためのオープンソースコンポーネントのセットを提供します。その主な目的は、特に大規模言語モデル(LLM)アプリケーションをサポートするために、データ処理ワークフローを簡素化し最適化することです。

Reader API:网页内容提取工具,HTML转换为Markdown格式-首席AI分享圈

Reader API: ウェブコンテンツ抽出ツール、HTMLからMarkdownへの変換

包括的な紹介 Jina AIのReaderプロジェクトはオープンソースツール(Readerオープンソースアドレス)であり、接頭辞https://r.jina.ai/转换成适合大型语言模型(Large Language Models、LLM)入力形式を追加することにより、任意のURLにすることができ、動的ストリーミングモードと画像の読み取りをサポートしています...

ja日本語