中国初のAI IDE インテリジェント・プログラミング・ソフトウェア 🚀体験への招待 Trae 中国語版ダウンロードDeepSeek-R1とDoubao-proは無制限で利用できる！

全66記事

タグ: ドキュメントの抽出とクリーニング 3ページ

llms.txt Generator：快速抓取网站内容并，生成LLM训练文本数据集-首席AI分享圈

llms.txt Generator: Webサイトのコンテンツを素早くキャプチャし、LLMトレーニング用テキストデータセットを生成します。

包括的な紹介 llmstxt-generatorは、大規模言語モデル（LLM）の学習と推論のための高品質なテキストデータセットを準備することに特化した、専門的なウェブコンテンツの抽出と統合ツールです。Mendable AIによって開発されたこのツールは、@firecrawl_devによって提供されたウェブクローリング技術とGPT-4-miniを使用しています。

2025-01-05AIツール AIオープンソースプロジェクトドキュメントの抽出とクリーニング

Doc2X：文档图片公式识别与转换工具，支持多格式转换与高精度翻译-首席AI分享圈

Doc2X：文書画像式認識・変換ツール、マルチフォーマット変換と高精度翻訳をサポート

包括的な紹介 Doc2Xは、強力な文書画像数式認識と変換ツールで、効率的でインテリジェントな文書処理ソリューションを提供することを約束します。学術研究論文、教科書、企業文書、財務報告書など、Doc2XはPDF内の表や数式を正確に識別し、1つのキーで変換することができます...

2025-01-02AIツール AIオープンサービス AI翻訳ドキュメントの抽出とクリーニング

Trae中国語版ダウンロードへの最初の招待：登録後、DeepSeek-R1を無制限に使用できます！

ビルダーインテリジェントプログラミングモード、DeepSeek-R1とDeepSeek-V3の無制限の使用、海外版よりも滑らかな経験を有効にします。ただ、中国語のコマンドを入力し、プログラミングの知識はまた、独自のアプリケーションを書くためにゼロしきい値をすることはできません。

2025-04-16

ExtractThinker：提取和分类文档为结构化数据，优化文档处理流程-首席AI分享圈

ExtractThinker: ドキュメントを構造化データに抽出・分類し、ドキュメント処理プロセスを最適化します。

ExtractThinkerは、大規模言語モデル（LLM）を活用してドキュメントから構造化データを抽出・分類し、ORMのようなシームレスなドキュメント処理ワークフローを提供する、柔軟なドキュメントインテリジェンスツールです。Tesseract OCR、Azure Form Recog...など、複数のドキュメントローダーをサポートしています。

2025-01-02AIツール AIオープンソースプロジェクトドキュメントの抽出とクリーニング

HtmlRAG：构建高效HTML检索增强生成系统，优化RAG系统中的HTML文档检索与处理-首席AI分享圈

HtmlRAG：効率的なHTML検索拡張生成システムの構築、RAGシステムにおけるHTML文書の検索と処理の最適化

包括的な紹介 HtmlRAGは、RAG（Retrieval Augmented Generation）システムにおけるHTML文書の処理を改善することに焦点を当てた、革新的なオープンソースプロジェクトである。このプロジェクトは、RAGシステムにおけるHTMLフォーマットの使用が、プレーンテキストよりも効率的であるという新しいアプローチを提案する。このプロジェクトは、HTML文書の検索から検索結果の表示までの完全なデータ処理フローを包含している。

2025-01-02AIツールドキュメントの抽出とクリーニング知識検索とRAGフレームワーク

ScrapeGraphAI：一个提示词搞定网页抓取，无需编写规则智能网页内容提取工具-首席AI分享圈

ScrapeGraphAI：ウェブクローリングのための単一のキューワード、ルールを書く必要のないインテリジェントなウェブコンテンツ抽出ツール

包括的な紹介 ScrapeGraphAIは、ラージ・ランゲージ・モデリング（LLM）とダイレクト・グラフ・ロジックを巧みに組み合わせ、ウェブサイトやローカル・ドキュメントのスクレイピング・パイプラインを作成する革新的なPythonウェブ・スクレイピング・ライブラリです。このツールのユニークさは、シンプルさとパワーの完璧なバランスにある。

2025-01-01AIツール AIオープンソースプロジェクトドキュメントの抽出とクリーニング

Vision Parse：使用视觉语言模型将PDF文档智能转换为Markdown格式-首席AI分享圈

Vision Parse: 視覚言語モデルを用いたPDFドキュメントのMarkdownフォーマットへのインテリジェント変換

総合紹介 Vision Parseは、最先端の視覚言語モデル(Vision Language Models)技術を巧みに組み合わせ、PDF文書を高品質なMarkdown形式のコンテンツにインテリジェントに変換する画期的な文書処理ツールです。このツールは、一流の視覚言語モデルを幅広くサポートしています。

2024-12-26AIツール AIオープンソースプロジェクトドキュメントの抽出とクリーニング

Outlines：通过正则表达式、JSON或Pydantic模型生成结构化文本输出-首席AI分享圈

アウトライン: 正規表現、JSON、Pydanticモデルによる構造化テキスト出力の生成

概論 Outlinesはdottxt-aiによって開発されたオープンソースライブラリで、構造化テキスト生成を通して大規模言語モデル(LLM)のアプリケーションを強化します。このライブラリは、OpenAI、トランスフォーマー、llama.cppなど、様々なモデルの統合をサポートしています。

2024-12-19AIツール AIオープンソースプロジェクトドキュメントの抽出とクリーニング

MarkItDown：微软文档智能转换工具，转换各种文件为Markdown格式-首席AI分享圈

MarkItDown：Microsoftドキュメントインテリジェント変換ツール、様々なファイルをMarkdown形式に変換

一般的な紹介 MarkItDownはMicrosoftによって開発されたPythonツールで、様々なファイルやオフィス文書をMarkdown形式に変換するように設計されています。このツールは、PDF、PowerPoint、Word、Excel、画像（EXIFメタデータとOCR）、音声（EXIFメタデータと言語...

2024-12-14AIツール AIオープンソースプロジェクトドキュメントの抽出とクリーニング

Chunkr：使用视觉模型进行文档摄取以及根据文本段落层级智能分块的一体化服务-首席AI分享圈

Chunkr: 文書の取り込みにビジュアルモデルを使用し、テキストの段落階層に基づくインテリジェントなチャンキングを行うオールインワンサービス。

包括的な紹介 Chunkrは、PDF、PPTX、DOCX、ExcelファイルをRAG（Retrieval Augmented Generation）やLLM（Large Language Modelling）で使用するのに適したデータに変換するためのセルフホストAPIです。このAPIはLumina AI Inc.によって開発され、ドキュメントの取り込みに高度なビジュアルモデルを使用しています。

2024-12-13AIツール AIオープンソースプロジェクト光学式文字認識ドキュメントの抽出とクリーニング

GitIngest：快速将Github代码仓库转为适合LLM理解的文本-首席AI分享圈

GitIngest: GithubのコードリポジトリをLLMの理解に適したテキストに素早く変換

概要 GitIngestは、GitHubのコードリポジトリをLarge Language Model (LLM)のヒントに適したテキストに変換するために設計されたオープンソースツールです。簡単な操作で、GitHubリポジトリの内容をLLMに適したテキストに抽出・整形することができます。このツールは、ワンクリックで解析...

2024-12-12AIツール AIオープンソースプロジェクトドキュメントの抽出とクリーニング

E2M：将多种文件格式转换为Markdown，轻松实现文档格式统一-首席AI分享圈

E2M: 複数のファイル形式をMarkdownに変換し、簡単に統一されたドキュメントフォーマットを実現する

一般的な紹介 E2M (Everything to Markdown)は、幅広いファイル形式をMarkdown形式に変換するために設計されたオープンソースのPythonライブラリです。このツールは、doc、docx、epub、html、htm、url、pdf、ppt、pptx、mp3、m4aを含む幅広いファイル形式をサポートしています。

2024-12-11AIツール AIオープンソースプロジェクトドキュメントの抽出とクリーニング

Docling：支持多种格式文档解析并导出为Markdown和JSON，PDF支持OCR-首席AI分享圈

Docling：様々なフォーマットのドキュメントをサポート MarkdownやJSONへの解析とエクスポート PDFサポート OCR

包括的な紹介 Doclingは、PDF、DOCX、PPTX、XLSX、画像、HTML、AsciiDocおよびMarkdownを含む幅広い文書形式をサポートする、強力な文書解析およびエクスポートツールです。

2024-12-09AIツール AIオープンソースプロジェクト光学式文字認識ドキュメントの抽出とクリーニング

MegaParse：解析各类型文档为LLM可用数据，完整保留文档中的表格、图片等所有信息-首席AI分享圈

MegaParse：各タイプのドキュメントをLLMで利用可能なデータに解析し、表や写真などドキュメント内のすべての情報をそのまま保存する。

一般的な紹介 MegaParseは、大規模言語モデル（LLM）のデータ処理を最適化するために設計された、強力で多機能な文書解析ツールです。MegaParseは、テキスト、PDF、PowerPointプレゼンテーション、Word文書など、どのような文書を処理する場合でも、簡単に、そして確実に解析処理を行うことができます。

2024-12-04AIツール AIオープンソースプロジェクトドキュメントの抽出とクリーニング

ViTLP：排版复杂PDF文档提取结构化数据，视觉引导生成文本布局预训练模型-首席AI分享圈

ViTLP: 組版が複雑なPDF文書から構造化データを抽出し、テキストレイアウトのための事前学習済みモデルを視覚的に誘導して生成する

包括的な紹介 ViTLP（Visually Guided Generative Text-Layout Pre-training for Document Intelligence）は、視覚的にガイドされた生成的なテキストレイアウトの事前学習モデルを通じて、ドキュメントインテリジェンス処理を強化することを目的としたオープンソースプロジェクトです。このプロジェクトはVeason-silverbul...によって開発されました。

2024-12-03AIツール光学式文字認識ドキュメントの抽出とクリーニング

Trieve：検索、レコメンデーション、アナリティクスを提供するフルサービスのRAGクラウドインフラストラクチャ

概要 Trieveは、検索、レコメンデーション、RAG（Retrieval Augmented Generation）、分析のために設計された、Devflow, Inc.によって開発された包括的なインフラストラクチャです。このプラットフォームはAPI経由で提供され、セルフホスティングをサポートし、AWS、GCP、Kubernetes、Docker Composeなどの環境で利用可能です。

2024-12-03AIツール AIオープンサービスドキュメントの抽出とクリーニング

pdf2htmlEX：PDF无损转换为HTML，保持文本格式，适用于学术论文和杂志排版-首席AI分享圈

pdf2htmlEX: テキストフォーマットを維持したまま、PDFをHTMLにロスレス変換。

包括的な紹介 pdf2htmlEXは、PDFファイルをHTML形式に変換するために設計されたオープンソースのツールです。PDFファイルの内容を分析し、正確にその視覚効果を復元するためにHTML + CSSを使用することにより、ブラウザにPDF文書をWebページ上で直接見ることができます。このツールは、特に多くのPDFファイルを含む場合に適しています。

2024-11-26AIツール AIオープンソースプロジェクトドキュメントの抽出とクリーニング

Maxun：开源无代码平台，自动抓取网页数据并转换为API或电子表格-首席AI分享圈

Maxun：ウェブデータを自動的にクロールし、APIやスプレッドシートに変換するオープンソースのコード不要プラットフォーム

包括的な紹介 Maxunはオープンソースのコード不要のウェブデータ抽出プラットフォームで、ウェブデータを自動的にクロールしてAPIやスプレッドシートに変換するロボットを数分で訓練することができます。このプラットフォームは、ページングとスクロールをサポートし、ウェブサイトのレイアウトの変更に対応し、強力なデータクローリング機能を提供します。

2024-11-22AIツール AIオープンソースプロジェクトドキュメントの抽出とクリーニング

OmniParse：从文档/多媒体中提取任何非结构化数据解析为结构化数据-首席AI分享圈

OmniParse: ドキュメント/マルチメディアからあらゆる非構造化データを抽出し、構造化データにパースします。

概要 OmniParseは、あらゆる非構造化データを構造化された実用的なデータに変換するために設計された強力なデータ解析および最適化プラットフォームで、GenAI（Generative Artificial Intelligence）フレームワーク用に最適化されています。文書、表、画像、動画、音声ファイル、ウェブコンテンツのいずれを扱う場合でも、OmniParseは...

2024-11-15AIツール AIオープンソースプロジェクトドキュメントの抽出とクリーニング

Parsio：自动从 PDF、电子邮件和其他文档中提取关键结构化数据-首席AI分享圈

Parsio: PDF、電子メール、その他のドキュメントから主要な構造化データを自動的に抽出します。

概論 ParsioはAIベースの文書・電子メールデータ抽出ツールで、PDFや電子メール、その他の文書から構造化されたデータを自動的に抽出します。このプラットフォームは、強力なPDFパーサーとOCR機能を提供し、請求書、名刺、IDを含む幅広い種類のドキュメントをサポートします。

2024-11-14AIツールドキュメントの抽出とクリーニング

前ページ
1
2
3
4
次ページ
全4ページ