AIパーソナル・ラーニング
と実践的なガイダンス
ビーンバッグ・マースコード1
全66記事

タグ: ドキュメントの抽出とクリーニング

Chatlog:提取和查询微信聊天记录的开源工具-首席AI分享圈

Chatlog: WeChatのチャットログを抽出・照会するオープンソースツール

一般的な紹介 チャットログは、WeChatのローカルデータベースからチャットログを抽出し、照会することに特化したオープンソースツールです。WeChatバージョン3.xと4.0をサポートし、WindowsとmacOSシステムをカバーしています。ユーザーはコマンドライン、ターミナルインターフェイス、HTTP API操作を使って、チャットログ、連絡先を見ることができます。

VOP:提取复杂图表与数学公式的OCR工具-首席AI分享圈

VOP: 複雑な図や数式を抽出するOCRツール

包括的な紹介 万能OCRプログラムは、複雑な学術文書や教育文書を処理するために設計されたオープンソースの光学式文字認識(OCR)ツールです。PDF、画像、その他の文書からテキスト、表、数式、図、回路図を抽出し、機械学習トレーニングに適した構造を生成することができます。

DevDocs:快速抓取并整理技术文档的MCP服务-首席AI分享圈

DevDocs:技術文書を素早くクロールして整理するMCPサービス

概要 DevDocsは、CyberAGIチームによって開発され、GitHubでホストされている完全に無料のオープンソースツールです。プログラマーやソフトウェア開発者のために設計され、技術文書のURLから始まり、関連するページを自動的にクロールし、簡潔なMarkdownまたはJSONファイルに整理します。組み込みの...

自动解析PDF内容并提取文字与表格的开源服务-首席AI分享圈

PDFコンテンツを自動的に解析し、オープンソースサービスのテキストとテーブルを抽出します。

包括的な紹介 それは自動的にPDF文書のレイアウトを分析し、ページ内のテキスト、タイトル、画像、表、数式やその他の要素を識別し、それらの正しい順序を決定します。このツールはOCR機能をサポートしており、スキャンしたPDFを検索可能なテキストに変換することができます。Docker上で動作し、2つのモデルを提供します:ビジュアルモデル(Vis...

基于Workers AI免费将多种文件转为Markdown格式-首席AI分享圈

Workers AIに基づいて、無料で複数のファイルをMarkdown形式に変換する

一般的な紹介 serverless-markdown-convertorは、Cloudflare WorkerとWorkers AI開発に基づいて、様々なファイルをMarkdown形式に変換することができる無料のオープンソースツールです。PDF、画像、Office文書、HTML、その他の一般的なファイル形式をサポートしており、自分で変換する必要はありません。

GPT-Crawler:自动爬取网站内容生成知识库文件-首席AI分享圈

GPT-Crawler: ウェブサイトコンテンツを自動的にクロールして知識ベースドキュメントを生成

一般的な紹介 GPT-Crawlerは、BuilderIOチームによって開発され、GitHubでホストされているオープンソースツールです。1つ以上のウェブサイトのURLを入力することで、ページのコンテンツをクロールし、カスタムGPTやAIアシスタントを作成するための構造化ナレッジファイル(output.json)を生成します。ユーザーは...

pure.md:网址前插入“pure.md/”即可提取干净的文本-首席AI分享圈

pure.md:URLの前に "pure.md/"を挿入して、きれいなテキストを取り出す。

一般的な紹介 pure.mdは、AIエージェントや開発者のために設計されたツールで、ウェブコンテンツやファイルを素早くMarkdown形式に変換することに重点を置いています。プロキシサービスによるクローラー対策制限を回避し、ウェブページのコアデータを抽出し、簡潔なMarkdownファイルを出力します。動的なWebページであろうと、PDFファイルであろうと...

Cloudsquid:上传文档并描述要求智能提取结构化数据-首席AI分享圈

Cloudsquid: ドキュメントをアップロードし、構造化データのインテリジェントな抽出のための要件を記述する。

はじめに Cloudsquidは2023年にドイツのベルリンで設立された企業で、人工知能による文書処理の簡素化に注力している。主力製品はオンライン・データ抽出プラットフォームで、ユーザーはPDF、画像、音声、動画などをアップロードし、抽出する必要のあるデータを簡単に指定することができる。

PDF Craft:PDF扫描文件转Markdown的开源工具-首席AI分享圈

PDF Craft: PDFスキャン文書からMarkdownへのオープンソースツール

一般的な紹介 PDF Craftは、書籍のPDFをスキャンしてMarkdown形式に変換するために設計されたオープンソースツールです。このツールはoomol-labによって開発され、電子書籍の整理が好きなユーザのためにGitHubでホストされています。このツールは、インターネットに接続することなく、ローカルのAIモデルを通して実行されます。

Supametas.AI:提取非结构化数据为LLM高可用数据-首席AI分享圈

Supametas.AI:非構造化データをLLMの高可用性データに抽出する

包括的な紹介 Supametas.AIは、ウェブページ、ドキュメント、オーディオ、ビデオなどの乱雑なデータを、AIが使用できる構造化データに整理することに特化したデータ処理プラットフォームです。ウェブリンク、API、ローカルファイルなど複数のソースからデータを収集し、JSONまたはMarkdown形式でエクスポートすることができます。プラットフォーム...

MarkPDFDown:基于多模态模型将PDF转为Markdown文件-首席AI分享圈

MarkPDFDown: マルチモーダルモデルに基づくPDFからMarkdownへの変換

概要 MarkPDFDownはオープンソースのツールです。マルチモーダルな大きな言語モデルを利用して、PDFファイルをMarkdown形式に変換します。開発者はGitHubユーザーのjorben氏です。 このツールの目的はシンプルで、PDFドキュメントを編集・共有しやすくすることです。見出し、...

SmolDocling:小体积高效处理文档的视觉语言模型-首席AI分享圈

SmolDocling:少量で効率的な文書処理のための視覚言語モデル

SmolDoclingは、ds4sdチームがIBMと共同で開発したビジュアル言語モデル(VLM)で、SmolVLM-256Mをベースにしており、Hugging Faceプラットフォームでホストされています。SmolDoclingは、SmolVLM-256Mをベースにした視覚言語モデル(VLM)で、Hugging Faceプラットフォーム上でホストされています。 パラメータが256Mしかない世界最小のVLMで、その中核機能は...

飞桨 PP-TableMagic:复杂表格结构化信息提取神器-首席AI分享圈

フライング・パドル PP-TableMagic: 複雑なテーブルの構造化情報抽出

表認識の目的は、画像中の表を解析し、表の構造やセルの位置を正確に特定し、構造化された表形式(HTMLなど)に変換することである。今日の情報化時代において、大量の重要な表データが、構造化されていない状態で存在している。

Mistral OCR:94.89%总体精度,1000 页/30秒,只需1美元-首席AI分享圈

ミストラルOCR:94.89%総合精度、1000ページ/30秒、わずか1ドル

人類の文明の長い歴史の中で、情報の取得と解析の方法が飛躍的に進歩するたびに、社会は大きく発展してきた。古代の象形文字から、持ち運び可能なパピルス、その後の印刷機の出現、そして今日のデジタルの波に至るまで、技術革新のたびに人類の知識の伝達は大きく拡大してきた。

Firecrawl MCP Server:基于 Firecrawl 的网页爬虫 MCP 服务-首席AI分享圈

Firecrawl MCPサーバー: FirecrawlベースのWebクローラーMCPサービス

包括的な紹介 Firecrawl MCP Serverは、MendableAIによって開発されたオープンソースツールで、モデルコンテキストプロトコル(MCP)プロトコル実装に基づき、Firecrawl APIと統合され、強力なウェブクローリングとデータ抽出を提供します。AIモデル(Cursor、Cla...

olmOCR:PDF文档转换为文本,支持表格、公式和手写内容的识别-首席AI分享圈

olmOCR: PDF 文書のテキスト変換、表、数式、手書き内容の認識のサポート

包括的な紹介 olmOCRは、アレン人工知能研究所(AI2)のAllenNLPチームによって開発されたオープンソースツールで、PDFファイルを線形化されたテキストに変換することに特化しており、特に大規模言語モデル(LLM)のデータセット準備と学習に適しています。これは ...

PDF-Extract-Kit:提取复杂结构PDF内容的开源工具-首席AI分享圈

PDF-Extract-Kit:オープンソースツールのPDFコンテンツの複雑な構造を抽出する

包括的な紹介 PDF-Extract-KitはOpenDataLabチームによって開発されたオープンソースプロジェクトで、複雑で多様なPDF文書から高品質なコンテンツを効率的に抽出することに重点を置いています。先進的な文書解析技術、レイアウト検出、数式認識、表抽出、OCRなどの機能を統合し、PDF文書から高品質なコンテンツを抽出します。

Crawl4LLM:为LLM预训练提供的高效网页爬取工具-首席AI分享圈

Crawl4LLM:LLM事前学習のための効率的なウェブクローリングツール

包括的な紹介 Crawl4LLMは清華大学とカーネギーメロン大学によって共同開発されたオープンソースプロジェクトであり、大規模モデル(LLM)の事前学習のためのウェブクローリングの効率最適化に焦点を当てている。高品質なウェブページデータをインテリジェントに選択することで、非効率なクロールを大幅に削減し、本来必要な100ウェブページのクロールを...

ja日本語