AIパーソナル・ラーニング
と実践的なガイダンス
豆包Marscode1

Supametas.AI:非構造化データをLLMの高可用性データに抽出する

はじめに

Supametas.AIは、ウェブページ、ドキュメント、オーディオ、ビデオの乱雑なデータを、AIが利用できる構造化データに整理することに特化したデータ処理プラットフォームである。ウェブリンク、API、ローカルファイルなど複数のソースからデータを収集し、JSONまたはMarkdown形式で出力することができる。このプラットフォームはプログラミングの経験を必要としないため、一般の人でもすぐに使い始めることができる。Supametas.AIは、様々なユーザーのニーズに対応するため、クラウドサービスや今後予定されているプライベートデプロイメントを提供している。

Supametas.AI:提取非结构化数据为LLM高可用数据-1


 

機能一覧

  • マルチソースデータ収集ウェブページURL、APIインターフェース、ローカルファイル(PDF、Word、画像、音声、動画)からのデータ抽出をサポートします。
  • 構造化出力AIモデルに適合させるために、順序付けされていないデータをJSONまたはMarkdownに変換します。
  • ナレッジベースの統合OpenAIストレージ、Difyデータセット、またはAPIを介したカスタム統合へのドッキング。
  • 自然言語抽出(NLE)例:「タイトルと本文をつかむ」。
  • 複雑なウェブクローリングリストページ、ページネーション、マルチレイヤーページを自動的に処理し、時限更新をサポートします。
  • 大容量ファイルの取り扱い長い文書やHDビデオなど、数百MBのファイルにも対応。
  • オーディオおよびビデオ処理タイムライン、字幕、台詞などを抽出する。
  • ノー・コード・インターフェース操作は簡単で、専門的な知識は必要ありません。
  • プライバシークラウドサービスとDockerプライベートデプロイオプションを提供。

 

ヘルプの使用

Supametas.AIは、複雑なソフトウェアのインストールを必要とせず、ウェブ上で直接動作します。以下では、ユーザーがすぐに使い始められるように、主な機能の使い方を詳しく説明します。

登録とログイン

  1. 見せる https://supametas.ai/zhGet Started」をクリック。
  2. Eメールアドレスでサインアップするか、Googleアカウントを選択してサインインしてください。
  3. サインアップすると、基本的な機能といくつかのリソースを含む無料トライアルモードに入る。

データの収集と処理

ウェブクローラー

  1. ログイン後、New Datasetをクリックする。
  2. URL "データソースを選択し、対象となるウェブページを入力する。 https://example.com/blog.
  3. クロールのパラメータを設定する:
    • 「Depth Value: 3に設定すると、3階層のページをクロールする。
    • 「ループ時間値:毎日更新する場合は24に設定。
  4. 処理開始」をクリックすると、タイトルや本文などが自動的に抽出されます。
  5. プロセスが完了したら、エクスポートをクリックし、ダウンロードするJSONまたはMarkdownのいずれかを選択します。

ローカル・ドキュメント処理

  1. New Dataset画面で、Local Fileを選択する。
  2. ファイルをアップロード」をクリックして、ファイルをドラッグ&ドロップするか、選択します。
  3. 対応フォーマットは以下の通り:
    • ドキュメンテーション.docxそして.pdfそして.txt
    • 写真.jpgそして.png
    • オーディオ・ビデオ:.mp3そして.mp4そして.mov
  4. アップロード後、システムは自動的にコンテンツを抽出します。例えば、PDFは段落を抽出し、MP3はテキストを書き起こします。
  5. 結果を確認し、「エクスポート」をクリックして保存する。

APIデータ・プリング

  1. API "データソースを選択する。
  2. API設定を入力する:
{
"contentUrl": "https://api.example.com/data",
"getDemandFormat": "json",
"customKeys": [{"key": "category", "desc": "分类"}]
}
  1. テスト」をクリックし、データが正しく返されることを確認する。
  2. テストに合格したら、"Start Processing "をクリックして構造化データを生成する。

統合ナレッジ・ベース

  1. データを処理したら、「統合」をクリックする。
  2. OpenAI Storageや以下のようなターゲット・プラットフォームを選択する。 ダイファイ データセット
  3. プラットフォームのAPIキー(ターゲット・プラットフォームで生成)を入力する。
  4. 接続」をクリックすると、データが自動的にアップロードされる。
  5. 統合をカスタマイズする場合は、プラットフォームが提供するAPIコードをプロジェクトにコピーしてください。

時限タスク設定

  1. データセット・ページで、設定をクリックする。
  2. スケジュール更新]を選択し、[24時間ごと]に設定します。
  3. 保存後、システムは自動的にデータを取り込み、バックグラウンドで処理する。

注目の機能操作

オーディオとビデオの抽出

  1. アップロード .mp4 ドキュメンテーション
  2. システムはタイムラインと "00:01 - Hello "のようなダイアログテキストを生成する。
  3. 結果をプレビューし、デジタルピープルやポッドキャストのデータ処理に適した形でエクスポートします。

自然言語フィールド抽出

  1. クロールの設定で、「記事のタイトルと日付を抽出する」などのプロンプトを入力する。
  2. システムは、プロンプトに基づいてフィールドを自動的に識別し、照合する。

大容量ファイルの取り扱い

  1. 数百MBのPDFやビデオをアップロードする。
  2. システムは分割して処理され、完了すると完全に構造化されたデータが提供される。

ほら

  • 無料版ではデータセット数と処理能力に制限があるが、有料版にアップグレードすると、より多くのリソースを利用できるようになる。
  • 大きなファイルや複雑なタスクは、外部モデル(OpenAIなど)にバインドできる、より多くのトークンを必要とするかもしれない。
  • タスクマネージャーでタスクの進行状況を見たり、中止することができます。
  • 企業ユーザー向けにプライベート・デプロイメント・バージョン(Docker)が開発されている。

Supametas.AIは、各ステップにガイドが付いたユーザーフレンドリーなインターフェースを備えています。まずは無料版をお試しいただき、慣れてきたら必要に応じてアップグレードされることをお勧めします。

 

アプリケーションシナリオ

  1. エンタープライズ知識ベースの構築
    金融会社は、規制当局のウェブページやPDFをクロールし、構造化データに照合し、分析のためにAIに供給するためにこれを使用することができる。
  2. デジタル人間開発
    オーディオとビデオクリップをアップロードし、ダイアログとタイムラインを抽出し、トレーニングデータセットを生成します。
  3. Eコマース・データ管理
    商品リストと詳細を定期的に取得し、JSONに照合して在庫分析を最適化します。

 

品質保証

  1. 無料版の制限は?
    無料版には時間制限はないが、データセット数と処理能力に制限があり、トライアルに適している。
  2. サポートされているファイルサイズは?
    長い文書やHDビデオなど、数百メガバイトのファイルを扱うことができます。
  3. データ・プライバシーをどのように確保するのか?
    クラウドサービスの暗号化された転送、Docker Private Deployment Editionはデータを完全にローカライズします。
無断転載を禁じます:チーフAIシェアリングサークル " Supametas.AI:非構造化データをLLMの高可用性データに抽出する
ja日本語