はじめに
Supametas.AIは、ウェブページ、ドキュメント、オーディオ、ビデオの乱雑なデータを、AIが利用できる構造化データに整理することに特化したデータ処理プラットフォームである。ウェブリンク、API、ローカルファイルなど複数のソースからデータを収集し、JSONまたはMarkdown形式で出力することができる。このプラットフォームはプログラミングの経験を必要としないため、一般の人でもすぐに使い始めることができる。Supametas.AIは、様々なユーザーのニーズに対応するため、クラウドサービスや今後予定されているプライベートデプロイメントを提供している。
機能一覧
- マルチソースデータ収集ウェブページURL、APIインターフェース、ローカルファイル(PDF、Word、画像、音声、動画)からのデータ抽出をサポートします。
- 構造化出力AIモデルに適合させるために、順序付けされていないデータをJSONまたはMarkdownに変換します。
- ナレッジベースの統合OpenAIストレージ、Difyデータセット、またはAPIを介したカスタム統合へのドッキング。
- 自然言語抽出(NLE)例:「タイトルと本文をつかむ」。
- 複雑なウェブクローリングリストページ、ページネーション、マルチレイヤーページを自動的に処理し、時限更新をサポートします。
- 大容量ファイルの取り扱い長い文書やHDビデオなど、数百MBのファイルにも対応。
- オーディオおよびビデオ処理タイムライン、字幕、台詞などを抽出する。
- ノー・コード・インターフェース操作は簡単で、専門的な知識は必要ありません。
- プライバシークラウドサービスとDockerプライベートデプロイオプションを提供。
ヘルプの使用
Supametas.AIは、複雑なソフトウェアのインストールを必要とせず、ウェブ上で直接動作します。以下では、ユーザーがすぐに使い始められるように、主な機能の使い方を詳しく説明します。
登録とログイン
- 見せる
https://supametas.ai/zh
Get Started」をクリック。 - Eメールアドレスでサインアップするか、Googleアカウントを選択してサインインしてください。
- サインアップすると、基本的な機能といくつかのリソースを含む無料トライアルモードに入る。
データの収集と処理
ウェブクローラー
- ログイン後、New Datasetをクリックする。
- URL "データソースを選択し、対象となるウェブページを入力する。
https://example.com/blog
. - クロールのパラメータを設定する:
- 「Depth Value: 3に設定すると、3階層のページをクロールする。
- 「ループ時間値:毎日更新する場合は24に設定。
- 処理開始」をクリックすると、タイトルや本文などが自動的に抽出されます。
- プロセスが完了したら、エクスポートをクリックし、ダウンロードするJSONまたはMarkdownのいずれかを選択します。
ローカル・ドキュメント処理
- New Dataset画面で、Local Fileを選択する。
- ファイルをアップロード」をクリックして、ファイルをドラッグ&ドロップするか、選択します。
- 対応フォーマットは以下の通り:
- ドキュメンテーション
.docx
そして.pdf
そして.txt
- 写真
.jpg
そして.png
- オーディオ・ビデオ:
.mp3
そして.mp4
そして.mov
- ドキュメンテーション
- アップロード後、システムは自動的にコンテンツを抽出します。例えば、PDFは段落を抽出し、MP3はテキストを書き起こします。
- 結果を確認し、「エクスポート」をクリックして保存する。
APIデータ・プリング
- API "データソースを選択する。
- API設定を入力する:
{
"contentUrl": "https://api.example.com/data",
"getDemandFormat": "json",
"customKeys": [{"key": "category", "desc": "分类"}]
}
- テスト」をクリックし、データが正しく返されることを確認する。
- テストに合格したら、"Start Processing "をクリックして構造化データを生成する。
統合ナレッジ・ベース
- データを処理したら、「統合」をクリックする。
- OpenAI Storageや以下のようなターゲット・プラットフォームを選択する。 ダイファイ データセット
- プラットフォームのAPIキー(ターゲット・プラットフォームで生成)を入力する。
- 接続」をクリックすると、データが自動的にアップロードされる。
- 統合をカスタマイズする場合は、プラットフォームが提供するAPIコードをプロジェクトにコピーしてください。
時限タスク設定
- データセット・ページで、設定をクリックする。
- スケジュール更新]を選択し、[24時間ごと]に設定します。
- 保存後、システムは自動的にデータを取り込み、バックグラウンドで処理する。
注目の機能操作
オーディオとビデオの抽出
- アップロード
.mp4
ドキュメンテーション - システムはタイムラインと "00:01 - Hello "のようなダイアログテキストを生成する。
- 結果をプレビューし、デジタルピープルやポッドキャストのデータ処理に適した形でエクスポートします。
自然言語フィールド抽出
- クロールの設定で、「記事のタイトルと日付を抽出する」などのプロンプトを入力する。
- システムは、プロンプトに基づいてフィールドを自動的に識別し、照合する。
大容量ファイルの取り扱い
- 数百MBのPDFやビデオをアップロードする。
- システムは分割して処理され、完了すると完全に構造化されたデータが提供される。
ほら
- 無料版ではデータセット数と処理能力に制限があるが、有料版にアップグレードすると、より多くのリソースを利用できるようになる。
- 大きなファイルや複雑なタスクは、外部モデル(OpenAIなど)にバインドできる、より多くのトークンを必要とするかもしれない。
- タスクマネージャーでタスクの進行状況を見たり、中止することができます。
- 企業ユーザー向けにプライベート・デプロイメント・バージョン(Docker)が開発されている。
Supametas.AIは、各ステップにガイドが付いたユーザーフレンドリーなインターフェースを備えています。まずは無料版をお試しいただき、慣れてきたら必要に応じてアップグレードされることをお勧めします。
アプリケーションシナリオ
- エンタープライズ知識ベースの構築
金融会社は、規制当局のウェブページやPDFをクロールし、構造化データに照合し、分析のためにAIに供給するためにこれを使用することができる。 - デジタル人間開発
オーディオとビデオクリップをアップロードし、ダイアログとタイムラインを抽出し、トレーニングデータセットを生成します。 - Eコマース・データ管理
商品リストと詳細を定期的に取得し、JSONに照合して在庫分析を最適化します。
品質保証
- 無料版の制限は?
無料版には時間制限はないが、データセット数と処理能力に制限があり、トライアルに適している。 - サポートされているファイルサイズは?
長い文書やHDビデオなど、数百メガバイトのファイルを扱うことができます。 - データ・プライバシーをどのように確保するのか?
クラウドサービスの暗号化された転送、Docker Private Deployment Editionはデータを完全にローカライズします。