AIパーソナル・ラーニング
と実践的なガイダンス

チュートリアル:(4)ドキュメントの処理と知識ベースへの同期

ナレッジベースの紹介

知識ベースは、インテリジェント・ボディが出力する回答のデータ・ベースであり、専門的なデータ蓄積を行う開発者や、出力結果に正確性や専門性を求める開発者に適している。
知識ベースモジュールの独自のデータをアップロードすると、大きなモデルとユーザーの対話プロセスは、知識ベースによると、類似のコンテンツを取得し、大きなモデルは、結果を生成するために触れ、効果的にモデル生成の範囲を制限することができます。
Wenxinインテリジェント・ボディ・プラットフォームは、お客様の専有データのセキュリティを完全に尊重し、保護します。また、提出されたデータを、汎用の大規模モデルのトレーニングや改良に使用することはありません。

温新知能体チュートリアル:(IV) 知識ベースへの文書同期-1


 

1.使用シナリオ

  • 知識ベースと限定検索を参照した知能のゼロコード開発;
  • ローコードでインテリジェンスを開発する際の知識ベースの引用;
  • ナレッジベースを引用し、データプラグインを迅速に開発する。

2.ナレッジベース・ポータル

エントリー1: プラットフォームにログイン後、左のナビゲーションをクリックしてナレッジベースモジュールにアクセスします。

温新知能体チュートリアル:(IV) 知識ベースへの文書同期-1

エントリ 2: ゼロコードインテリジェンスを開発するには、「インテリジェンスの作成」ページで「新しい知識ベース」をクリックしてデータを追加します;

温新知能体チュートリアル:(IV) 文書の処理と知識ベースへの同期-1

温新知能体チュートリアル:(IV) 文書の処理と知識ベースへの同期-1

エントリ3:インテリジェンスのローコード開発、ビジュアルアレンジメントページで、知識ベースのキットをドラッグアンドドロップし、"新しい知識ベース "をクリックして知識ベースのモジュールを入力します;

温新知能体チュートリアル:(IV) 文書の処理と知識ベースへの同期-1

エントリー4: データプラグインを開発するには、プラグインの編集ページで "New Knowledge Base "をクリックし、Knowledge Baseモジュールにアクセスします。

温新知能体チュートリアル:(IV) 文書の処理と知識ベースへの同期-1

 

3.ナレッジベースの作成

 

ステップ1:データをアップロードする。

知識ベースのデータをアップロードするには、①ローカルファイルのアップロード、②ウェブアドレスの送信、③Baidu.com.hkのインポート、の3つの方法があります。1アカウントで100個の知識ベースを作成でき、すべての知識ベースの合計容量は1Gを超えることはできません。

ローカルファイル

  • 現在のところ、txt、md、docx、pdf、xlsx、csv、png、jpg、jpeg、m4a、mp3、mp4、mov、mpeg形式を含む、テキストと画像のタイプのみがサポートされています。ビデオのアップロードのみサポートされ、ビデオコンテンツの認識は当面サポートされない。
データタイプニックネームアップロード方法
コピーテキストファイルサイズ50M以下
MDファイルサイズ50M以下
ドックスファイルサイズ50M以下
当面の間、グラフィックはサポートされません。ファイル内の画像はフィルタリングされ、テキストのみが保持されます。
pdfファイルサイズ50M以下
当面の間、グラフィックはサポートされません。ファイル内の画像はフィルタリングされ、テキストのみが保持されます。
50ページまでのドキュメントのスキャンに対応。
xlsxファイルサイズ50M以下
xlsx形式のデータファイルをアップロードすることをお勧めします。 xlsx形式のファイルが分割された後、モデルがデータの意味を理解できるようにし、より正確なデータクエリと統計を実行できるようにするため、アップロードされたxlsxにはテーブルヘッダが含まれている必要があることに注意してください。
シーエスブイファイルサイズ50M以下
写真png30px≦辺の長さ≦4096px、3:1比率以内、サイズは20Mを超えることはできない。
1つのナレッジベースに最大500枚の画像をアップロード可能
画像に物理的なアイテムが含まれている場合、より正確な認識結果が得られます。
jpg30px≦辺の長さ≦4096px、3:1比率以内、サイズは20Mを超えることはできない。
知識ベース1セットに対して、最大500枚の画像をアップロード可能
画像に物理的なアイテムが含まれている場合、より正確な認識結果が得られます。
ジェイペグ30px≦辺の長さ≦4096px、3:1比率以内、サイズは20Mを超えることはできない。
1つのナレッジベースに最大500枚の画像をアップロード可能
画像に物理的なアイテムが含まれている場合、より正確な認識結果が得られます。
音響周波数m4aファイルサイズ50M以下
インテリジェントな認識により音声をテキストに変換
mp3ファイルサイズ50M以下
インテリジェントな認識により音声をテキストに変換
ビデオエムピーフォーファイルサイズ200M以下
インテリジェントな認識によりビデオをテキストに変換
ムーヴファイルサイズ200M以下
インテリジェントな認識によりビデオをテキストに変換
MPGファイルサイズ200M以下
インテリジェントな認識によりビデオをテキストに変換

 

温新知能体チュートリアル:(IV) 文書の処理と知識ベースへの同期-1

 

ウェブサイト投稿

  • ウェブページのアドレスを入力した後、「識別」ボタンをクリックして、ウェブページのテキストデータを識別する。ログイン後にアクセスしたものなど、バイドゥによって含まれている一般にアクセス可能なウェブページアドレスの識別のみをサポートし、バイドゥによって含まれることが許可されていないものは識別できない。
  • ウェブページの更新頻度に応じて、自動認識による知識ベースの更新頻度を設定できます。

Baidu.comインポート

  • 初めてBaidu.comのアカウントデータを認証する必要があり、認証に成功した後、ネットブック内のファイルを選択することができます。
  • ネットブックインポートの制限時間はネットブックファイルのダウンロード速度によって制限され、時間が長い場合、バックグラウンド処理を選択することができます。

温新知能体チュートリアル:(IV) 文書の処理と知識ベースへの同期-1

 

ステップ2:データ処理。

この段階では、ビッグモデルは入力文字数と出力文字数に厳しい制限を持っており、知識ベースも入力コンテンツの一種であり、ビッグモデルの入力文字数制限に従う必要があるため、テキスト分割の目的は、入力文字数が制限を超えないことを前提に、長いテキストを短い段落に切り分け、無関係な情報を排除し、最も関連性の高いコンテンツを入力することである。大きなモデルに画像コンテンツをより正確に理解させるために、まず画像コンテンツにインテリジェントに注釈を付けるようモデルを呼び出します。現在、2~3段落の知識ベースをビッグモデルに入力することができ、関連コンテンツはできるだけ3段落以下に分割されるべきである。

  • テキストのセグメンテーション: このプラットフォームは、「デフォルトのセグメンテーション」と「カスタマイズされたセグメンテーション」を提供し、開発者が長いテキストをテキスト、句読点、スペース、キャリッジリターンなどの手段で複数のセグメンテーションにカットし、モデルがテキストコンテンツをより正確に理解できるようにサポートする。セグメンテーションが処理されると、設定されたセグメンテーション方法に従って、最大セグメンテーション文字がカットされることが保証されます。

小説、カスタマーサービス、その他のシナリオのQ&Aコンテンツ、データ、その他のコンテンツ、セグメントの設定方法については、ファイルセグメントの設定方法(例付き)をご覧ください。

温新知能体チュートリアル:(IV) 文書の処理と知識ベースへの同期-1

  • フォームの設定: フォームファイルのテーブルヘッダは、ビッグモデルがテーブルの内容を理解するためのキー情報として使用されます。 デフォルトでは、テーブルの1行目がテーブルヘッダとして設定され、実際のテーブル構造に応じてテーブルヘッダのカスタムラベル付けをサポートすることができます。

温新知能体チュートリアル:(IV) 文書の処理と知識ベースへの同期-1

  • マルチメディアの設定: インテリジェントな認識のための画像、オーディオコンテンツの大きなモデルへのデフォルトの呼び出し、およびテキスト注釈を生成し、画像へのリンクの検索を支援し、オーディオの理解だけでなく、リコールのより正確な検索。生成された注釈情報が間違っている場合は、手動で間違った内容を修正することができます。ビデオ認識機能は近日公開予定!

温新知能体チュートリアル:(IV) 文書の処理と知識ベースへの同期-1

4.知識ベースの利用

方法1:インテリジェンスのゼロコード開発、インテリジェンス本体の作成ページで、知識ベースを選択します。知識ベースの呼び出しを観察し、検索パラメータをデバッグすることで、知識ベースの検索呼び出し効果を最適化できます。詳細は、知識ベース呼び出しの共通QAを参照してください。

温新知能体チュートリアル:(IV) 文書の処理と知識ベースへの同期-1

方法2:インテリジェンスのローコード開発、ビジュアル・オーケストレーション・ページで、知識ベース・スイートをドラッグ・アンド・ドロップして、作成済みの知識ベースを選択します。

温新知能体チュートリアル:(IV) 文書の処理と知識ベースへの同期-1

方法3:データプラグインを開発し、作成された知識ベースを選択する。

温新知能体チュートリアル:(IV) 文書の処理と知識ベースへの同期-1

 

 

ドキュメント・セグメンテーションの設定方法(例付き)

 

1.どのような場合に文書セグメントを変更する必要がありますか?

  1. 構造化データ
  2. スマートボディやプラグインの出力はナレッジベースへのヒットに成功するが、無関係な情報が多すぎる。

 

2.ファイル分割の設定方法

データ分割処理の目的は、長いテキストを短い段落に分割し、検索されたコンテンツから無関係な情報を可能な限り排除し、モデルによってより効率的に処理・理解できるようにすることである。

Wenxin Intelligent Body Platformは、デフォルトのセグメンテーションとカスタムのセグメンテーションを提供する。ドキュメントの種類によって、セグメンテーションの設定を切り替える必要があります。

  • 最大セグメント文字数:長いテキストをカットした後の段落の最大文字数。各段落の文字数の代わりに、50から512までの任意の数を記入できます;

温新知能体チュートリアル:(IV) 文書の処理と知識ベースへの同期-1

  • 段落重複文字:各セグメントの先頭と前のセグメントの末尾にある繰り返し可能な文字の最大数で、0から500までの任意の数を入力することができます。重複文字の数は段落の最大文字数よりも小さくする必要があることに注意してください;

温新知能体チュートリアル:(IV) 文書の処理と知識ベースへの同期-1

  • セグメンテーションモード:長いテキストをカットするためのセグメンテーションシンボル、一般的に使用されるセグメンテーションシンボルを選択するか、任意のシンボルを入力することができます、テキストをカットするとき、カット位置は、セグメンテーションシンボルの並べ替えに応じて選択されます。

温新知能体チュートリアル:(IV) 文書の処理と知識ベースへの同期-1

注:1つの知識ベースのセグメント数は700wを超えることはできませんので、適度にセグメントを設定してください。

 

3.セグメント化されたケース

ケース1:長文コンテンツのセグメンテーションの場合

適用範囲:小説、電子書籍、テキスト、会社紹介、学位論文、特許文書など、長文の内容との関連でセマンティクスを理解するモデルを必要とするケースに適用できる。

ファイルの例:スーツを着た男.docx

細分化された思考

推奨デフォルト・セグメンテーション具体的なセグメンテーション結果は、サンプルファイルをダウンロードし、ナレッジベースを作成することで見ることができる。
- 最大段落文字:長いテキストコンテンツの段落は一般的に長く、段落と段落の間にいくつかの関係があるので、最大段落文字は少し大きく設定することができ、段落が完全なセマンティクスが含まれていることを確認しようとすると、モデルはより良い、より正確な理解することができます。
- 段落オーバーラップ文字:段落を文脈で理解する必要がある場合、段落オーバーラップ文字を必要に応じて記入することで、文脈間の関連する内容を1つの段落に表示することができます。
- セグメンテーション:セグメンテーションシンボルのデフォルトのセグメンテーションは、基本的には、そのようなセグメンテーションの結果が適切でないなど、テキストのセグメンテーションのほとんどが含まれている、あなたは、シンボルの場所をカットするのに適したドキュメントを表示することができます選択するか、セグメンテーションシンボルを追加するには、タイプは、カットを選択するセグメンテーションシンボルの順序に従ってされます。

フォローアップの最適化のアイデア:同じ意味の文章は1つの段落で切るようにする。段落の文字数の制限により1つの段落に分割できない場合は、段落の重複文字により段落間の相関を行うことで、検索時に同時に検索される確率を高め、出力結果を網羅的に把握することができるモデルである。

モデル検索結果:

温新知能体チュートリアル:(IV) 文書の処理と知識ベースへの同期-1モデル検索出力:

温新知能体チュートリアル:(IV) 文書の処理と知識ベースへの同期-1

 

ケース2:構造的コンテンツ・セグメンテーションのケース

適用範囲:ケースは、顧客サービスのチャット記録、セールストークや質問と回答の他のシナリオ、テキストフォームなどに適用されます。特徴的な構造的特徴の内容モデルの必要性構造内のコンテンツのセマンティクスを理解する。

ファイルの例:温新知能体プラットフォームFAQ.docx

細分化された思考

カスタム・セグメンテーションの使用を推奨し、段落の切り口でテキスト内の構造が同じになるようにする。具体的なセグメンテーション結果は、サンプルファイルをダウンロードし、ナレッジベースを作成することで見ることができる。
段落の最大文字数:まず、元のテキストの構造を見て、各構造の平均文字数はどのくらいですが、文字の最大数は何段落に設定され、おそらく平均文字数を計算するためにいくつかの代表的な段落を選択します。たとえば、サンプル文書は、質問と回答の構造であり、2つの段落があり、文字の平均数は340文字、340文字に設定段落文字の最大数です。
段落オーバーレイ文字文字数の制限で段落を分割できない場合は、重複文字を利用して段落を関連付けることで、出力結果の総合的な理解を検索する際に、同時に検索される確率を高めることができる。
セグメンテーション文書のより特徴的な構造は、質問と回答の各グループは、"質問"、"答え "をマークされ、我々は質問と回答のセグメンテーションの構造に従っていることを願って、あなたは、セグメンテーションのシンボルとして "質問 "することができ、セグメンテーションの前に "質問 "記号では、質問と回答のセグメンテーションの構造の結果を得ることができます。

モデル検索結果:

温新知能体チュートリアル:(IV) 文書の処理と知識ベースへの同期-1モデル検索出力:

温新知能体チュートリアル:(IV) 文書の処理と知識ベースへの同期-1

ケース3:エクセル・データ・クラスのコンテンツ・セグメンテーション・ケース

適用範囲:特定のケースに適用される。データクエリー、データ統計カテゴリーエクセルのテーブル・データ・クラスの、行と行の間に、統計以外の相関関係はない。

ファイルの例:2023年の映画興行収入データ.xlsx

細分化された思考

統計分析が必要な場合は、一緒に計算するデータをできるだけ1~3分割し(現在のモデルでは知識ベースは最大2000文字に制限されている)、モデルに入力する元データの完全性を確保するように努め、最終的な統計結果の正答率を高くする;

最終的な統計が正しくなるように、モデルに入力される生データの完全性を保証するために、カスタムセグメントを使用することをお勧めします。具体的なセグメンテーション結果は、サンプルファイルをダウンロードし、ナレッジベースを作成することで見ることができる。
- 段落の最大文字数:検索された段落の整合性を確保するため、段落の最大文字数を512文字に設定する必要がある。
- 段落の重なり文字:段落の重なり文字を減らすには、段落の重なり文字をゼロに設定する必要があります。
- セグメンテーション:テーブルタイプのデータは、直接行でカットすることができます、セグメンテーションモードは "改行 "を選択します。

セグメンテーション・アイデアのその後の最適化モデルが知識ベースを最大2,000文字に制限している場合、計算するデータはできるだけ1~3段落に分割する必要があります。大きな統計の場合は、統計に必要なすべてのデータがモデルに入力された3つの段落に含まれるように、2列以下のExcelスプレッドシートをアップロードすることをお勧めします。

モデル検索結果:

温新知能体チュートリアル:(IV) 文書の処理と知識ベースへの同期-1出力結果を微調整する:

温新知能体チュートリアル:(IV) 文書の処理と知識ベースへの同期-1

注目してほしい:

  1. テーブルヘッダは、セグメント化された結果を検索するために重要である。そのため、データテーブルのヘッダーには明確なセマンティクスが必要であり、モデルが理解できないような突飛な言葉を使わないようにする必要がある。
  2. 統計分析が必要なプラグインや知能については、そのプラグインや知能を詳細な計算手順を記載したコマンドプロンプトは、モデルの統計結果の精度を向上させます。

 

 

ナレッジベースは一般的なQAを呼び出す

Q1: ナレッジベースの呼び出しの効果をプレビューすると、"System Exception "と "Service Exception "と表示されます。
A: あなたの経験に影響を与えるために申し訳ありませんが、 "システムの例外"、 "サービスの例外 "は、単に時折の状況であり、あなたは、プロンプトの後にリフレッシュしようとすることができます再訪問する現在のページを終了し、キャッシュをクリアし、再試行する他の方法は、使用を再開することができます。

Q2: ナレッジ・ベースがリコールされなかったら?
A: その質問に関連する知識ベースが何もないかもしれない。ナレッジベース管理ページ関連するコンテンツがあるかどうかをチェックする。 関連するコンテンツがない場合は、質問に従って知識ベースを充実させることができる。関連するコンテンツがあっても想起されない場合は、Q3に転送することができる。

Q3: ナレッジ・ベースに関連するコンテンツがあるのですが、「No relevant knowledge base recalled(関連するナレッジ・ベースが呼び出されていません)」というメッセージが出続けています。
A: これは次の方法で解決できる。
まずナレッジベース管理ページセマンティックな問題がある場合は、まずコンテンツを編集してセマンティックな問題を最適化することができる;

温新知能体チュートリアル:(IV) 文書の処理と知識ベースへの同期-1

第二に、知識ベースの想起設定機能によって[検索関連度閾値]を下げることで、想起効果をデバッグすることができる。注:[関連性のしきい値を取得]は、現在のスマートボディに対してグローバルに適用されます、そのような問題の個々のケースを最適化する必要がある唯一のような設定を行うには、需要のシナリオのほとんどを統合する必要があります、あなたは答えを生成するモデルを修正するには、[フィードバック]を介して理想的な答えを提出することができます。

温新知能体チュートリアル:(IV) 文書の処理と知識ベースへの同期-1
温新知能体チュートリアル:(IV) 文書の処理と知識ベースへの同期-1
Q4: 知識ベースの想起結果はユーザーの質問に関連していないが、システムによって与えられた関連性の値はかなり高い。
A: この問題を解決するには3つの方法がある:
1.罷免段落の内容を修正し、該当する記述を削除した上で、罷免の可否を再調査する;
2.デバッグ知識ベースのリコールの構成は、リコール結果で無関係な結果のリコールは、後者のいくつかにランク付けされると、[検索関連性のしきい値]を改善しようとすることができます[リコール段落の最大数]、[段落文字の最大数]を減らす;
3.例題を最適化するだけなら、[Feedback]から理想的な答えを提出し、モデルを修正して答えを生成することができます。
温新知能体チュートリアル:(IV) 文書の処理と知識ベースへの同期-1
Q5: 知識ベース内の関連する結果の一部しか呼び出されておらず、同様に呼び出したい他の結果がある場合、どうすればいいのだろうか?
A: この問題を解決するには2つの方法がある:
1.知識ベースのリコール設定をデバッグするには、[検索関連性のしきい値]を削減し、[リコールされた段落の最大数]、[段落の最大文字数]を改善しようとすることができます;
2.例題を最適化するだけなら、[Feedback]から理想的な答えを提出することで、モデルを修正して答えを生成することができます。
温新知能体チュートリアル:(IV) 文書の処理と知識ベースへの同期-1
Q6: リコール結果はすべて問題ありませんが、最終的なアウトプットは私の知識ベースとは関係ありませんよね?
A: この問題は、モデルが回答を装飾する際に知識ベースの想起結果をフィルタリングしてしまうために発生します。この問題を解決するには、知識ベースのアプリケーションの要件で知能の文字設定を補完してみてください。例
- テンプレート1:ユーザーからの質問に対して、ナレッジベースを検索し、検索結果がない場合は、「申し訳ありませんが、この問題についてはよく知りません。
- テンプレート2:ユーザーが質問をすると、検索された知識ベースから呼び出された結果に優先順位をつけて回答が生成される。
温新知能体チュートリアル:(IV) 文書の処理と知識ベースへの同期-1
AIイージー・ラーニング

AIを始めるための素人ガイド

AIツールの活用方法を、低コスト・ゼロベースから学ぶことができます。AIはオフィスソフトと同様、誰にとっても必須のスキルです。 AIをマスターすれば、就職活動で有利になり、今後の仕事や勉強の労力も半減します。

詳細を見る
無断転載を禁じます:チーフAIシェアリングサークル " チュートリアル:(4)ドキュメントの処理と知識ベースへの同期

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語