ダイファイ Dify Workflowは、製品プロトタイプの検証であれ、生産性向上ツールの構築であれ、開発者がAIのアイデアを素早く軌道に乗せるための支援に専念しています。最新のv0.10.0リリースでは、待望のファイルアップロード機能を導入し、ワークフローが複数のフォーマットのドキュメントやオーディオ/ビデオを扱えるようになり、AIアプリケーション開発の境界がさらに広がりました。
この機能は、特に以下のシナリオに適している。
- ドキュメンテーションQ&A アップロードされた資料と信頼できる情報源に基づいて質問に答える。
- 報告書の概要 長い文書から核となるポイントを素早く抽出し、要約を作成。
- フォーム処理: さまざまな文書やスプレッドシート内の特定のコンテンツをすばやく検索し、処理します。
さらに、ファイルアップロード機能は、マルチモーダルAIアプリケーションへの道を開く。開発者は、画像、音声、動画を理解し処理する複雑なワークフローを簡単に構築できるようになり、アプリケーションの機能とユーザーエクスペリエンスが劇的に向上します。
ファイルアップロード機能で簡単に始められる
1.ファイルを直接アップロードできるようにする
ファイルアップロードを有効にするのは非常に簡単で、機能リストのファイルアップロードスイッチをオンにするだけだ(デフォルトはシステム変数)。 システムファイル ).ユーザーはダイアログボックスから直接ファイルをアップロードすることができ、アップロードされた最新のファイルは自動的に前のファイルを上書きします。柔軟なコンテキスト管理が必要な場合、開発者はメモリ機能をオンにすることができます。
2.カスタム変数の作成
もう1つの方法は、単一または複数のファイルアップロードをサポートするために、開始ノードでカスタム変数を作成することです。一度セットアップされると、ユーザーインターフェースはファイルアップロードフォームを表示し、その後のダイアログとワークフロー処理は常にアップロードされたファイルを中心に展開されます。
ファイルをアップロードした後、LLMがコンテンツを効果的に理解し分析できるように、ファイルの種類に応じて前処理をする必要もある。 ドキュメントタイプのファイル(TXT、PDF、HTML など)は、Document Extractor ノードを使用してワークフローでテキスト抽出を行う必要があり、LLM で使用可能な文字列変数に変換されます。 音声ファイルや動画ファイルは、音声テキスト変換や動画キーフレーム抽出などの追加ツールを使ってエンコードする必要があります。(OpenAIが新しくリリースした "gpt-40-audio-preview "モデルは、推論や対話のための音声の直接処理をサポートしており、これは後のリリースで適応される予定であることを述べておく価値がある)
今回のアップデートでは、ファイルの抽出とフィルタリングのための新しいDocument ExtractorとList Manipulationノードを追加しただけでなく、ワークフローノードのほとんどを強化しました:
https://docs.dify.ai/zh-hans/guides/workflow/file-upload
ファイルアップロードを使ってAIポッドキャストを素早く構築する
グーグルが最近発表したAIツールNotebookLMは、新しい「音声」機能で注目を集めている。長文のコンテンツを素早く分析し、重要な情報を抽出し、ポッドキャストに似た会話形式の音声要約を生成することができる。これにより、ユーザーは読む時間を大幅に節約できるだけでなく、コンテンツの要点にたどりつきやすくなる。
次に、ファイルアップロード機能と関連ノードを使用して、ドキュメントをワークフロー経由で会話型AIポッドキャストに変換し、次のようなことを可能にする方法を紹介します。 ノートブックLM の機能である。
スタートノードのパラメータ構成
新しいチャットフローを作成し、開始ノードでファイルのアップロードを設定し、主要な変数(トーン、ホスト、ゲスト、言語など)を定義します。
- ** ファイル : **ドキュメントタイプのファイルをアップロードできるようにするには、"Single File "フィールドタイプを選択します。
- ** トーン :: AIポッドキャストのコミュニケーションスタイルを「ドロップダウンオプション」でカスタマイズできます。
- ** ホスト名 ファシリテーター名を入力する場合は、「テキスト」タイプを選択してください。
- ** ゲスト名 ゲスト名を入力する場合は、"Text" タイプを選択します。
- ** 言語 :: **ユーザーがポッドキャストの言語を選択しやすいように、中国語、英語、日本語などの選択肢を提供する「ドロップダウンオプション」タイプを使用してください。
LLMノードでファイル抽出ツールを使ってポッドキャスト・スクリプトを生成する
ファイルのアップロードに成功すると、ドキュメント抽出ツールが変数***file ***内のテキストを抽出し、非構造化データを処理可能なテキストコンテンツに変換する。次に、抽出されたコンテンツは3つのLLMノードで処理され、完全なポッドキャスト・スクリプトが徐々に生成されます。
1.LLMは入力を分析する
抽出されたテキストは分析され、重要なテーマ、ストーリーポイント、データなど、ポッドキャストに必要な重要情報が抽出され、その後のポッドキャストコンテンツ生成の基礎が築かれる。
2.LLMスクリプト生成ノード(対話の作成)
抽出されたコンテンツと事前に定義された変数(トーン、言語、ホスト名、ゲスト名など)に基づいて、ホストとゲストの対話が設定された役割とスタイルに沿うように、自然でパーソナライズされたポッドキャストの対話スクリプトが生成されます。
3.LLM結論ノード(結論)
ホストとゲストの対話を通じて、重要なポイントを要約するポッドキャストの要約を作成し、要約部分がリスナーの印象に残り、考える材料や行動の提案につながるようにする。
LLMノードの処理により、ポッドキャストのダイアログと要約が得られる。
テンプレート変換ノードによるテキストブロックのマージ
テンプレート変換ノードは、各LLMノードによって生成された部分的なコンテンツを完全な出力に結合し、下流のツールで使用可能な統一フォーマットに変換する。
- 入力: 2つのLLMノードCraft DialogueとConclusionのテキストスニペットを、変数*** arg1***と*** arg2***を介して取得する。 アーグ2 引用する。
- 出力:*** arg1***(ダイアログの内容)と*** arg2***(サマリーセクション)をマージして、完全で首尾一貫したポッドキャストスクリプトを作成します。
ポッドキャスト・オーディオ・ジェネレーターの設定と出力
テキストのマージが完了すると、スクリプトはテンプレート変換ノード 出力 変数がポッドキャストのオーディオジェネレーターに渡され、オーディオ生成の最終段階が始まります。
このツールはテキストスクリプトからポッドキャストの音声を生成し、開発者はホストとゲストの声(例えば「合金」と「シマー」)を選択して、キャラクターがどのように聞こえるかを決めることができます。ポッドキャスト・ジェネレーターは、受け取ったスクリプト全体を音声ファイルに変換し、ダウンロードできるようにします。
この手順で、ファイルアップロード機能を使ってAIポッドキャストを生成する方法を簡単にマスターできます。また、このアプリのテンプレートを作成し、エクスプローラーページに配置しましたので、すぐに始められ、さらに多くの機能を簡単に調べることができます。
その他知っておくべきこと
画像アップロード機能オフラインステートメント
1. チャットフローアプリケーション用
バージョン0.10.0では、オリジナルの画像アップロード機能をファイルアップロードにも拡張し、より多くの形式のドキュメントやオーディオ/ビデオファイルを扱えるようになりました。
- 画像アップロード機能がファイルアップロードの一部として統合されました。ファイルアップロード機能が有効な場合、LLMノードのビジュアル変数セレクタで***sys.file ***を選択することで、チャットウィンドウにアップロードされた画像などのファイルを参照することができます。
- 旧バージョンで画像アップロード機能を使用していたアプリが安定して動作するよう、旧バージョンの互換性処理を行いました。
2. ワークフローアプリケーション用:
- より多くの種類のファイルを扱うために、ファイルアップロードの開始ノードでファイルタイプ変数をカスタマイズすることをお勧めします。
- 注意:将来のリリースでは、古い画像アップロード機能とシステム変数を廃止する予定です! システムファイル .
詳細はヘルプファイルを参照:
https://docs.dify.ai/zh-hans/guides/workflow/bulletin