Mise à jour importante : Dify v0.10.0 introduit les téléchargements de fichiers, les podcasts AI NotebookLM faciles à construire
Dify Dify a pour mission d'aider les développeurs à concrétiser rapidement leurs idées en matière d'IA, qu'il s'agisse de valider des prototypes de produits ou de créer des outils de productivité. Flux de travail Tous les meilleurs choix.Dans la dernière version v0.10.0, nous avons introduit la très attendue fonction de téléchargement de fichiers, qui permet à Workflow de gérer des documents et des fichiers audio/vidéo dans de multiples formats, repoussant encore les limites du développement d'applications d'IA.
Cette fonction est particulièrement adaptée aux scénarios suivants.
- Documentation Q&R : Répondez aux questions en vous basant sur les documents téléchargés et sur des sources fiables.
- Résumé du rapport : Les points essentiels de documents volumineux sont rapidement distillés pour générer des résumés.
- Traitement des formulaires : Récupérer et traiter rapidement un contenu spécifique dans divers documents ou feuilles de calcul.
De plus, la fonction de téléchargement de fichiers ouvre la voie à des applications d'IA multimodales.Les développeurs peuvent désormais facilement créer des flux de travail complexes qui comprennent et traitent les images, le son et la vidéo, améliorant ainsi considérablement la fonctionnalité et l'expérience utilisateur de leurs applications.
Démarrage facile grâce à la fonction de téléchargement de fichiers
1. activer le téléchargement direct de fichiers
L'activation du téléchargement de fichiers est très simple : il suffit d'activer le commutateur de téléchargement de fichiers dans la liste des fonctions (par défaut, il s'agit d'une variable système). sys.files ). Les utilisateurs peuvent télécharger des fichiers directement via la boîte de dialogue et le dernier fichier téléchargé remplacera automatiquement le précédent. Si une gestion flexible du contexte est nécessaire, les développeurs peuvent activer la fonction de mémoire.
2. créer des variables personnalisées
Une autre solution consiste à créer des variables personnalisées dans le nœud de départ pour prendre en charge le téléchargement d'un ou de plusieurs fichiers. Une fois configurée, l'interface utilisateur affichera le formulaire de téléchargement de fichiers et le dialogue suivant ainsi que le traitement du flux de travail tourneront toujours autour des fichiers téléchargés.

Après le téléchargement d'un fichier, celui-ci doit également être prétraité en fonction du type de fichier afin que le LLM puisse comprendre et analyser efficacement le contenu. Les fichiers de type document (par exemple TXT, PDF, HTML, etc.) nécessitent une extraction de texte dans le Workflow à l'aide du nœud Document Extractor, qui les convertit en variables de type chaîne de caractères disponibles pour LLM. Les fichiers audio et vidéo doivent être encodés à l'aide d'outils supplémentaires, tels que la conversion de l'audio en texte ou l'extraction d'images clés vidéo. (Il convient de mentionner que le modèle "gpt-40-audio-preview" récemment publié par OpenAI prend en charge le traitement direct de l'audio pour l'inférence et le dialogue, qui sera adapté dans une itération ultérieure de la version).
Dans cette mise à jour, nous avons non seulement ajouté un nouvel extracteur de documents et un nœud de manipulation de listes pour extraire et filtrer des fichiers respectivement, mais nous avons également amélioré la plupart des nœuds de flux de travail, voir l'aide pour plus de détails :
https://docs.dify.ai/zh-hans/guides/workflow/file-upload
Créer rapidement un podcast AI en utilisant les téléchargements de fichiers
L'outil d'IA récemment lancé par Google, NotebookLM, a attiré beaucoup d'attention en raison de sa nouvelle fonction "audio". Elle permet d'analyser rapidement des contenus longs, d'en extraire les informations clés et de générer des résumés audio conversationnels semblables à des podcasts. Cela permet non seulement aux utilisateurs de gagner beaucoup de temps de lecture, mais aussi d'aller plus facilement à l'essentiel du contenu.
Ensuite, nous vous montrerons comment vous pouvez utiliser la fonction de téléchargement de fichiers et les nœuds associés pour transformer des documents en podcasts conversationnels d'IA via un flux de travail, permettant ainsi d'obtenir quelque chose comme la fonction NotebookLM La fonction du
Configuration des paramètres du nœud de départ
Créez un nouveau Chatflow et, dans le nœud de départ, configurez le téléchargement de fichiers et définissez des variables clés (telles que le ton, l'hôte, les invités et la langue).
- ** fichier Les champs de type "Fichier unique" permettent de télécharger des fichiers de type "document".
- ** tonalité Les utilisateurs peuvent personnaliser le style de communication du podcast AI à l'aide d'options déroulantes, notamment Casaul, Formal, Humour, etc.
- ** nom d'hôte **Sélectionner le type "Texte" pour saisir le nom du facilitateur.
- ** nom de l'invité :** Sélectionnez le type "Texte" pour saisir le nom de l'invité.
- ** langue Les utilisateurs peuvent ainsi choisir plus facilement la langue du podcast.
Générer des scripts de podcast à l'aide d'un extracteur de fichiers avec des nœuds LLM
Après un téléchargement de fichier réussi, l'extracteur de documents extrait le texte dans la variable ***file ***, convertissant les données non structurées en contenu textuel traitable. Ensuite, le contenu extrait sera traité par trois nœuds LLM pour générer progressivement le script complet du podcast.
1) LLM Analyse de l'entrée
Le texte extrait est analysé afin de distiller les informations clés nécessaires au podcast, y compris les thèmes importants, les points de l'histoire, les données, etc.
2. nœud de génération de scripts LLM (création du dialogue)
Sur la base du contenu extrait et de variables prédéfinies (telles que le ton, la langue, le nom de l'hôte et le nom de l'invité), des scripts de dialogue de podcast naturels et personnalisés sont générés pour garantir que les interactions entre l'hôte et l'invité sont conformes aux rôles et aux styles définis.
3. nœud de conclusion LLM (Conclusion)
Générer un résumé de podcast qui récapitule les points clés à travers un dialogue entre l'animateur et l'invité, en veillant à ce que la section résumé laisse une impression durable sur l'auditeur et débouche sur des pistes de réflexion ou des suggestions d'action.
Avec le traitement du nœud LLM, nous obtenons le dialogue et le résumé du podcast.
Fusionner des blocs de texte via des nœuds de conversion de modèles
Le nœud de conversion de modèle combine le contenu partiel généré par les nœuds LLM individuels en une sortie complète et le convertit en un format uniforme utilisable par les outils en aval.
- Entrée : Obtenir les extraits de texte des deux nœuds LLM Craft the Dialogue et Conclusion, via les variables *** arg1*** et arg2 Faire une citation.
- Résultat : fusionner *** arg1*** (contenu du dialogue) et *** arg2*** (section résumé) pour générer un script de podcast complet et cohérent, qui est édité au format chaîne de caractères pour faciliter son traitement par les outils ultérieurs.
Configuration et sortie du générateur audio de podcast
Après avoir fusionné le texte, le script passe au nœud de conversion du modèle sortie est transmise au générateur audio du podcast pour lancer l'étape finale de la génération audio.
L'outil génère un podcast audio à partir d'un script texte, et les développeurs peuvent sélectionner les voix de l'hôte et de l'invité (par exemple, "Alloy" et "Shimmer") pour déterminer la façon dont les personnages sonneront. Le générateur de podcasts convertit l'intégralité du script reçu en un fichier audio et le met à disposition pour le téléchargement.

Grâce à ces étapes, vous pourrez facilement apprendre à générer des podcasts AI à l'aide de la fonction de téléchargement de fichiers. Nous avons également créé un modèle de cette application et l'avons placé sur la page Explore pour vous permettre de démarrer rapidement et d'explorer davantage de fonctionnalités.
Autres informations à connaître
Fonction de téléchargement d'images hors ligne
1. pour l'application Chatflow :
Dans la version v0.10.0, nous avons étendu la fonction originale de téléchargement d'images au téléchargement de fichiers, ce qui permet à l'application de gérer davantage de formats de documents et de fichiers audio/vidéo.
- La fonction de téléchargement d'images a été intégrée au téléchargement de fichiers. Lorsque la fonction de téléchargement de fichiers est activée, vous pouvez faire référence à des fichiers tels que des images téléchargées dans la fenêtre de chat en sélectionnant ***sys.file *** via le sélecteur de variables visuelles dans le nœud LLM.
- Nous avons effectué un traitement de compatibilité sur les anciennes versions de l'application afin de nous assurer que les applications qui utilisaient la fonction de téléchargement d'images dans les versions précédentes restent stables.
2. pour les applications de flux de travail :
- Nous vous recommandons de personnaliser la variable "type de fichier" dans le nœud de départ pour les téléchargements de fichiers afin de gérer davantage de types de fichiers.
- Remarque : nous supprimerons l'ancienne fonction de téléchargement d'images et les variables système dans une prochaine version ! sys.file .
Voir le fichier d'aide pour plus d'informations :
https://docs.dify.ai/zh-hans/guides/workflow/bulletin
© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Postes connexes
Pas de commentaires...