Dify O Dify Workflow se dedica a ajudar os desenvolvedores a fazer com que suas ideias de IA saiam do papel rapidamente, seja para validar protótipos de produtos ou criar ferramentas de produtividade.Na última versão v0.10.0, introduzimos o tão esperado recurso de upload de arquivos, que permite que o Workflow manipule documentos e áudio/vídeo em vários formatos, expandindo ainda mais os limites do desenvolvimento de aplicativos de IA.
Esse recurso é particularmente adequado para os seguintes cenários.
- Perguntas e respostas sobre documentação: Responda às perguntas com base nos documentos carregados com fontes confiáveis.
- Resumo do relatório: Destilar rapidamente os pontos principais de documentos extensos para gerar resumos.
- Processamento de formulários: Recupere e processe rapidamente conteúdo específico em vários documentos ou planilhas.
Além disso, o recurso de upload de arquivos abre caminho para aplicativos de IA multimodais.Os desenvolvedores agora podem criar facilmente fluxos de trabalho complexos que compreendem e processam imagens, áudio e vídeo, melhorando consideravelmente a funcionalidade e a experiência do usuário de seus aplicativos.
Fácil de começar a usar com a função de upload de arquivos
1. habilite o upload de arquivos diretamente
A ativação de uploads de arquivos é muito simples, basta ativar o botão de upload de arquivos na lista de funções (o padrão é uma variável do sistema). sys.files ). Os usuários podem carregar arquivos diretamente pela caixa de diálogo e o último arquivo carregado substituirá automaticamente o anterior. Se for necessário um gerenciamento flexível do contexto, os desenvolvedores poderão ativar o recurso de memória.
2. criação de variáveis personalizadas
Outra maneira é criar variáveis personalizadas no nó inicial para dar suporte a uploads de arquivos únicos ou múltiplos. Uma vez configurada, a interface do usuário exibirá o formulário de upload de arquivo e o diálogo subsequente e o processamento do fluxo de trabalho sempre girarão em torno dos arquivos carregados.
Após o upload de um arquivo, ele também precisa ser pré-processado de acordo com o tipo de arquivo para que o LLM possa entender e analisar o conteúdo de forma eficaz. Os arquivos do tipo documento (por exemplo, TXT, PDF, HTML etc.) exigem extração de texto no fluxo de trabalho usando o nó Document Extractor, que os converte em variáveis de cadeia de caracteres disponíveis para o LLM. Os arquivos de áudio e vídeo precisam ser codificados com ferramentas adicionais, como áudio para texto ou extração de quadro-chave de vídeo. (Vale a pena mencionar que o modelo "gpt-40-audio-preview" recém-lançado pela OpenAI oferece suporte ao processamento direto de áudio para inferência e diálogo, que será adaptado em uma iteração posterior da versão).
Nesta atualização, não apenas adicionamos um novo nó Document Extractor e List Manipulation para extrair e filtrar arquivos, respectivamente, mas também aprimoramos a maioria dos nós do fluxo de trabalho:
https://docs.dify.ai/zh-hans/guides/workflow/file-upload
Crie rapidamente um podcast de IA usando uploads de arquivos
A recém-lançada ferramenta de IA do Google, NotebookLM, atraiu muita atenção por causa de seu novo recurso de "áudio". Ele pode analisar rapidamente um conteúdo longo, extrair informações importantes e gerar resumos de áudio de conversação semelhantes a podcasts. Isso não apenas economiza muito tempo de leitura para os usuários, mas também facilita a compreensão da essência do conteúdo.
Em seguida, mostraremos como você pode usar o recurso de upload de arquivos e os nós associados para transformar documentos em podcasts de IA de conversação por meio do fluxo de trabalho, permitindo algo como o NotebookLM A função do
Configuração de parâmetros do nó inicial
Crie um novo Chatflow e, no nó inicial, configure os uploads de arquivos e defina as principais variáveis (como tom, host, convidados e idioma).
- ** arquivo Selecione o tipo de campo "Single File" para permitir o upload de arquivos do tipo documento.
- ** tom : permite que os usuários personalizem o estilo de comunicação do podcast de IA usando tipos de "opção suspensa", incluindo Casaul, Formal, Humorístico e assim por diante.
- ** nome do host Selecione o tipo "Texto" para inserir o nome do facilitador.
- ** nome_do_convidado Selecione o tipo "Text" (Texto) para inserir o nome do hóspede.
- ** idioma Use um tipo de "opção suspensa", fornecendo opções para chinês, inglês, japonês etc., para facilitar a escolha do idioma do podcast pelos usuários.
Geração de scripts de podcast usando o File Extractor com nós LLM
Após um upload de arquivo bem-sucedido, o extrator de documentos extrai o texto na variável ***file ***, convertendo dados não estruturados em conteúdo de texto processável. Em seguida, o conteúdo extraído é processado por meio de três nós LLM para gerar gradualmente o script completo do podcast.
1. LLM Analise a entrada
O texto extraído é analisado para destilar as principais informações necessárias para o podcast, incluindo temas importantes, pontos da história, dados etc., estabelecendo a base para a geração subsequente do conteúdo do podcast.
2) Nó de geração de script LLM (criar o diálogo)
Com base no conteúdo extraído e nas variáveis predefinidas (como tom, idioma, nome do anfitrião e nome do convidado), são gerados scripts de diálogo de podcast naturais e personalizados para garantir que as interações entre o anfitrião e o convidado estejam de acordo com as funções e os estilos definidos.
3. nó de conclusão do LLM (Conclusão)
Gere um resumo do podcast que recapitule os pontos principais por meio de um diálogo entre o anfitrião e o convidado, garantindo que a seção de resumo deixe uma impressão duradoura no ouvinte e leve a alguma reflexão ou sugestão de ação.
Com o processamento dos nós LLM, obtemos o diálogo e o resumo do podcast.
Mesclar blocos de texto por meio de nós de conversão de modelos
O nó Template Conversion combina o conteúdo parcial gerado por cada nó do LLM em uma saída completa e o converte em um formato uniforme utilizável por ferramentas downstream.
- Entrada: obtenha os trechos de texto dos dois nós LLM Craft, Diálogo e Conclusão, por meio das variáveis *** arg1*** e arg2 Faça uma citação.
- Saída: mescla *** arg1*** (conteúdo do diálogo) e *** arg2*** (seção de resumo) para gerar um script de podcast completo e coerente, que é enviado em formato de cadeia de caracteres para facilitar o processamento por ferramentas subsequentes.
Configuração e saída do gerador de áudio de podcast
Depois de concluir a mesclagem do texto, o script passa o nó de conversão de modelo saída é passada para o gerador de áudio do podcast para iniciar o estágio final da geração de áudio.
A ferramenta gera áudio de podcast a partir de um script de texto, e os desenvolvedores podem selecionar as vozes do anfitrião e do convidado (por exemplo, "Alloy" e "Shimmer") para determinar como os personagens soarão. O gerador de podcast converte o script completo recebido em um arquivo de áudio e o disponibiliza para download.
Com essas etapas, você pode dominar facilmente como gerar podcasts de IA usando o recurso de upload de arquivos. Também criamos um modelo desse aplicativo e o colocamos na página Explorar para facilitar o início rápido e a exploração de mais recursos.
Outros aspectos que você precisa saber
Declaração off-line da função de upload de imagem
1. para o aplicativo Chatflow:
Na versão v0.10.0, estendemos o recurso original de upload de imagens para uploads de arquivos, permitindo que o aplicativo manipule mais formatos de documentos e arquivos de áudio/vídeo.
- O recurso de upload de imagens foi integrado como parte do upload de arquivos. Quando o recurso de upload de arquivos estiver ativado, você poderá fazer referência a arquivos, como imagens carregadas na janela de bate-papo, selecionando ***sys.file *** por meio do seletor de variável visual no nó LLM.
- Realizamos o processamento de compatibilidade em versões mais antigas do aplicativo para garantir que os aplicativos que usavam o recurso de upload de imagens em versões anteriores permaneçam estáveis.
2. para aplicativos de fluxo de trabalho:
- Recomendamos personalizar a variável de tipo de arquivo no nó inicial para que os uploads de arquivos possam lidar com mais tipos de arquivos.
- Observação: em uma versão futura, deixaremos de lado a antiga função de upload de imagens e as variáveis do sistema! sys.file .
Consulte o arquivo de ajuda para obter mais informações:
https://docs.dify.ai/zh-hans/guides/workflow/bulletin