Aprendizagem pessoal com IA
e orientação prática
豆包Marscode1

Atualização pesada: Dify v0.10.0 apresenta uploads de arquivos, podcasts de IA do NotebookLM fáceis de criar

Dify A Dify se dedica a ajudar os desenvolvedores a fazer com que suas ideias de IA saiam do papel rapidamente, seja validando protótipos de produtos ou criando ferramentas de produtividade. Fluxo de trabalho Todas as melhores escolhas.Na última versão v0.10.0, introduzimos o tão esperado recurso de upload de arquivos, que permite que o Workflow manipule documentos e áudio/vídeo em vários formatos, expandindo ainda mais os limites do desenvolvimento de aplicativos de IA.

Esse recurso é particularmente adequado para os seguintes cenários.

  • Perguntas e respostas sobre documentação: Responda às perguntas com base nos documentos carregados com fontes confiáveis.
  • Resumo do relatório: Destilar rapidamente os pontos principais de documentos extensos para gerar resumos.
  • Processamento de formulários: Recupere e processe rapidamente conteúdo específico em vários documentos ou planilhas.

Além disso, o recurso de upload de arquivos abre caminho para aplicativos de IA multimodais.Os desenvolvedores agora podem criar facilmente fluxos de trabalho complexos que compreendem e processam imagens, áudio e vídeo, melhorando consideravelmente a funcionalidade e a experiência do usuário de seus aplicativos.

Fácil de começar a usar com a função de upload de arquivos

1. habilite o upload de arquivos diretamente

A ativação de uploads de arquivos é muito simples, basta ativar o botão de upload de arquivos na lista de funções (o padrão é uma variável do sistema). sys.files ). Os usuários podem carregar arquivos diretamente pela caixa de diálogo e o último arquivo carregado substituirá automaticamente o anterior. Se for necessário um gerenciamento flexível do contexto, os desenvolvedores poderão ativar o recurso de memória.

2. criação de variáveis personalizadas

Outra maneira é criar variáveis personalizadas no nó inicial para dar suporte a uploads de arquivos únicos ou múltiplos. Uma vez configurada, a interface do usuário exibirá o formulário de upload de arquivo e o diálogo subsequente e o processamento do fluxo de trabalho sempre girarão em torno dos arquivos carregados.


重磅更新:Dify v0.10.0 推出文件上传功能,轻松构建 NotebookLM AI 播客-1

 

Após o upload de um arquivo, ele também precisa ser pré-processado de acordo com o tipo de arquivo para que o LLM possa entender e analisar o conteúdo de forma eficaz. Os arquivos do tipo documento (por exemplo, TXT, PDF, HTML etc.) exigem extração de texto no fluxo de trabalho usando o nó Document Extractor, que os converte em variáveis de cadeia de caracteres disponíveis para o LLM. Os arquivos de áudio e vídeo precisam ser codificados com ferramentas adicionais, como áudio para texto ou extração de quadro-chave de vídeo. (Vale a pena mencionar que o modelo "gpt-40-audio-preview" recém-lançado pela OpenAI oferece suporte ao processamento direto de áudio para inferência e diálogo, que será adaptado em uma iteração posterior da versão).

Nesta atualização, não apenas adicionamos um novo nó Document Extractor e List Manipulation para extrair e filtrar arquivos, respectivamente, mas também aprimoramos a maioria dos nós do fluxo de trabalho:

https://docs.dify.ai/zh-hans/guides/workflow/file-upload

Crie rapidamente um podcast de IA usando uploads de arquivos

A recém-lançada ferramenta de IA do Google, NotebookLM, atraiu muita atenção por causa de seu novo recurso de "áudio". Ele pode analisar rapidamente um conteúdo longo, extrair informações importantes e gerar resumos de áudio de conversação semelhantes a podcasts. Isso não apenas economiza muito tempo de leitura para os usuários, mas também facilita a compreensão da essência do conteúdo.

Em seguida, mostraremos como você pode usar o recurso de upload de arquivos e os nós associados para transformar documentos em podcasts de IA de conversação por meio do fluxo de trabalho, permitindo algo como o NotebookLM A função do

重磅更新:Dify v0.10.0 推出文件上传功能,轻松构建 NotebookLM AI 播客-1

 

Configuração de parâmetros do nó inicial

Crie um novo Chatflow e, no nó inicial, configure os uploads de arquivos e defina as principais variáveis (como tom, host, convidados e idioma).

  • ** arquivo Selecione o tipo de campo "Single File" para permitir o upload de arquivos do tipo documento.
  • ** tom : permite que os usuários personalizem o estilo de comunicação do podcast de IA usando tipos de "opção suspensa", incluindo Casaul, Formal, Humorístico e assim por diante.
  • ** nome do host Selecione o tipo "Texto" para inserir o nome do facilitador.
  • ** nome_do_convidado Selecione o tipo "Text" (Texto) para inserir o nome do hóspede.
  • ** idioma Use um tipo de "opção suspensa", fornecendo opções para chinês, inglês, japonês etc., para facilitar a escolha do idioma do podcast pelos usuários.

重磅更新:Dify v0.10.0 推出文件上传功能,轻松构建 NotebookLM AI 播客-1

 

Geração de scripts de podcast usando o File Extractor com nós LLM

Após um upload de arquivo bem-sucedido, o extrator de documentos extrai o texto na variável ***file ***, convertendo dados não estruturados em conteúdo de texto processável. Em seguida, o conteúdo extraído é processado por meio de três nós LLM para gerar gradualmente o script completo do podcast.

1. LLM Analise a entrada

O texto extraído é analisado para destilar as principais informações necessárias para o podcast, incluindo temas importantes, pontos da história, dados etc., estabelecendo a base para a geração subsequente do conteúdo do podcast.

2) Nó de geração de script LLM (criar o diálogo)

Com base no conteúdo extraído e nas variáveis predefinidas (como tom, idioma, nome do anfitrião e nome do convidado), são gerados scripts de diálogo de podcast naturais e personalizados para garantir que as interações entre o anfitrião e o convidado estejam de acordo com as funções e os estilos definidos.

3. nó de conclusão do LLM (Conclusão)

Gere um resumo do podcast que recapitule os pontos principais por meio de um diálogo entre o anfitrião e o convidado, garantindo que a seção de resumo deixe uma impressão duradoura no ouvinte e leve a alguma reflexão ou sugestão de ação.

Com o processamento dos nós LLM, obtemos o diálogo e o resumo do podcast.

重磅更新:Dify v0.10.0 推出文件上传功能,轻松构建 NotebookLM AI 播客-1

 

Mesclar blocos de texto por meio de nós de conversão de modelos

O nó Template Conversion combina o conteúdo parcial gerado por cada nó do LLM em uma saída completa e o converte em um formato uniforme utilizável por ferramentas downstream.

  • Entrada: obtenha os trechos de texto dos dois nós LLM Craft, Diálogo e Conclusão, por meio das variáveis *** arg1*** e arg2 Faça uma citação.
  • Saída: mescla *** arg1*** (conteúdo do diálogo) e *** arg2*** (seção de resumo) para gerar um script de podcast completo e coerente, que é enviado em formato de cadeia de caracteres para facilitar o processamento por ferramentas subsequentes.

重磅更新:Dify v0.10.0 推出文件上传功能,轻松构建 NotebookLM AI 播客-1

 

Configuração e saída do gerador de áudio de podcast

Depois de concluir a mesclagem do texto, o script passa o nó de conversão de modelo saída é passada para o gerador de áudio do podcast para iniciar o estágio final da geração de áudio.

A ferramenta gera áudio de podcast a partir de um script de texto, e os desenvolvedores podem selecionar as vozes do anfitrião e do convidado (por exemplo, "Alloy" e "Shimmer") para determinar como os personagens soarão. O gerador de podcast converte o script completo recebido em um arquivo de áudio e o disponibiliza para download.

重磅更新:Dify v0.10.0 推出文件上传功能,轻松构建 NotebookLM AI 播客-1

 

Com essas etapas, você pode dominar facilmente como gerar podcasts de IA usando o recurso de upload de arquivos. Também criamos um modelo desse aplicativo e o colocamos na página Explorar para facilitar o início rápido e a exploração de mais recursos.

Outros aspectos que você precisa saber

Declaração off-line da função de upload de imagem

1. para o aplicativo Chatflow:

Na versão v0.10.0, estendemos o recurso original de upload de imagens para uploads de arquivos, permitindo que o aplicativo manipule mais formatos de documentos e arquivos de áudio/vídeo.

  • O recurso de upload de imagens foi integrado como parte do upload de arquivos. Quando o recurso de upload de arquivos estiver ativado, você poderá fazer referência a arquivos, como imagens carregadas na janela de bate-papo, selecionando ***sys.file *** por meio do seletor de variável visual no nó LLM.
  • 重磅更新:Dify v0.10.0 推出文件上传功能,轻松构建 NotebookLM AI 播客-1

 

  • Realizamos o processamento de compatibilidade em versões mais antigas do aplicativo para garantir que os aplicativos que usavam o recurso de upload de imagens em versões anteriores permaneçam estáveis.

2. para aplicativos de fluxo de trabalho:

  • Recomendamos personalizar a variável de tipo de arquivo no nó inicial para que os uploads de arquivos possam lidar com mais tipos de arquivos.
  • 重磅更新:Dify v0.10.0 推出文件上传功能,轻松构建 NotebookLM AI 播客-1

 

  • Observação: em uma versão futura, deixaremos de lado a antiga função de upload de imagens e as variáveis do sistema! sys.file .

Consulte o arquivo de ajuda para obter mais informações:

https://docs.dify.ai/zh-hans/guides/workflow/bulletin

Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Atualização pesada: Dify v0.10.0 apresenta uploads de arquivos, podcasts de IA do NotebookLM fáceis de criar
pt_BRPortuguês do Brasil