Atualização pesada: Dify v0.10.0 apresenta uploads de arquivos, podcasts de IA do NotebookLM fáceis de criar

Notícias sobre IAAtualizado há 10 meses Círculo de compartilhamento de IA

10.5K 00

Dify A Dify se dedica a ajudar os desenvolvedores a fazer com que suas ideias de IA saiam do papel rapidamente, seja validando protótipos de produtos ou criando ferramentas de produtividade. Fluxo de trabalho Todas as melhores escolhas.Na última versão v0.10.0, introduzimos o tão esperado recurso de upload de arquivos, que permite que o Workflow manipule documentos e áudio/vídeo em vários formatos, expandindo ainda mais os limites do desenvolvimento de aplicativos de IA.

Esse recurso é particularmente adequado para os seguintes cenários.

Perguntas e respostas sobre documentação: Responda às perguntas com base nos documentos carregados com fontes confiáveis.
Resumo do relatório: Destilar rapidamente os pontos principais de documentos extensos para gerar resumos.
Processamento de formulários: Recupere e processe rapidamente conteúdo específico em vários documentos ou planilhas.

Além disso, o recurso de upload de arquivos abre caminho para aplicativos de IA multimodais.Os desenvolvedores agora podem criar facilmente fluxos de trabalho complexos que compreendem e processam imagens, áudio e vídeo, melhorando consideravelmente a funcionalidade e a experiência do usuário de seus aplicativos.

Fácil de começar a usar com a função de upload de arquivos

1. habilite o upload de arquivos diretamente

A ativação de uploads de arquivos é muito simples, basta ativar o botão de upload de arquivos na lista de funções (o padrão é uma variável do sistema). sys.files ). Os usuários podem carregar arquivos diretamente pela caixa de diálogo e o último arquivo carregado substituirá automaticamente o anterior. Se for necessário um gerenciamento flexível do contexto, os desenvolvedores poderão ativar o recurso de memória.

2. criação de variáveis personalizadas

Outra maneira é criar variáveis personalizadas no nó inicial para dar suporte a uploads de arquivos únicos ou múltiplos. Uma vez configurada, a interface do usuário exibirá o formulário de upload de arquivo e o diálogo subsequente e o processamento do fluxo de trabalho sempre girarão em torno dos arquivos carregados.

重磅更新：Dify v0.10.0 推出文件上传功能，轻松构建 NotebookLM AI 播客

Após o upload de um arquivo, ele também precisa ser pré-processado de acordo com o tipo de arquivo para que o LLM possa entender e analisar o conteúdo de forma eficaz. Os arquivos do tipo documento (por exemplo, TXT, PDF, HTML etc.) exigem extração de texto no fluxo de trabalho usando o nó Document Extractor, que os converte em variáveis de cadeia de caracteres disponíveis para o LLM. Os arquivos de áudio e vídeo precisam ser codificados com ferramentas adicionais, como áudio para texto ou extração de quadro-chave de vídeo. (Vale a pena mencionar que o modelo "gpt-40-audio-preview" recém-lançado pela OpenAI oferece suporte ao processamento direto de áudio para inferência e diálogo, que será adaptado em uma iteração posterior da versão).

Nesta atualização, não apenas adicionamos um novo nó Document Extractor e List Manipulation para extrair e filtrar arquivos, respectivamente, mas também aprimoramos a maioria dos nós do fluxo de trabalho:
https://docs.dify.ai/zh-hans/guides/workflow/file-upload

Crie rapidamente um podcast de IA usando uploads de arquivos

A recém-lançada ferramenta de IA do Google, NotebookLM, atraiu muita atenção por causa de seu novo recurso de "áudio". Ele pode analisar rapidamente um conteúdo longo, extrair informações importantes e gerar resumos de áudio de conversação semelhantes a podcasts. Isso não apenas economiza muito tempo de leitura para os usuários, mas também facilita a compreensão da essência do conteúdo.

Em seguida, mostraremos como você pode usar o recurso de upload de arquivos e os nós associados para transformar documentos em podcasts de IA de conversação por meio do fluxo de trabalho, permitindo algo como o NotebookLM A função do

Configuração de parâmetros do nó inicial

Crie um novo Chatflow e, no nó inicial, configure os uploads de arquivos e defina as principais variáveis (como tom, host, convidados e idioma).

** arquivo Selecione o tipo de campo "Single File" para permitir o upload de arquivos do tipo documento.
** tom : permite que os usuários personalizem o estilo de comunicação do podcast de IA usando tipos de "opção suspensa", incluindo Casaul, Formal, Humorístico e assim por diante.
** nome do host Selecione o tipo "Texto" para inserir o nome do facilitador.
** nome_do_convidado Selecione o tipo "Text" (Texto) para inserir o nome do hóspede.
** idioma Use um tipo de "opção suspensa", fornecendo opções para chinês, inglês, japonês etc., para facilitar a escolha do idioma do podcast pelos usuários.

Geração de scripts de podcast usando o File Extractor com nós LLM

Após um upload de arquivo bem-sucedido, o extrator de documentos extrai o texto na variável ***file ***, convertendo dados não estruturados em conteúdo de texto processável. Em seguida, o conteúdo extraído é processado por meio de três nós LLM para gerar gradualmente o script completo do podcast.

1. LLM Analise a entrada

O texto extraído é analisado para destilar as principais informações necessárias para o podcast, incluindo temas importantes, pontos da história, dados etc., estabelecendo a base para a geração subsequente do conteúdo do podcast.

2) Nó de geração de script LLM (criar o diálogo)

Com base no conteúdo extraído e nas variáveis predefinidas (como tom, idioma, nome do anfitrião e nome do convidado), são gerados scripts de diálogo de podcast naturais e personalizados para garantir que as interações entre o anfitrião e o convidado estejam de acordo com as funções e os estilos definidos.

3. nó de conclusão do LLM (Conclusão)

Gere um resumo do podcast que recapitule os pontos principais por meio de um diálogo entre o anfitrião e o convidado, garantindo que a seção de resumo deixe uma impressão duradoura no ouvinte e leve a alguma reflexão ou sugestão de ação.

Com o processamento dos nós LLM, obtemos o diálogo e o resumo do podcast.

Mesclar blocos de texto por meio de nós de conversão de modelos

O nó Template Conversion combina o conteúdo parcial gerado por cada nó do LLM em uma saída completa e o converte em um formato uniforme utilizável por ferramentas downstream.

Entrada: obtenha os trechos de texto dos dois nós LLM Craft, Diálogo e Conclusão, por meio das variáveis *** arg1*** e arg2 Faça uma citação.
Saída: mescla *** arg1*** (conteúdo do diálogo) e *** arg2*** (seção de resumo) para gerar um script de podcast completo e coerente, que é enviado em formato de cadeia de caracteres para facilitar o processamento por ferramentas subsequentes.

Configuração e saída do gerador de áudio de podcast

Depois de concluir a mesclagem do texto, o script passa o nó de conversão de modelo saída é passada para o gerador de áudio do podcast para iniciar o estágio final da geração de áudio.

A ferramenta gera áudio de podcast a partir de um script de texto, e os desenvolvedores podem selecionar as vozes do anfitrião e do convidado (por exemplo, "Alloy" e "Shimmer") para determinar como os personagens soarão. O gerador de podcast converte o script completo recebido em um arquivo de áudio e o disponibiliza para download.

Com essas etapas, você pode dominar facilmente como gerar podcasts de IA usando o recurso de upload de arquivos. Também criamos um modelo desse aplicativo e o colocamos na página Explorar para facilitar o início rápido e a exploração de mais recursos.

Outros aspectos que você precisa saber

Declaração off-line da função de upload de imagem

1. para o aplicativo Chatflow:

Na versão v0.10.0, estendemos o recurso original de upload de imagens para uploads de arquivos, permitindo que o aplicativo manipule mais formatos de documentos e arquivos de áudio/vídeo.

O recurso de upload de imagens foi integrado como parte do upload de arquivos. Quando o recurso de upload de arquivos estiver ativado, você poderá fazer referência a arquivos, como imagens carregadas na janela de bate-papo, selecionando ***sys.file *** por meio do seletor de variável visual no nó LLM.

Realizamos o processamento de compatibilidade em versões mais antigas do aplicativo para garantir que os aplicativos que usavam o recurso de upload de imagens em versões anteriores permaneçam estáveis.

2. para aplicativos de fluxo de trabalho:

Recomendamos personalizar a variável de tipo de arquivo no nó inicial para que os uploads de arquivos possam lidar com mais tipos de arquivos.

Observação: em uma versão futura, deixaremos de lado a antiga função de upload de imagens e as variáveis do sistema! sys.file .

Consulte o arquivo de ajuda para obter mais informações:
https://docs.dify.ai/zh-hans/guides/workflow/bulletin

Notícias sobre IA

Direitos autorais do artigo Círculo de compartilhamento de IA A todos, favor não reproduzir sem permissão.

Publicações relacionadas

Baidu coração amargo... ...O Wenxin Yiyin será totalmente gratuito a partir de 1º de abril, e a função de pesquisa aprofundada on-line

Notícias sobre IA

7mos atrás

08.7K

Windsurf CodiumAI: Assistente de RP atualizado!

Notícias sobre IA

6 meses atrás

09.2K

Baidu Cozy Pod: uma nova geração de ferramentas de marketing para aquisição precisa de clientes usando o corpo inteligente Wenxin

Notícias sobre IA

1 ano atrás

09.8K

Hugging Face 推出 Agent 智能体排行榜：谁是工具调用领域的领导者？

Hugging Face lança classificações corporais de inteligência de agentes: quem é o líder em chamadas de ferramentas?

Notícias sobre IA

7mos atrás

09.7K

Sem comentários

Você precisa estar conectado para participar dos comentários!

Faça login agora

Nenhum comentário...

Atualização pesada: Dify v0.10.0 apresenta uploads de arquivos, podcasts de IA do NotebookLM fáceis de criar

Fácil de começar a usar com a função de upload de arquivos