Texto original:https://arxiv.org/pdf/2309.04269
Leitura rápida:De esparso a denso: geração de abstratos GPT-4 usando dicas de densidade encadeadas
Coletado em:Resumir o conhecimento de prompts comumente usados
resumos
Determinar a quantidade "certa" de informações a serem incluídas em um resumo de texto automatizado é uma tarefa desafiadora. Um bom resumo precisa ser detalhado e centrado na entidade e, ao mesmo tempo, evitar ser muito longo e difícil de entender. Para entender melhor essa troca, propomos um método de sugestão chamado Chain of Density (CoD), pelo qual o GPT-4 é capaz de gerar resumos cada vez mais densos. Descobrimos que os resumos gerados pelo CoD são mais abstratos, mais convergentes e têm menos viés de abertura do que os resumos do GPT-4 gerados usando dicas normais. Usando um estudo de preferência humana de 100 artigos da CNN/DailyMail, descobrimos que os seres humanos preferem resumos mais densos do que os resumos do GPT-4 gerados com dicas normais, e que sua densidade é quase comparável à dos resumos escritos manualmente.
1. introdução
As técnicas de sumarização automatizada percorreram um longo caminho nos últimos anos, em grande parte graças à mudança de paradigma do ajuste fino supervisionado para a solicitação de amostra zero usando modelos de linguagem em grande escala (LLMs). Por exemplo, o GPT-4 pode obter um controle refinado sobre os recursos de resumo (por exemplo, comprimento, tópico e estilo) com dicas bem projetadas sem treinamento adicional.
No entanto, a densidade de informações de um resumo é um aspecto que muitas vezes não é levado em consideração. Teoricamente, como uma compressão de outro texto, um resumo deve conter uma concentração maior de informações do que o documento de origem. No entanto, a densidade de um resumo é uma questão em aberto. Se um resumo contiver informações insuficientes, ele será inconsequente; se contiver informações demais, poderá se tornar difícil de entender sem aumentar o tamanho geral. Comunicar mais informações dentro de um orçamento fixo de tokens requer uma combinação de abstração, compressão e fusão. Há um limite para a quantidade de espaço que pode ser criado para informações adicionais antes que elas se tornem incompreensíveis ou até mesmo factualmente incorretas.
2. pistas de densidade encadeadas (CoD)
2.1 Objetivos
Nosso objetivo era gerar um conjunto de resumos GPT-4 com densidades de informações variadas e, ao mesmo tempo, controlar o comprimento, que se mostrou um forte fator de confusão na avaliação de resumos. Para isso, projetamos uma única dica de densidade encadeada (CoD) por meio da qual um resumo inicial é gerado e se torna progressivamente mais denso em entidades. Especificamente, para um número fixo de rodadas, um conjunto exclusivo de entidades salientes é identificado a partir do texto de origem e fundido no resumo anterior sem aumentar o comprimento. O primeiro resumo é esparso em entidades, pois se concentra apenas em 1 a 3 entidades iniciais.
2.2 Dados
Selecionamos aleatoriamente 100 artigos do conjunto de testes de resumos da CNN/DailyMail para gerar resumos de CoD.
2.3 Pontos de referência
Para fins de comparação, comparamos as estatísticas dos resumos de CoD com resumos de referência de pontos de bala escritos manualmente e resumos de GPT-4 gerados usando prompts comuns:
- Dicas comuns: "Escreva um breve resumo do artigo em no máximo 70 palavras".
Definimos o comprimento do token necessário para corresponder ao comprimento do resumo do CoD (conforme mostrado na tabela abaixo).
2.4 Exemplos de dicas
Abaixo está um exemplo de um prompt de CoD:
Gere um resumo bem curto, com no máximo 70 palavras. Em seguida, adicione gradualmente de 1 a 3 entidades importantes que estejam faltando, sem aumentar o tamanho.
Exemplo de um prompt completo de CoD (original em inglês).
Artigo: {{ ARTICLE }}
Você gerará resumos cada vez mais concisos e densos em entidades do artigo acima.
Repita as duas etapas a seguir cinco vezes.
Etapa 1: Identifique de 1 a 3 entidades informativas (";" delimitadas) do artigo que estão faltando no resumo gerado anteriormente.
Etapa 2: Escreva um novo resumo mais denso, de tamanho idêntico, que abranja todas as entidades e detalhes do resumo anterior, além das entidades ausentes.
Uma entidade ausente é
- relevante para o assunto principal históriaespecífico, porém conciso (5 palavras ou menos)
- específico, porém conciso (5 palavras ou menos), novidade (não consta no resumo anterior), novidade (não consta no resumo anterior) e
- novidade (não no resumo anterior), fiel (presente no artigo), e
- fiel (presente no artigo), em qualquer lugar (pode ser localizado em qualquer lugar do artigo).
- (não no resumo anterior), fiel (presente no artigo), em qualquer lugar (pode ser localizado em qualquer lugar no artigo).
Diretrizes.
- O primeiro resumo deve ser longo (4-5 frases, ~80 palavras), mas altamente inespecífico, contendo poucas informações além das entidades marcadas como ausentes. Use linguagem excessivamente verborrágica e preenchimentos (por exemplo, "este artigo discute") para atingir cerca de 80 palavras.
- Faça com que cada palavra conte: reescreva o resumo anterior para melhorar o fluxo e abrir espaço para entidades adicionais.
- Crie espaço com fusão, compactação e remoção de frases não informativas, como "o artigo discute".
- Os resumos devem se tornar altamente densos e concisos, mas autônomos, ou seja, facilmente compreendidos sem o artigo.
- As entidades ausentes podem aparecer em qualquer lugar do novo resumo.
- Nunca elimine entidades do resumo anterior. Se não for possível criar espaço, adicione menos entidades novas.
Lembre-se de usar exatamente o mesmo número de palavras para cada resumo.
Responda em JSON. O JSON deve ser uma lista (tamanho 5) de dicionários cujas chaves são "Missing_Entities" e "Denser_Summary".
Explicação das dicas.
Essa palavra-chave detalhada de CoD foi projetada para orientar o GPT-4 no sentido de gerar progressivamente resumos mais densos, com a ideia central de adicionar novas entidades-chave ao resumo a cada rodada por meio de um processo iterativo, mantendo o comprimento do resumo constante. Vamos detalhar as partes dessa palavra-chave:
Artigo: {{ ARTICLE }}
: Este é um espaço reservado para o conteúdo do artigo que você deseja resumir.{{ ARTICLE }}
.Você gerará resumos cada vez mais concisos e densos em entidades do artigo acima.
Essa é a essência da diretriz, informando ao modelo que o objetivo é gerar resumos cada vez mais concisos e densos em termos de entidades.Repita as duas etapas a seguir cinco vezes.
Especificar o número de iterações como 5 significa que o modelo repetirá as próximas duas etapas por cinco rodadas, aumentando gradualmente a densidade dos resumos.Etapa 1: Identifique de 1 a 3 entidades informativas (";" delimitadas) do artigo que estão faltando no resumo gerado anteriormente.
: Etapa 1: Identificar entidades ausentes. O modelo precisa identificar de uma a três entidades informativas do artigo original, que não devem ter aparecido em resumos gerados anteriormente. As entidades são separadas por ponto e vírgula;
Separação.Etapa 2: Escreva um novo resumo, mais denso e de tamanho idêntico, que abranja todas as entidades e detalhes do resumo anterior, além das entidades que faltam.
: Etapa 2: Gerar um resumo mais denso. O modelo precisa gerar um novo resumo com base no resumo anterior, incorporando as entidades ausentes identificadas na etapa 1. É fundamental que o novo resumo tenha exatamente o mesmo tamanho do resumo anterior, o que força o modelo a comprimir e fundir as informações para acomodar as novas entidades.Uma entidade ausente é.
:: define critérios para "entidades ausentes" para garantir que as entidades selecionadas sejam de alta qualidade e relevantes:- relevantes para a história principal
Relaciona-se com a história principal do artigo.- específico e conciso (5 palavras ou menos)
:: Específico e conciso, não mais do que cinco palavras.- romance (não está no resumo anterior)
Não presente nos resumos anteriores.- fiel (presente no artigo)
Deve ser real no artigo.- em qualquer lugar (pode ser localizado em qualquer parte do artigo)
Pode ser localizado em qualquer parte do artigo.
Diretrizes.
Guia do usuário: Uma série de guias é fornecida para instruir o modelo com mais detalhes sobre como executar a tarefa de geração de resumo:- O primeiro resumo deve ser longo (4-5 frases, ~80 palavras), mas altamente não específico...
: Orientação para o primeiro resumoResumo: O primeiro resumo deve ser mais longo (~80 palavras, 4-5 frases), mas menos informativo, com o objetivo principal de estabelecer as bases para as iterações subsequentes. Pode ser usada linguagem redundante e palavras de preenchimento.- Faça cada palavra valer a pena: reescreva o resumo anterior para melhorar o fluxo e abrir espaço para entidades adicionais.
: simplificar a linguagem: ênfase na necessidade de reescrever resumos anteriores para otimizar a expressão linguística e abrir espaço para a inclusão de novas entidades.- Abra espaço com a fusão, a compactação e a remoção de frases não informativas, como "o artigo discute".
: técnica de dimensionamento de espaço:: declarar explicitamente o uso de técnicas como fusão, compactação e remoção de frases não informativas para compactar resumos.- Os resumos devem ser altamente densos e concisos, mas autônomos, ou seja, facilmente compreendidos sem o artigo.
: Resumo dos objetivos de qualidade:: O resumo final deve ser altamente denso e conciso, mas ao mesmo tempo autônomo, ou seja, o conteúdo do resumo pode ser compreendido sem a leitura do texto original.- As entidades ausentes podem aparecer em qualquer lugar no novo resumo.
: localização física:: As entidades recém-adicionadas podem aparecer em qualquer lugar no novo resumo.- Nunca elimine entidades do resumo anterior. Se não for possível criar espaço, adicione menos entidades novas.
: Reservas de entidadesObservação: Saliente que as entidades de resumos anteriores nunca devem ser excluídas. Se não houver espaço suficiente, novas entidades podem ser adicionadas com moderação.- Lembre-se de usar exatamente o mesmo número de palavras para cada resumo.
: uniforme:: Reenfatizar a necessidade de consistência no tamanho dos resumos gerados em cada rodada.Responda em JSON. O JSON deve ser uma lista (tamanho 5) de dicionários cujas chaves são "Missing_Entities" e "Denser_Summary".
: formato de saídaO JSON deve ser uma lista de 5 dicionários, cada um contendo as chaves "Missing_Entities" (entidades ausentes adicionadas nesta rodada) e "Denser_Summary" (resumo mais denso gerado nesta rodada).
Figura 1:: Dicas de densidade encadeada (CoD) e exemplo de saída. Em cada etapa, de 1 a 3 detalhes adicionais (entidades) são adicionados ao resumo anterior sem aumentar o tamanho. O conteúdo existente é reescrito (por exemplo, comprimido, fundido) para abrir espaço para novas entidades. Metade dos anotadores (2/4) preferiu o penúltimo resumo e o restante preferiu o último.
Exemplo de uso real de palavras-chave de CoD:
Suponha que tenhamos um artigo de notícias sobre a "visita do presidente dos EUA, Joe Biden, à Polônia" e que queiramos gerar uma série de resumos de diferentes densidades usando dicas de CoD.
Etapa 1: Prepare-se para inserir o artigo
Em primeiro lugar, precisamos preparar o conteúdo do artigo de notícias, por exemplo:
O presidente dos EUA, Joe Biden, chegou à Polônia em uma visita para se reunir com o presidente polonês Andrzej Duda. A visita coincide com o primeiro aniversário do conflito russo-ucraniano, e espera-se que os dois líderes discutam a segurança regional, mais apoio à Ucrânia e o fortalecimento do flanco oriental da OTAN, entre outros tópicos. A visita de Biden reconhece os esforços da Polônia em apoiar os refugiados ucranianos e fornecer assistência militar à Ucrânia. Além disso, Biden deve fazer um grande discurso em Varsóvia sobre o conflito russo-ucraniano e se reunir com soldados americanos na Polônia.
Etapa 2: Crie a solicitação de API (API OpenAI como exemplo)
Usaremos a API OpenAI (ou outra API compatível com o modelo GPT-4) para enviar a solicitação. A parte do corpo da solicitação conterá nossa palavra de prompt CoD e o {{ ARTICLE }}
Substitua-o pelo conteúdo do artigo preparado.
{
"model": "gpt-4".
"prompt": "Artigo: O presidente dos EUA, Joe Biden, chega à Polônia para uma visita e se reúne com o presidente polonês Andrzej Duda. A visita coincide com o primeiro aniversário do conflito russo-ucraniano, e espera-se que os dois líderes discutam a segurança regional, mais apoio à Ucrânia e o fortalecimento do flanco oriental da OTAN, entre outros tópicos. A visita de Biden reconhece os esforços da Polônia em apoiar os refugiados ucranianos e fornecer assistência militar à Ucrânia. Além disso, Biden deve fazer um grande discurso em Varsóvia sobre o conflito russo-ucraniano e se reunir com soldados dos EUA na Polônia. \nVocê gerará resumos cada vez mais concisos e densos em entidades do artigo acima.\n\nRepita as duas etapas a seguir cinco vezes.\n\nEtapa 1. Identificar 1 Identifique de 1 a 3 entidades informativas (delimitadas por \";\") do artigo que estão faltando no resumo gerado anteriormente.\nEtapa 2. Escreva um resumo novo e mais denso, de tamanho idêntico, que cubra todos os resumos com entidades. Escreva um novo resumo, mais denso e de tamanho idêntico, que abranja todas as entidades e detalhes do resumo anterior, além das entidades ausentes. relevante para a história principal, \n- específico, porém conciso (5 palavras ou menos), \n- novo (não está no resumo anterior), \n- fiel (presente no artigo), \n- em qualquer lugar (pode ser localizado em qualquer lugar no artigo), \n- um novo resumo mais denso e de tamanho idêntico que abranja todas as entidades e detalhes do resumo anterior mais a entidade ausente. em qualquer lugar (pode ser localizado em qualquer parte do artigo). \n\nOrientações:\n\n- O primeiro resumo deve ser longo (4-5 frases, aproximadamente 80 palavras), mas altamente inespecífico, contendo poucas informações além das entidades marcadas como ausentes. Use linguagem excessivamente prolixa e preenchimentos (por exemplo, \"este artigo discute\") para atingir cerca de 80 palavras.\n- Faça com que cada palavra conte. Reescreva o resumo anterior para melhorar o fluxo e abrir espaço para entidades adicionais.\n- Abra espaço com fusão, compactação e remoção de frases não informativas como \"o artigo discute\". \n- Os resumos devem se tornar altamente densos e concisos, mas autônomos, ou seja, facilmente compreendidos sem o artigo. \n- As entidades ausentes podem aparecer em qualquer lugar do novo resumo. Se não for possível criar espaço, adicione menos entidades novas. \n\nLembre-se de usar exatamente o mesmo número de palavras para cada resumo. Lembre-se, use exatamente o mesmo número de palavras para cada resumo.\n\nResponda em JSON. O JSON deve ser uma lista (tamanho 5) de dicionários cujas chaves são \"Missing_Entities\" e \"Denser_Entities\". e \"Denser_Summary\"." , "max_tokens".
"max_tokens": 1000, // Certifique-se de que o modelo tenha tokens suficientes para gerar a saída JSON completa.
"temperature": 0.7 // Temperatura ajustável para controlar a aleatoriedade dos resultados gerados.
}
Etapa 3: Enviar solicitação de API e receber resposta JSON
Envie a solicitação JSON acima para o ponto de extremidade da API da OpenAI. A API retorna uma resposta no formato JSON contendo um resumo das cinco densidades diferentes e as entidades ausentes adicionadas em cada etapa.
Etapa 4: Analisar a resposta JSON e usar o Digest
Analisa a resposta JSON retornada pela API. Você obterá uma lista JSON, semelhante a:
{
"Missing_Entities": [], "Denser_Summary": "Este artigo discute uma visita.
"Denser_Summary": "Este artigo discute uma visita. Trata-se de um presidente visitando um país. O presidente é americano. O país é a Polônia. A visita acontece em um momento de conflito, que envolve a Rússia e a Ucrânia. O objetivo da visita é demonstrar apoio e discutir assuntos importantes.
Mais detalhes serão fornecidos.}
Mais detalhes serão fornecidos." }, {
"Denser_Summary": "O presidente dos EUA, Joe Biden, visitou a Polônia e se reuniu com o presidente polonês Andrzej Duda. Essa visita trata de relações internacionais e acontece durante a cúpula Rússia-Ucrânia. Essa visita é sobre relações internacionais e está acontecendo durante o conflito Rússia-Ucrânia. Eles discutirão apoio e segurança.
}, {
Mais detalhes são esperados." }, {
"Denser_Summary": "O presidente dos EUA, Joe Biden, reuniu-se com o presidente polonês, Andrzej Duda, na Polônia, no aniversário de um ano do conflito entre a Rússia e a Ucrânia. Eles discutiram a segurança regional e o apoio à Ucrânia, com foco nas relações internacionais."
}, {
{
"Denser_Summary": "No aniversário de um ano do conflito Rússia-Ucrânia, o presidente dos EUA, Joe Biden, visitou a Polônia, encontrando-se com o presidente Andrzej Duda para discutir a segurança regional, o apoio à Ucrânia (incluindo refugiados e ajuda militar) e o fortalecimento do flanco oriental da OTAN."
}, {
{
"Missing_Entities": ["Warsaw"; "major speech"; "U.S. troops in Poland" ], { "Denser_Summary".
"Denser_Summary": "Para marcar o primeiro ano do conflito Rússia-Ucrânia, o presidente dos EUA, Joe Biden, visitou Varsóvia, na Polônia, e se reuniu com o presidente Andrzej Duda para discutir a segurança regional, as relações ucranianas e internacionais e a necessidade de uma abordagem mais abrangente do conflito. O presidente Joe Biden visitou Varsóvia, na Polônia, e se reuniu com o presidente Andrzej Duda para discutir a segurança regional, o apoio aos refugiados ucranianos e a ajuda militar, o fortalecimento do flanco oriental da OTAN e o grande discurso planejado por Biden e a reunião com as tropas dos EUA. e reunião com as tropas dos EUA na Polônia".
}
]
Você pode escolher a densidade certa de resumos de acordo com suas necessidades. Por exemplo, se você precisar de um resumo muito curto, poderá escolher o primeiro ou o segundo; se precisar de um resumo mais detalhado, mas ainda assim conciso, poderá escolher o quarto ou o quinto.
Cenários de aplicação prática:
- Agregação de notícias e recomendação de conteúdo: forneça diferentes densidades de resumos para diferentes usuários ou plataformas para atender a diferentes necessidades de informações.
- Recuperação de informações: exibir diferentes densidades de resumos nos resultados de pesquisa para ajudar os usuários a avaliar rapidamente a relevância dos artigos.
- Auxílio à compreensão de leitura: ajuda os leitores a entender o conteúdo do texto do início ao fim, aumentando gradualmente a densidade dos resumos.
- Geração de conteúdo de mídia social: gere resumos de diferentes comprimentos e densidades para diferentes plataformas de mídia social (por exemplo, Twitter, Facebook).
Com as etapas acima, você pode usar efetivamente as palavras-chave de CoD na prática para gerar resumos de texto de alta qualidade e multidensidade com o GPT-4.
3. dados estatísticos
3.1 Estatísticas diretas
Na Tabela 1, calculamos os tokens usando NLTK, medimos as entidades exclusivas usando Spacy e calculamos as densidades das entidades como proporções. De fato, a segunda etapa leva a uma redução média de 5 tokens (de 72 para 67), pois as palavras desnecessárias são removidas do resumo inicialmente extenso. A densidade de entidades aumentou - partindo de um valor inicial de 0,089, inferior ao GPT-4 humano e regular (0,151 e 0,122, respectivamente) - para 0,167 após 5 etapas de densificação.
Etapas do CoD | Token | coisa que tem uma existência material (em oposição a uma existência conceitual, virtual ou on-line) | Densidade (E/T) |
---|---|---|---|
1 | 72 | 6.4 | 0.089 |
2 | 67 | 8.7 | 0.129 |
3 | 67 | 9.9 | 0.148 |
4 | 69 | 10.8 | 0.158 |
5 | 72 | 12.1 | 0.167 |
humanidade | 60 | 8.8 | 0.151 |
Geral GPT-4 | 70 | 8.5 | 0.122 |
3.2 Estatísticas indiretas
A cada etapa do CoD, a abstração deve aumentar à medida que o resumo é reescrito iterativamente para abrir espaço para cada entidade adicional. Medimos a abstração usando a densidade extrativa: o comprimento médio ao quadrado dos fragmentos extraídos. Da mesma forma, o nível de fusão deve aumentar monotonicamente à medida que as entidades são adicionadas a um resumo de comprimento fixo. Fazemos o proxy da fusão como o número médio de sentenças de origem alinhadas para cada sentença abstrata. Para o alinhamento, usamos o método de ganho relativo de ROUGE, que alinha as sentenças de origem às sentenças de destino até que o ganho relativo de ROUGE das sentenças adicionadas não seja mais positivo. Também esperamos que a distribuição de conteúdo - a posição no artigo de onde o conteúdo do resumo foi extraído - seja alterada. Especificamente, esperamos que os resumos CoD apresentem inicialmente uma forte tendência de abertura (Lead Bias), mas gradualmente comecem a introduzir entidades do meio e do final do artigo. Para medir isso, usamos o alinhamento na fusão e medimos a classificação média das frases de todas as frases de origem alinhadas. A Figura 2 confirma essas hipóteses: à medida que a etapa de reescrita aumenta, a abstração aumenta (painel esquerdo), a taxa de fusão aumenta (painel central) e os resumos começam a incluir conteúdo do meio e do fim do artigo (painel direito). É interessante notar que todos os resumos CoD são mais abstratos do que os resumos escritos à mão e os resumos de linha de base.
Figura 2Resumo: Os resumos gerados pelo CoD estão se tornando mais abstratos, ao mesmo tempo em que apresentam mais convergência e menos tendência inicial.
4. resultados
4.1 Preferências humanas
Para entender melhor as vantagens e desvantagens apresentadas pelos resumos de CdD, realizamos um estudo baseado em preferências com uma avaliação de pontuação do GPT-4.
Etapas do CoD | Porcentagem de votos para o primeiro lugar (anotador único) | somar o total | ||
---|---|---|---|---|
1 | 3.0 2.0 | 13.0 | 17.4 | 8.3 |
2 | 25.0 28.0 | 43.0 | 31.4 | 30.8 |
3 | 22.0 28.0 21.0 | 24.4 | 23.0 | |
4 | 29.0 25.0 13.0 | 26.7 | 22.5 | |
5 | 21.0 17.0 10.0 | 16.3 | 15.5 |
Tabela 1:: Resumo do CoD das porcentagens de votos do primeiro colocado por etapa. Com base nas preferências combinadas, as etapas do CoD têm uma pluralidade de 2, uma mediana de 3 e um valor esperado de 3,06.
Primeiro, relatamos um valor baixo de 0,112 para o kappa de Fleiss (Fleiss, 1971), o que sugere que as diferenças sutis entre os resumos e a natureza da tarefa são subjetivas. Estudos recentes também observaram baixa concordância em nível de instância ao julgar resumos baseados em GPT (Goyal et al., 2022).
No entanto, no nível do sistema, algumas tendências estão começando a surgir. Para 3 dos 4 anotadores, a etapa 1 do CoD recebeu a maior parte dos votos de primeiro lugar entre 100 exemplos (28%, 43% e 31,4%, respectivamente). No entanto, em conjunto, o resumo do primeiro lugar de 61% (23,0+22,5+15,5) envolveu ≥3 etapas de densificação. O número médio de etapas de CoD preferidas estava no meio (3), com uma etapa desejada de 3,06.
Com base na densidade média dos resumos da etapa 3, podemos inferir que a densidade da entidade preferida entre os candidatos a CoD é de aproximadamente 0,15. Como podemos ver na Tabela 1, essa densidade é consistente com os resumos escritos manualmente (0,151), mas significativamente maior do que os resumos gerados usando o prompt normal do GPT-4 (0,122).
4.2 Indicadores automáticos
Como avaliador, foi demonstrado que o GPT-4 se alinha adequadamente com o julgamento humano (Fu et al., 2023; Liu et al., 2023a) e pode até superar os trabalhadores de crowdsourcing em algumas tarefas de anotação (Gilardi et al., 2023). Como complemento à nossa avaliação humana, solicitamos ao GPT-4 que classificasse os resumos de CdD em uma escala de 1 a 5 nas seguintes dimensões: informatividade, qualidade, coerência, capacidade de atribuição e geral. As definições de informatividade, qualidade e capacidade de atribuição são de Aharoni et al. (2023), enquanto a coerência é de Fabbri et al. (2021). O objetivo geral é capturar a qualidade conjunta. Consulte o Apêndice A para ver as dicas usadas para registrar as pontuações de cada dimensão. A Tabela 3 mostra que a densificação está correlacionada com a informatividade, mas há um limite, com as pontuações atingindo o pico na etapa 4 (4,74). As dimensões sem artigo: qualidade e coerência, diminuíram após as etapas 2 e 1, respectivamente. Todos os resumos foram considerados atribuíveis ao artigo de origem. As pontuações gerais foram tendenciosas a favor de resumos mais densos e mais informativos, com as pontuações mais altas na etapa 4. Em média, a primeira e a última etapas do CoD foram as menos favorecidas, enquanto as três etapas intermediárias tiveram pontuações próximas (4,78, 4,77 e 4,76, respectivamente).
No Apêndice A, relatamos a maior correlação em nível de resumo das métricas gerais com o julgamento humano (correlação de Pearson de 0,31), mas observamos que a correlação geral permanece baixa - um fenômeno também observado no estudo de Deutsch et al. (2022) quando os resumos eram de qualidade semelhante.
4.3 Análise qualitativa
Há uma clara compensação entre a coerência/legibilidade dos resumos e a quantidade de informações que eles contêm. Para ilustrar isso, na Figura 4, mostramos duas etapas de CoD: um resumo é aprimorado com mais detalhes e o outro fica comprometido. Em média, o resumo de CoD intermediário é o que melhor alcança esse equilíbrio, mas deixamos para trabalhos futuros a definição e a quantificação precisas dessa compensação.
Figura 4Exemplos de etapas de densificação preferidas por humanos (esquerda) e um exemplo de etapas não preferidas (direita). Para a esquerda, o resumo inferior é preferido porque a adição de "Liverpool" e o marcador de gols são relevantes para o tópico. O segundo resumo abre espaço para uma compressão sensata, por exemplo, sintetizando "possíveis rotas de volta ao jogo" em "contra-ataques". Para a direita, acrescentar mais detalhes sobre a "TVMonde" não compensa a estranha fusão de entidades ("Cyber Attack" e "Yves Bigot"), que foi resultado direto da necessidade de tornar o resumo anterior mais rígido.
5. trabalhos relacionados
Resumo do GPT
Goyal et al. (2022) avaliaram a GPT-3 na geração de resumos de artigos de notícias e descobriram que os humanos preferiam os resumos da GPT-3 a uma linha de base supervisionada anterior, que não refletia as métricas existentes baseadas em referência e sem referência. amostra de resumos GPT-3 eram comparáveis ao desempenho humano.
Resumo baseado em entidades
Narayan et al. (2021) propõem a geração de cadeias de entidades como uma etapa de planejamento para o ajuste fino supervisionado do modelo de sumarização, em contraste com palavras-chave (Li et al., 2020; Dou et al., 2021) ou unidades puramente extraídas (Dou et al., 2021; Adams et al., 2023a). As entidades também foram incorporadas aos extratos como uma forma de controle (Liu e Chen, 2021; He et al., 2022; Maddela et al., 2022) para aumentar a fidelidade (Nan et al., 2021; Adams et al., 2022) e como unidades de avaliação (Cao et al., 2022; Adams et al., 2023b).
6. conclusão
Investigamos o efeito da densificação de resumos nas preferências humanas quanto à qualidade geral. Descobrimos que um certo nível de densificação é bem-vindo, mas é difícil manter a legibilidade e a coerência quando os resumos contêm muitas entidades. Abrimos o conjunto de testes com anotações, bem como um conjunto de treinamento maior sem anotações, para investigar melhor o tópico de resumos de tamanho fixo e densidade variável.
7. limitações
Analisamos apenas os CoDs para um único domínio, ou seja, resumos de notícias. As anotações não mostram consistência no alto nível de resumo, mas começam a mostrar tendências em nível de sistema, o que é consistente com trabalhos anteriores sobre avaliações baseadas em LLM (Goyal et al., 2022). Por fim, o GPT-4 é um modelo de código fechado, portanto, não pudemos compartilhar os pesos do modelo. No entanto, liberamos todos os dados de avaliação, anotações e 5.000 CoDs não anotados para casos de uso posterior, por exemplo, extração de densidades em modelos de código aberto como o LLAMA-2 (Touvron et al., 2023).
bibliografia
(lista de referências omitida aqui)
Indicadores GPT-4
Para a avaliação no estilo Likert do GPT-4, usamos o seguinte modelo de solicitação.
Resumo: {{abstract}} {{definition}}
A seguir, exemplos das definições fornecidas para cada indicador de qualidade.
- volume de informaçõesResumo informativo: Os resumos informativos capturam informações importantes do artigo e as apresentam de forma precisa e concisa.
- massa (em física)Resumo: Os resumos de alta qualidade são fáceis de entender e compreender.
- consistênciaResumo: Os resumos coerentes são bem estruturados e organizados.
- atribuívelInformações sobre o artigo: Todas as informações do resumo são totalmente atribuíveis ao artigo?
- preferência geralResumo: Um bom resumo deve transmitir as principais ideias do artigo de forma concisa, lógica e coerente.
As dicas de qualidade e coerência não incluem dicas em artigos. Essas definições foram adaptadas de trabalhos anteriores sobre anotação de resumos: (Fabbri et al., 2021; Aharoni et al., 2023).
dimensão (matemática) | relevância |
---|---|
volume de informações | 0.215 |
massa (em física) | 0.120 |
consistência | 0.178 |
atribuível | 0.245 |
guarda-chuva | 0.311 |
Tabela 2Coeficientes de correlação de Pearson em nível de resumo entre as preferências humanas e as pontuações de Likert do GPT-4.
meta-avaliação
Para calcular as correlações em nível de resumo, primeiro convertemos os dados de preferência em um vetor que indica o número de vezes que o resumo recebeu um voto de primeiro lugar. A Tabela 4 mostra que, sem surpresa, as dicas criadas para capturar as classificações gerais dos resumos têm a maior correlação de Pearson em nível geral com as preferências gerais (0,31), mas a correlação geral permanece baixa.
resumos
Este artigo explora como o GPT-4 pode ser usado para gerar resumos cada vez mais densos por meio do método Chained Density Cueing (CoD). Ele conclui que um certo nível de densificação melhora a qualidade dos resumos, mas o excesso de densidade prejudica a legibilidade e a coerência. A equipe de pesquisa validou essa descoberta por meio de estudos de preferência humana e avaliação automatizada do GPT-4, além de abrir o código aberto dos dados de resumo anotados e não anotados associados, fornecendo um recurso valioso para pesquisas futuras.
Resumo dos pontos principais:
- Pistas de densidade encadeadas (CoD)Gerar resumos mais densos adicionando incrementalmente entidades ausentes sem aumentar o tamanho.
- densidade físicaDensidade de entidades: Usando a densidade de entidades como uma medida da informatividade dos resumos, constatou-se que as preferências humanas se aproximam da densidade dos resumos escritos manualmente.
- Abstração e integraçãoCoD gera resumos que são mais abstratos e convergentes, e com menos tendência inicial.
- preferência humanaOs seres humanos preferem resumos GPT-4 mais densos do que o normal, mas o excesso de densidade reduz a legibilidade.
- Avaliação automatizadaOs resultados da avaliação automatizada do GPT-4 foram, em geral, consistentes com as preferências humanas, mas a correlação geral foi baixa.
Orientações para pesquisas futuras:
- Uma definição mais precisa de trade-offs:: Pesquisas futuras poderiam definir e quantificar melhor o equilíbrio entre o conteúdo das informações e a legibilidade.
- Aplicativos multidisciplinares: aplicar a metodologia CoD a outros domínios, como artigos acadêmicos, documentação técnica, etc., para validar sua generalização.
- Melhorias na modelagemObjetivo: Explorar como a modelagem pode ser aprimorada para melhorar a legibilidade e, ao mesmo tempo, manter um alto nível de informações.
Por meio deste documento, podemos ver que a IA fez um progresso impressionante no processamento e na geração de textos, mas ainda enfrenta o desafio de equilibrar o conteúdo das informações com a legibilidade. No futuro, com o avanço contínuo da tecnologia, temos motivos para acreditar que os resumos gerados por IA serão ainda mais inteligentes e fáceis de usar.