Texto original:https://arxiv.org/pdf/2309.04269
Leitura rápida:De esparso a denso: geração de abstratos GPT-4 usando dicas de densidade encadeadas
Coletado em:Resumir o conhecimento de prompts comumente usados
resumos
Determinar a quantidade "certa" de informações a serem incluídas em um resumo de texto automatizado é uma tarefa desafiadora. Um bom resumo precisa ser detalhado e centrado na entidade e, ao mesmo tempo, evitar ser muito longo e difícil de entender. Para entender melhor essa troca, propomos um método de sugestão chamado Chain of Density (CoD), pelo qual o GPT-4 é capaz de gerar resumos cada vez mais densos. Descobrimos que os resumos gerados pelo CoD são mais abstratos, mais convergentes e têm menos viés de abertura do que os resumos do GPT-4 gerados usando dicas normais. Usando um estudo de preferência humana de 100 artigos da CNN/DailyMail, descobrimos que os seres humanos preferem resumos mais densos do que os resumos do GPT-4 gerados com dicas normais, e que sua densidade é quase comparável à dos resumos escritos manualmente.
1. introdução
As técnicas de sumarização automatizada percorreram um longo caminho nos últimos anos, em grande parte graças à mudança de paradigma do ajuste fino supervisionado para a solicitação de amostra zero usando modelos de linguagem em grande escala (LLMs). Por exemplo, o GPT-4 pode obter um controle refinado sobre os recursos de resumo (por exemplo, comprimento, tópico e estilo) com dicas bem projetadas sem treinamento adicional.
No entanto, a densidade de informações de um resumo é um aspecto que muitas vezes não é levado em consideração. Teoricamente, como uma compressão de outro texto, um resumo deve conter uma concentração maior de informações do que o documento de origem. No entanto, a densidade de um resumo é uma questão em aberto. Se um resumo contiver informações insuficientes, ele será inconsequente; se contiver informações demais, poderá se tornar difícil de entender sem aumentar o tamanho geral. Comunicar mais informações dentro de um orçamento fixo de tokens requer uma combinação de abstração, compressão e fusão. Há um limite para a quantidade de espaço que pode ser criado para informações adicionais antes que elas se tornem incompreensíveis ou até mesmo factualmente incorretas.
2. pistas de densidade encadeadas (CoD)
2.1 Objetivos
Nosso objetivo era gerar um conjunto de resumos GPT-4 com densidades de informações variadas e, ao mesmo tempo, controlar o comprimento, que se mostrou um forte fator de confusão na avaliação de resumos. Para isso, projetamos uma única dica de densidade encadeada (CoD) por meio da qual um resumo inicial é gerado e se torna progressivamente mais denso em entidades. Especificamente, para um número fixo de rodadas, um conjunto exclusivo de entidades salientes é identificado a partir do texto de origem e fundido no resumo anterior sem aumentar o comprimento. O primeiro resumo é esparso em entidades, pois se concentra apenas em 1 a 3 entidades iniciais.
2.2 Dados
Selecionamos aleatoriamente 100 artigos do conjunto de testes de resumos da CNN/DailyMail para gerar resumos de CoD.
2.3 Pontos de referência
Para fins de comparação, comparamos as estatísticas dos resumos de CoD com resumos de referência de pontos de bala escritos manualmente e resumos de GPT-4 gerados usando prompts comuns:
- Dicas comuns: "Escreva um breve resumo do artigo em no máximo 70 palavras".
Definimos o comprimento do token necessário para corresponder ao comprimento do resumo do CoD (conforme mostrado na tabela abaixo).
2.4 Exemplos de dicas
Abaixo está um exemplo de um prompt de CoD:
请生成一个非常简短的摘要,不超过70个单词。然后,逐步添加1-3个缺失的重要实体,而不增加长度。
Exemplo de um prompt completo de CoD (original em inglês).
Article: {{ ARTICLE }}
You will generate increasingly concise, entity-dense summaries of the above article.
Repeat the following 2 steps 5 times.
Step 1. Identify 1-3 informative entities (";" delimited) from the article which are missing from the previously generated summary.
Step 2. Write a new, denser summary of identical length which covers every entity and detail from the previous summary plus the missing entities.
A missing entity is:
- relevant to the main story,
- specific yet concise (5 words or fewer),
- novel (not in the previous summary),
- faithful (present in the article),
- anywhere (can be located anywhere in the article).
Guidelines:
- The first summary should be long (4-5 sentences, ~80 words) yet highly non-specific, containing little information beyond the entities marked as missing. Use overly verbose language and fillers (e.g., "this article discusses") to reach ~80 words.
- Make every word count: rewrite the previous summary to improve flow and make space for additional entities.
- Make space with fusion, compression, and removal of uninformative phrases like "the article discusses".
- The summaries should become highly dense and concise yet self-contained, i.e., easily understood without the article.
- Missing entities can appear anywhere in the new summary.
- Never drop entities from the previous summary. If space cannot be made, add fewer new entities.
Remember, use the exact same number of words for each summary.
Answer in JSON. The JSON should be a list (length 5) of dictionaries whose keys are "Missing_Entities" and "Denser_Summary".
Explicação das dicas.
Essa palavra-chave detalhada de CoD foi projetada para orientar o GPT-4 no sentido de gerar progressivamente resumos mais densos, com a ideia central de adicionar novas entidades-chave ao resumo a cada rodada por meio de um processo iterativo, mantendo o comprimento do resumo constante. Vamos detalhar as partes dessa palavra-chave:
Article: {{ ARTICLE }}
: Este é um espaço reservado para o conteúdo do artigo que você deseja resumir.{{ ARTICLE }}
.You will generate increasingly concise, entity-dense summaries of the above article.
Essa é a essência da diretriz, informando ao modelo que o objetivo é gerar resumos cada vez mais concisos e densos em termos de entidades.Repeat the following 2 steps 5 times.
Especificar o número de iterações como 5 significa que o modelo repetirá as próximas duas etapas por cinco rodadas, aumentando gradualmente a densidade dos resumos.Step 1. Identify 1-3 informative entities (";" delimited) from the article which are missing from the previously generated summary.
: Etapa 1: Identificar entidades ausentes. O modelo precisa identificar de uma a três entidades informativas do artigo original, que não devem ter aparecido em resumos gerados anteriormente. As entidades são separadas por ponto e vírgula;
Separação.Step 2. Write a new, denser summary of identical length which covers every entity and detail from the previous summary plus the missing entities.
: Etapa 2: Gerar um resumo mais denso. O modelo precisa gerar um novo resumo com base no resumo anterior, incorporando as entidades ausentes identificadas na etapa 1. É fundamental que o novo resumo tenha exatamente o mesmo tamanho do resumo anterior, o que força o modelo a comprimir e fundir as informações para acomodar as novas entidades.A missing entity is:
:: define critérios para "entidades ausentes" para garantir que as entidades selecionadas sejam de alta qualidade e relevantes:- relevant to the main story
Relaciona-se com a história principal do artigo.- specific yet concise (5 words or fewer)
:: Específico e conciso, não mais do que cinco palavras.- novel (not in the previous summary)
Não presente nos resumos anteriores.- faithful (present in the article)
Deve ser real no artigo.- anywhere (can be located anywhere in the article)
Pode ser localizado em qualquer parte do artigo.
Guidelines:
Guia do usuário: Uma série de guias é fornecida para instruir o modelo com mais detalhes sobre como executar a tarefa de geração de resumo:- The first summary should be long (4-5 sentences, ~80 words) yet highly non-specific...
: Orientação para o primeiro resumoResumo: O primeiro resumo deve ser mais longo (~80 palavras, 4-5 frases), mas menos informativo, com o objetivo principal de estabelecer as bases para as iterações subsequentes. Pode ser usada linguagem redundante e palavras de preenchimento.- Make every word count: rewrite the previous summary to improve flow and make space for additional entities.
: simplificar a linguagem: ênfase na necessidade de reescrever resumos anteriores para otimizar a expressão linguística e abrir espaço para a inclusão de novas entidades.- Make space with fusion, compression, and removal of uninformative phrases like "the article discusses".
: técnica de dimensionamento de espaço:: declarar explicitamente o uso de técnicas como fusão, compactação e remoção de frases não informativas para compactar resumos.- The summaries should become highly dense and concise yet self-contained, i.e., easily understood without the article.
: Resumo dos objetivos de qualidade:: O resumo final deve ser altamente denso e conciso, mas ao mesmo tempo autônomo, ou seja, o conteúdo do resumo pode ser compreendido sem a leitura do texto original.- Missing entities can appear anywhere in the new summary.
: localização física:: As entidades recém-adicionadas podem aparecer em qualquer lugar no novo resumo.- Never drop entities from the previous summary. If space cannot be made, add fewer new entities.
: Reservas de entidadesObservação: Saliente que as entidades de resumos anteriores nunca devem ser excluídas. Se não houver espaço suficiente, novas entidades podem ser adicionadas com moderação.- Remember, use the exact same number of words for each summary.
: uniforme:: Reenfatizar a necessidade de consistência no tamanho dos resumos gerados em cada rodada.Answer in JSON. The JSON should be a list (length 5) of dictionaries whose keys are "Missing_Entities" and "Denser_Summary".
: formato de saídaO JSON deve ser uma lista de 5 dicionários, cada um contendo as chaves "Missing_Entities" (entidades ausentes adicionadas nesta rodada) e "Denser_Summary" (resumo mais denso gerado nesta rodada).
Figura 1:: Dicas de densidade encadeada (CoD) e exemplo de saída. Em cada etapa, de 1 a 3 detalhes adicionais (entidades) são adicionados ao resumo anterior sem aumentar o tamanho. O conteúdo existente é reescrito (por exemplo, comprimido, fundido) para abrir espaço para novas entidades. Metade dos anotadores (2/4) preferiu o penúltimo resumo e o restante preferiu o último.
Exemplo de uso real de palavras-chave de CoD:
Suponha que tenhamos um artigo de notícias sobre a "visita do presidente dos EUA, Joe Biden, à Polônia" e que queiramos gerar uma série de resumos de diferentes densidades usando dicas de CoD.
Etapa 1: Prepare-se para inserir o artigo
Em primeiro lugar, precisamos preparar o conteúdo do artigo de notícias, por exemplo:
美国总统乔·拜登 неожиданно 抵达波兰进行访问,与波兰总统安杰伊·杜达举行会晤。此次访问正值俄乌冲突一周年之际,预计两国领导人将讨论地区安全、对乌克兰的进一步支持以及加强北约东翼等议题。拜登的访问是对波兰在支持乌克兰难民和向乌克兰提供军事援助方面所做努力的肯定。此外,拜登还计划在华沙就俄乌冲突发表重要讲话,并会见在波兰的美军士兵。
Etapa 2: Crie a solicitação de API (API OpenAI como exemplo)
Usaremos a API OpenAI (ou outra API compatível com o modelo GPT-4) para enviar a solicitação. A parte do corpo da solicitação conterá nossa palavra de prompt CoD e o {{ ARTICLE }}
Substitua-o pelo conteúdo do artigo preparado.
{
"model": "gpt-4",
"prompt": "Article: 美国总统乔·拜登 неожиданно 抵达波兰进行访问,与波兰总统安杰伊·杜达举行会晤。此次访问正值俄乌冲突一周年之际,预计两国领导人将讨论地区安全、对乌克兰的进一步支持以及加强北约东翼等议题。拜登的访问是对波兰在支持乌克兰难民和向乌克兰提供军事援助方面所做努力的肯定。此外,拜登还计划在华沙就俄乌冲突发表重要讲话,并会见在波兰的美军士兵。\nYou will generate increasingly concise, entity-dense summaries of the above article.\n\nRepeat the following 2 steps 5 times.\n\nStep 1. Identify 1-3 informative entities (\";\" delimited) from the article which are missing from the previously generated summary.\nStep 2. Write a new, denser summary of identical length which covers every entity and detail from the previous summary plus the missing entities.\n\nA missing entity is:\n- relevant to the main story, \n- specific yet concise (5 words or fewer), \n- novel (not in the previous summary), \n- faithful (present in the article), \n- anywhere (can be located anywhere in the article).\n\nGuidelines:\n\n- The first summary should be long (4-5 sentences, ~80 words) yet highly non-specific, containing little information beyond the entities marked as missing. Use overly verbose language and fillers (e.g., \"this article discusses\") to reach ~80 words.\n- Make every word count: rewrite the previous summary to improve flow and make space for additional entities.\n- Make space with fusion, compression, and removal of uninformative phrases like \"the article discusses\".\n- The summaries should become highly dense and concise yet self-contained, i.e., easily understood without the article. \n- Missing entities can appear anywhere in the new summary.\n- Never drop entities from the previous summary. If space cannot be made, add fewer new entities. \n\nRemember, use the exact same number of words for each summary.\nAnswer in JSON. The JSON should be a list (length 5) of dictionaries whose keys are \"Missing_Entities\" and \"Denser_Summary\".",
"max_tokens": 1000, // 确保模型有足够的token生成完整JSON输出
"temperature": 0.7// 可调整temperature控制生成结果的随机性
}
Etapa 3: Enviar solicitação de API e receber resposta JSON
Envie a solicitação JSON acima para o ponto de extremidade da API da OpenAI. A API retorna uma resposta no formato JSON contendo um resumo das cinco densidades diferentes e as entidades ausentes adicionadas em cada etapa.
Etapa 4: Analisar a resposta JSON e usar o Digest
Analisa a resposta JSON retornada pela API. Você obterá uma lista JSON, semelhante a:
{
"Missing_Entities": [],
"Denser_Summary": "This article discusses a visit. It is about a president visiting a country. The president is American. The country is Poland. This is related to international relations. The visit is happening during a time of conflict. This conflict involves Russia and Ukraine. The visit aims to show support and discuss important matters. More details will be provided."
},
{
"Missing_Entities": ["Joe Biden"; "Andrzej Duda"],
"Denser_Summary": "U.S. President Joe Biden visited Poland and met with Polish President Andrzej Duda. This visit is about international relations and is happening during the Russia-Ukraine conflict. They will discuss support and security. More details are expected."
},
{
"Missing_Entities": ["one-year anniversary of the Russia-Ukraine conflict"; "regional security"; "support for Ukraine"],
"Denser_Summary": "U.S. President Joe Biden met Polish President Andrzej Duda in Poland on the one-year anniversary of the Russia-Ukraine conflict. They discussed regional security and support for Ukraine, focusing on international relations."
},
{
"Missing_Entities": ["strengthening NATO's eastern flank"; "support for Ukrainian refugees"; "military aid to Ukraine"],
"Denser_Summary": "On the Russia-Ukraine conflict's one-year anniversary, U.S. President Joe Biden visited Poland, meeting President Andrzej Duda to discuss regional security, support for Ukraine (including refugees and military aid), and strengthening NATO's eastern flank."
},
{
"Missing_Entities": ["Warsaw"; "major speech"; "U.S. troops in Poland"],
"Denser_Summary": "To mark the Russia-Ukraine conflict's one-year mark, U.S. President Joe Biden visited Warsaw, Poland, meeting President Andrzej Duda to discuss regional security, Ukrainian refugee and military aid support, strengthening NATO's eastern flank, and Biden's planned major speech and meeting with U.S. troops in Poland."
}
]
Você pode escolher a densidade certa de resumos de acordo com suas necessidades. Por exemplo, se você precisar de um resumo muito curto, poderá escolher o primeiro ou o segundo; se precisar de um resumo mais detalhado, mas ainda assim conciso, poderá escolher o quarto ou o quinto.
Cenários de aplicação prática:
- Agregação de notícias e recomendação de conteúdo: forneça diferentes densidades de resumos para diferentes usuários ou plataformas para atender a diferentes necessidades de informações.
- Recuperação de informações: exibir diferentes densidades de resumos nos resultados de pesquisa para ajudar os usuários a avaliar rapidamente a relevância dos artigos.
- Auxílio à compreensão de leitura: ajuda os leitores a entender o conteúdo do texto do início ao fim, aumentando gradualmente a densidade dos resumos.
- Geração de conteúdo de mídia social: gere resumos de diferentes comprimentos e densidades para diferentes plataformas de mídia social (por exemplo, Twitter, Facebook).
Com as etapas acima, você pode usar efetivamente as palavras-chave de CoD na prática para gerar resumos de texto de alta qualidade e multidensidade com o GPT-4.
3. dados estatísticos
3.1 Estatísticas diretas
Na Tabela 1, calculamos os tokens usando NLTK, medimos as entidades exclusivas usando Spacy e calculamos as densidades das entidades como proporções. De fato, a segunda etapa leva a uma redução média de 5 tokens (de 72 para 67), pois as palavras desnecessárias são removidas do resumo inicialmente extenso. A densidade de entidades aumentou - partindo de um valor inicial de 0,089, inferior ao GPT-4 humano e regular (0,151 e 0,122, respectivamente) - para 0,167 após 5 etapas de densificação.
Etapas do CoD | Token | coisa que tem uma existência material (em oposição a uma existência conceitual, virtual ou on-line) | Densidade (E/T) |
---|---|---|---|
1 | 72 | 6.4 | 0.089 |
2 | 67 | 8.7 | 0.129 |
3 | 67 | 9.9 | 0.148 |
4 | 69 | 10.8 | 0.158 |
5 | 72 | 12.1 | 0.167 |
humanidade | 60 | 8.8 | 0.151 |
Geral GPT-4 | 70 | 8.5 | 0.122 |
3.2 Estatísticas indiretas
A cada etapa do CoD, a abstração deve aumentar à medida que o resumo é reescrito iterativamente para abrir espaço para cada entidade adicional. Medimos a abstração usando a densidade extrativa: o comprimento médio ao quadrado dos fragmentos extraídos. Da mesma forma, o nível de fusão deve aumentar monotonicamente à medida que as entidades são adicionadas a um resumo de comprimento fixo. Fazemos o proxy da fusão como o número médio de sentenças de origem alinhadas para cada sentença abstrata. Para o alinhamento, usamos o método de ganho relativo de ROUGE, que alinha as sentenças de origem às sentenças de destino até que o ganho relativo de ROUGE das sentenças adicionadas não seja mais positivo. Também esperamos que a distribuição de conteúdo - a posição no artigo de onde o conteúdo do resumo foi extraído - seja alterada. Especificamente, esperamos que os resumos CoD apresentem inicialmente uma forte tendência de abertura (Lead Bias), mas gradualmente comecem a introduzir entidades do meio e do final do artigo. Para medir isso, usamos o alinhamento na fusão e medimos a classificação média das frases de todas as frases de origem alinhadas. A Figura 2 confirma essas hipóteses: à medida que a etapa de reescrita aumenta, a abstração aumenta (painel esquerdo), a taxa de fusão aumenta (painel central) e os resumos começam a incluir conteúdo do meio e do fim do artigo (painel direito). É interessante notar que todos os resumos CoD são mais abstratos do que os resumos escritos à mão e os resumos de linha de base.
Figura 2Resumo: Os resumos gerados pelo CoD estão se tornando mais abstratos, ao mesmo tempo em que apresentam mais convergência e menos tendência inicial.
4. resultados
4.1 Preferências humanas
Para entender melhor as vantagens e desvantagens apresentadas pelos resumos de CdD, realizamos um estudo baseado em preferências com uma avaliação de pontuação do GPT-4.
Etapas do CoD | Porcentagem de votos para o primeiro lugar (anotador único) | somar o total | ||
---|---|---|---|---|
1 | 3.0 2.0 | 13.0 | 17.4 | 8.3 |
2 | 25.0 28.0 | 43.0 | 31.4 | 30.8 |
3 | 22.0 28.0 21.0 | 24.4 | 23.0 | |
4 | 29.0 25.0 13.0 | 26.7 | 22.5 | |
5 | 21.0 17.0 10.0 | 16.3 | 15.5 |
Tabela 1:: Resumo do CoD das porcentagens de votos do primeiro colocado por etapa. Com base nas preferências combinadas, as etapas do CoD têm uma pluralidade de 2, uma mediana de 3 e um valor esperado de 3,06.
Primeiro, relatamos um valor baixo de 0,112 para o kappa de Fleiss (Fleiss, 1971), o que sugere que as diferenças sutis entre os resumos e a natureza da tarefa são subjetivas. Estudos recentes também observaram baixa concordância em nível de instância ao julgar resumos baseados em GPT (Goyal et al., 2022).
No entanto, no nível do sistema, algumas tendências estão começando a surgir. Para 3 dos 4 anotadores, a etapa 1 do CoD recebeu a maior parte dos votos de primeiro lugar entre 100 exemplos (28%, 43% e 31,4%, respectivamente). No entanto, em conjunto, o resumo do primeiro lugar de 61% (23,0+22,5+15,5) envolveu ≥3 etapas de densificação. O número médio de etapas de CoD preferidas estava no meio (3), com uma etapa desejada de 3,06.
Com base na densidade média dos resumos da etapa 3, podemos inferir que a densidade da entidade preferida entre os candidatos a CoD é de aproximadamente 0,15. Como podemos ver na Tabela 1, essa densidade é consistente com os resumos escritos manualmente (0,151), mas significativamente maior do que os resumos gerados usando o prompt normal do GPT-4 (0,122).
4.2 Indicadores automáticos
Como avaliador, foi demonstrado que o GPT-4 se alinha adequadamente com o julgamento humano (Fu et al., 2023; Liu et al., 2023a) e pode até superar os trabalhadores de crowdsourcing em algumas tarefas de anotação (Gilardi et al., 2023). Como complemento à nossa avaliação humana, solicitamos ao GPT-4 que classificasse os resumos de CdD em uma escala de 1 a 5 nas seguintes dimensões: informatividade, qualidade, coerência, capacidade de atribuição e geral. As definições de informatividade, qualidade e capacidade de atribuição são de Aharoni et al. (2023), enquanto a coerência é de Fabbri et al. (2021). O objetivo geral é capturar a qualidade conjunta. Consulte o Apêndice A para ver as dicas usadas para registrar as pontuações de cada dimensão. A Tabela 3 mostra que a densificação está correlacionada com a informatividade, mas há um limite, com as pontuações atingindo o pico na etapa 4 (4,74). As dimensões sem artigo: qualidade e coerência, diminuíram após as etapas 2 e 1, respectivamente. Todos os resumos foram considerados atribuíveis ao artigo de origem. As pontuações gerais foram tendenciosas a favor de resumos mais densos e mais informativos, com as pontuações mais altas na etapa 4. Em média, a primeira e a última etapas do CoD foram as menos favorecidas, enquanto as três etapas intermediárias tiveram pontuações próximas (4,78, 4,77 e 4,76, respectivamente).
No Apêndice A, relatamos a maior correlação em nível de resumo das métricas gerais com o julgamento humano (correlação de Pearson de 0,31), mas observamos que a correlação geral permanece baixa - um fenômeno também observado no estudo de Deutsch et al. (2022) quando os resumos eram de qualidade semelhante.
4.3 Análise qualitativa
Há uma clara compensação entre a coerência/legibilidade dos resumos e a quantidade de informações que eles contêm. Para ilustrar isso, na Figura 4, mostramos duas etapas de CoD: um resumo é aprimorado com mais detalhes e o outro fica comprometido. Em média, o resumo de CoD intermediário é o que melhor alcança esse equilíbrio, mas deixamos para trabalhos futuros a definição e a quantificação precisas dessa compensação.
Figura 4Exemplos de etapas de densificação preferidas por humanos (esquerda) e um exemplo de etapas não preferidas (direita). Para a esquerda, o resumo inferior é preferido porque a adição de "Liverpool" e o marcador de gols são relevantes para o tópico. O segundo resumo abre espaço para uma compressão sensata, por exemplo, sintetizando "possíveis rotas de volta ao jogo" em "contra-ataques". Para a direita, acrescentar mais detalhes sobre a "TVMonde" não compensa a estranha fusão de entidades ("Cyber Attack" e "Yves Bigot"), que foi resultado direto da necessidade de tornar o resumo anterior mais rígido.
5. trabalhos relacionados
Resumo do GPT
Goyal et al. (2022) avaliaram a GPT-3 na geração de resumos de artigos de notícias e descobriram que os humanos preferiam os resumos da GPT-3 a uma linha de base supervisionada anterior, que não refletia as métricas existentes baseadas em referência e sem referência. amostra de resumos GPT-3 eram comparáveis ao desempenho humano.
Resumo baseado em entidades
Narayan et al. (2021) propõem a geração de cadeias de entidades como uma etapa de planejamento para o ajuste fino supervisionado do modelo de sumarização, em contraste com palavras-chave (Li et al., 2020; Dou et al., 2021) ou unidades puramente extraídas (Dou et al., 2021; Adams et al., 2023a). As entidades também foram incorporadas aos extratos como uma forma de controle (Liu e Chen, 2021; He et al., 2022; Maddela et al., 2022) para aumentar a fidelidade (Nan et al., 2021; Adams et al., 2022) e como unidades de avaliação (Cao et al., 2022; Adams et al., 2023b).
6. conclusão
Investigamos o efeito da densificação de resumos nas preferências humanas quanto à qualidade geral. Descobrimos que um certo nível de densificação é bem-vindo, mas é difícil manter a legibilidade e a coerência quando os resumos contêm muitas entidades. Abrimos o conjunto de testes com anotações, bem como um conjunto de treinamento maior sem anotações, para investigar melhor o tópico de resumos de tamanho fixo e densidade variável.
7. limitações
Analisamos apenas os CoDs para um único domínio, ou seja, resumos de notícias. As anotações não mostram consistência no alto nível de resumo, mas começam a mostrar tendências em nível de sistema, o que é consistente com trabalhos anteriores sobre avaliações baseadas em LLM (Goyal et al., 2022). Por fim, o GPT-4 é um modelo de código fechado, portanto, não pudemos compartilhar os pesos do modelo. No entanto, liberamos todos os dados de avaliação, anotações e 5.000 CoDs não anotados para casos de uso posterior, por exemplo, extração de densidades em modelos de código aberto como o LLAMA-2 (Touvron et al., 2023).
bibliografia
(lista de referências omitida aqui)
Indicadores GPT-4
Para a avaliação no estilo Likert do GPT-4, usamos o seguinte modelo de solicitação.
摘要: {{摘要}} {{定义}}
A seguir, exemplos das definições fornecidas para cada indicador de qualidade.
- volume de informaçõesResumo informativo: Os resumos informativos capturam informações importantes do artigo e as apresentam de forma precisa e concisa.
- massa (em física)Resumo: Os resumos de alta qualidade são fáceis de entender e compreender.
- consistênciaResumo: Os resumos coerentes são bem estruturados e organizados.
- atribuívelInformações sobre o artigo: Todas as informações do resumo são totalmente atribuíveis ao artigo?
- preferência geralResumo: Um bom resumo deve transmitir as principais ideias do artigo de forma concisa, lógica e coerente.
As dicas de qualidade e coerência não incluem dicas em artigos. Essas definições foram adaptadas de trabalhos anteriores sobre anotação de resumos: (Fabbri et al., 2021; Aharoni et al., 2023).
dimensão (matemática) | relevância |
---|---|
volume de informações | 0.215 |
massa (em física) | 0.120 |
consistência | 0.178 |
atribuível | 0.245 |
guarda-chuva | 0.311 |
Tabela 2Coeficientes de correlação de Pearson em nível de resumo entre as preferências humanas e as pontuações de Likert do GPT-4.
meta-avaliação
Para calcular as correlações em nível de resumo, primeiro convertemos os dados de preferência em um vetor que indica o número de vezes que o resumo recebeu um voto de primeiro lugar. A Tabela 4 mostra que, sem surpresa, as dicas criadas para capturar as classificações gerais dos resumos têm a maior correlação de Pearson em nível geral com as preferências gerais (0,31), mas a correlação geral permanece baixa.
resumos
Este artigo explora como o GPT-4 pode ser usado para gerar resumos cada vez mais densos por meio do método Chained Density Cueing (CoD). Ele conclui que um certo nível de densificação melhora a qualidade dos resumos, mas o excesso de densidade prejudica a legibilidade e a coerência. A equipe de pesquisa validou essa descoberta por meio de estudos de preferência humana e avaliação automatizada do GPT-4, além de abrir o código aberto dos dados de resumo anotados e não anotados associados, fornecendo um recurso valioso para pesquisas futuras.
Resumo dos pontos principais:
- Pistas de densidade encadeadas (CoD)Gerar resumos mais densos adicionando incrementalmente entidades ausentes sem aumentar o tamanho.
- densidade físicaDensidade de entidades: Usando a densidade de entidades como uma medida da informatividade dos resumos, constatou-se que as preferências humanas se aproximam da densidade dos resumos escritos manualmente.
- Abstração e integraçãoCoD gera resumos que são mais abstratos e convergentes, e com menos tendência inicial.
- preferência humanaOs seres humanos preferem resumos GPT-4 mais densos do que o normal, mas o excesso de densidade reduz a legibilidade.
- Avaliação automatizadaOs resultados da avaliação automatizada do GPT-4 foram, em geral, consistentes com as preferências humanas, mas a correlação geral foi baixa.
Orientações para pesquisas futuras:
- Uma definição mais precisa de trade-offs:: Pesquisas futuras poderiam definir e quantificar melhor o equilíbrio entre o conteúdo das informações e a legibilidade.
- Aplicativos multidisciplinares: aplicar a metodologia CoD a outros domínios, como artigos acadêmicos, documentação técnica, etc., para validar sua generalização.
- Melhorias na modelagemObjetivo: Explorar como a modelagem pode ser aprimorada para melhorar a legibilidade e, ao mesmo tempo, manter um alto nível de informações.
Por meio deste documento, podemos ver que a IA fez um progresso impressionante no processamento e na geração de textos, mas ainda enfrenta o desafio de equilibrar o conteúdo das informações com a legibilidade. No futuro, com o avanço contínuo da tecnologia, temos motivos para acreditar que os resumos gerados por IA serão ainda mais inteligentes e fáceis de usar.