Texto original:https://arxiv.org/pdf/2309.04269

Lectura rápida:De lo disperso a lo denso: generación de resúmenes GPT-4 mediante sugerencias de densidad encadenadas

Recogidos en:Resumir los conocimientos sobre las indicaciones más utilizadas

 

resúmenes

Determinar la cantidad "correcta" de información que debe incluirse en un resumen de texto automatizado es una tarea difícil. Un buen resumen debe ser detallado y centrarse en las entidades, pero sin ser demasiado largo y difícil de entender. Para entender mejor este equilibrio, proponemos un método de cueing denominado Cadena de Densidad (CoD), mediante el cual GPT-4 es capaz de generar resúmenes cada vez más densos. Comprobamos que los resúmenes generados por CoD son más abstractos, más convergentes y tienen menos sesgo de apertura que los resúmenes de GPT-4 generados con claves normales. Mediante un estudio de preferencias humanas con 100 artículos de CNN/DailyMail, comprobamos que los humanos prefieren resúmenes más densos que los generados por GPT-4 con indicaciones normales, y que su densidad es casi comparable a la de los resúmenes escritos manualmente.

 

1. Introducción

Las técnicas de resumen automatizado han avanzado mucho en los últimos años, en gran parte gracias al cambio de paradigma que supone pasar del ajuste fino supervisado a la indicación de muestra cero mediante modelos lingüísticos a gran escala (LLM). Por ejemplo, GPT-4 puede lograr un control preciso de las características del resumen (por ejemplo, longitud, tema y estilo) con pistas bien diseñadas y sin entrenamiento adicional.

Sin embargo, la densidad de información de un resumen es un aspecto que a menudo se pasa por alto. En teoría, como compresión de otro texto, un resumen debería contener una mayor concentración de información que el documento fuente. Sin embargo, la densidad de un resumen es una cuestión abierta. Si un resumen contiene información insuficiente, será intrascendente; si contiene demasiada información, puede resultar difícil de entender sin aumentar la extensión total. Comunicar más información dentro de un presupuesto fijo de tokens requiere una combinación de abstracción, compresión y fusión. Hay un límite a la cantidad de espacio que se puede dedicar a la información adicional antes de que resulte incomprensible o incluso incorrecta.

 

2. Indicios de densidad encadenados (CoD)

2.1 Objetivos

Nuestro objetivo era generar un conjunto de resúmenes de GPT-4 con distintas densidades de información, controlando al mismo tiempo la longitud, que ha demostrado ser un factor de confusión importante a la hora de evaluar resúmenes. Para ello, diseñamos una única pista de densidad encadenada (CoD) mediante la cual se genera un resumen inicial y se hace progresivamente más denso en entidades. En concreto, durante un número fijo de rondas, se identifica un conjunto único de entidades destacadas a partir del texto fuente y se fusiona con el resumen anterior sin aumentar su longitud. El primer resumen es escaso en entidades, ya que sólo se centra en 1-3 entidades iniciales.

2.2 Datos

Seleccionamos aleatoriamente 100 artículos del conjunto de prueba de resúmenes de CNN/DailyMail para generar resúmenes de CDD.

2.3 Puntos de referencia

A efectos comparativos, comparamos las estadísticas de los resúmenes de CD con las de los resúmenes de referencia con viñetas escritos manualmente y los resúmenes de GPT-4 generados mediante instrucciones comunes:

  • Consejos ordinarios:: "Escriba un resumen muy breve del artículo en no más de 70 palabras".

La longitud requerida de los tokens debe coincidir con la longitud del compendio CoD (como se muestra en la tabla siguiente).

2.4 Ejemplos de consejos

A continuación se muestra un ejemplo de aviso de CoD:

请生成一个非常简短的摘要,不超过70个单词。然后,逐步添加1-3个缺失的重要实体,而不增加长度。

 

Ejemplo de un aviso de CoD completo (original en inglés).

Article: {{ ARTICLE }}
You will generate increasingly concise, entity-dense summaries of the above article. 
Repeat the following 2 steps 5 times. 
Step 1. Identify 1-3 informative entities (";" delimited) from the article which are missing from the previously generated summary. 
Step 2. Write a new, denser summary of identical length which covers every entity and detail from the previous summary plus the missing entities. 
A missing entity is:
- relevant to the main story, 
- specific yet concise (5 words or fewer), 
- novel (not in the previous summary), 
- faithful (present in the article), 
- anywhere (can be located anywhere in the article).
Guidelines:
- The first summary should be long (4-5 sentences, ~80 words) yet highly non-specific, containing little information beyond the entities marked as missing. Use overly verbose language and fillers (e.g., "this article discusses") to reach ~80 words.
- Make every word count: rewrite the previous summary to improve flow and make space for additional entities.
- Make space with fusion, compression, and removal of uninformative phrases like "the article discusses".
- The summaries should become highly dense and concise yet self-contained, i.e., easily understood without the article. 
- Missing entities can appear anywhere in the new summary.
- Never drop entities from the previous summary. If space cannot be made, add fewer new entities. 
Remember, use the exact same number of words for each summary.
Answer in JSON. The JSON should be a list (length 5) of dictionaries whose keys are "Missing_Entities" and "Denser_Summary".

 

Explicación de los indicios.

Esta palabra clave detallada de CoD está diseñada para guiar a GPT-4 hacia la generación progresiva de resúmenes más densos, con la idea central de añadir nuevas entidades clave al resumen en cada ronda a través de un proceso iterativo, manteniendo constante la longitud del resumen. Desglosemos las partes de esta palabra clave:

  • Article: {{ ARTICLE }}: Es un marcador de posición para el contenido del artículo que desea resumir. {{ ARTICLE }}.
  • You will generate increasingly concise, entity-dense summaries of the above article.Este es el núcleo de la directiva, que indica al modelo que el objetivo es generar resúmenes cada vez más concisos y densos en entidades.
  • Repeat the following 2 steps 5 times.Especificar el número de iteraciones como 5 significa que el modelo repetirá los dos pasos siguientes durante cinco rondas, aumentando gradualmente la densidad de los resúmenes.
  • Step 1. Identify 1-3 informative entities (";" delimited) from the article which are missing from the previously generated summary.Paso 1: Identificar las entidades que faltan. El modelo debe identificar de una a tres entidades informativas del artículo original, que no deben haber aparecido en resúmenes generados previamente. Las entidades se separan con punto y coma ; Separación.
  • Step 2. Write a new, denser summary of identical length which covers every entity and detail from the previous summary plus the missing entities.Paso 2: Generar un resumen más denso. El modelo necesita generar un nuevo resumen basado en el resumen anterior, incorporando las entidades que faltan identificadas en el paso 1. Es fundamental que el nuevo resumen tenga exactamente la misma longitud que el anterior, lo que obliga al modelo a comprimir y fusionar la información para dar cabida a las nuevas entidades.
  • A missing entity is::: Define criterios para las "entidades que faltan" con el fin de garantizar que las entidades seleccionadas sean de alta calidad y pertinentes:
    • - relevant to the main story: Relacionado con la historia principal del artículo.
    • - specific yet concise (5 words or fewer):: Específico y conciso, no más de cinco palabras.
    • - novel (not in the previous summary)No está presente en los resúmenes anteriores.
    • - faithful (present in the article)Debe ser real en el artículo.
    • - anywhere (can be located anywhere in the article): Puede situarse en cualquier parte del artículo.
  • Guidelines:Guía del usuario: Se proporciona una serie de guías para instruir al modelo con más detalle sobre cómo realizar la tarea de generación de resúmenes:
    • - The first summary should be long (4-5 sentences, ~80 words) yet highly non-specific...Orientaciones para el primer resumenResumen: el primer resumen debe ser más largo (unas 80 palabras, 4-5 frases) pero menos informativo, con el objetivo principal de sentar las bases para las iteraciones posteriores. Puede utilizarse lenguaje redundante y palabras de relleno.
    • - Make every word count: rewrite the previous summary to improve flow and make space for additional entities.simplificar el lenguaje:: Se hace hincapié en la necesidad de reescribir los resúmenes anteriores para optimizar la expresión lingüística y dar cabida a la inclusión de nuevas entidades.
    • - Make space with fusion, compression, and removal of uninformative phrases like "the article discusses".técnica de escalado espacial:: Explicitar el uso de técnicas como la fusión, la compresión y la eliminación de frases poco informativas para comprimir resúmenes.
    • - The summaries should become highly dense and concise yet self-contained, i.e., easily understood without the article.Objetivos de calidad resumidosResumen final: el resumen final debe ser muy denso y conciso, pero al mismo tiempo autónomo, es decir, que el contenido del resumen pueda entenderse sin leer el texto original.
    • - Missing entities can appear anywhere in the new summary.ubicación física:: Las entidades recién añadidas pueden aparecer en cualquier lugar del nuevo sumario.
    • - Never drop entities from the previous summary. If space cannot be made, add fewer new entities.Reservas de entidades:: Destacar que nunca deben borrarse entidades de resúmenes anteriores. Si no hay espacio suficiente, pueden añadirse nuevas entidades con moderación.
    • - Remember, use the exact same number of words for each summary.uniforme:: Volver a insistir en la necesidad de coherencia en la longitud de los resúmenes generados en cada ronda.
    • Answer in JSON. The JSON should be a list (length 5) of dictionaries whose keys are "Missing_Entities" and "Denser_Summary".formato de salidaEl JSON debe ser una lista de 5 diccionarios, cada uno de los cuales debe contener las claves "Missing_Entities" (entidades que faltan añadidas en esta ronda) y "Denser_Summary" (resumen más denso generado en esta ronda).
CoD:密度链

Figura 1:: Sugerencias de densidad encadenada (CoD) y ejemplo de salida. En cada paso, se añaden de 1 a 3 detalles adicionales (entidades) al resumen anterior sin aumentar la longitud. El contenido existente se reescribe (por ejemplo, se comprime, se fusiona) para dejar espacio a las nuevas entidades. La mitad de los anotadores (2/4) prefirieron el penúltimo resumen y el resto, el último.

 

Ejemplo de uso real de las palabras clave de la CDD:

Supongamos que tenemos un artículo de noticias sobre "La visita del presidente de EE.UU. Joe Biden a Polonia" y queremos generar una serie de resúmenes de diferentes densidades utilizando pistas de CoD.

Paso 1: Prepárese para introducir el artículo

En primer lugar, hay que preparar el contenido de la noticia, por ejemplo:

美国总统乔·拜登 неожиданно 抵达波兰进行访问,与波兰总统安杰伊·杜达举行会晤。此次访问正值俄乌冲突一周年之际,预计两国领导人将讨论地区安全、对乌克兰的进一步支持以及加强北约东翼等议题。拜登的访问是对波兰在支持乌克兰难民和向乌克兰提供军事援助方面所做努力的肯定。此外,拜登还计划在华沙就俄乌冲突发表重要讲话,并会见在波兰的美军士兵。

Paso 2: Crear la solicitud de API (API OpenAI como ejemplo)

Usaremos la API OpenAI (u otra API que soporte el modelo GPT-4) para enviar la petición. El cuerpo de la solicitud contendrá las palabras de nuestro mensaje de CoD y el campo {{ ARTICLE }} Sustitúyalo por el contenido del artículo preparado.

{
"model": "gpt-4",
"prompt": "Article: 美国总统乔·拜登 неожиданно 抵达波兰进行访问,与波兰总统安杰伊·杜达举行会晤。此次访问正值俄乌冲突一周年之际,预计两国领导人将讨论地区安全、对乌克兰的进一步支持以及加强北约东翼等议题。拜登的访问是对波兰在支持乌克兰难民和向乌克兰提供军事援助方面所做努力的肯定。此外,拜登还计划在华沙就俄乌冲突发表重要讲话,并会见在波兰的美军士兵。\nYou will generate increasingly concise, entity-dense summaries of the above article.\n\nRepeat the following 2 steps 5 times.\n\nStep 1. Identify 1-3 informative entities (\";\" delimited) from the article which are missing from the previously generated summary.\nStep 2. Write a new, denser summary of identical length which covers every entity and detail from the previous summary plus the missing entities.\n\nA missing entity is:\n- relevant to the main story, \n- specific yet concise (5 words or fewer), \n- novel (not in the previous summary), \n- faithful (present in the article), \n- anywhere (can be located anywhere in the article).\n\nGuidelines:\n\n- The first summary should be long (4-5 sentences, ~80 words) yet highly non-specific, containing little information beyond the entities marked as missing. Use overly verbose language and fillers (e.g., \"this article discusses\") to reach ~80 words.\n- Make every word count: rewrite the previous summary to improve flow and make space for additional entities.\n- Make space with fusion, compression, and removal of uninformative phrases like \"the article discusses\".\n- The summaries should become highly dense and concise yet self-contained, i.e., easily understood without the article. \n- Missing entities can appear anywhere in the new summary.\n- Never drop entities from the previous summary. If space cannot be made, add fewer new entities. \n\nRemember, use the exact same number of words for each summary.\nAnswer in JSON. The JSON should be a list (length 5) of dictionaries whose keys are \"Missing_Entities\" and \"Denser_Summary\".",
"max_tokens": 1000,  // 确保模型有足够的token生成完整JSON输出
"temperature": 0.7// 可调整temperature控制生成结果的随机性
}

Paso 3: Enviar solicitud API y recibir respuesta JSON

Envíe la solicitud JSON anterior al punto final de la API de OpenAI. La API devuelve una respuesta en formato JSON que contiene un resumen de las cinco densidades diferentes y las entidades que faltan añadidas en cada paso.

Paso 4: Análisis de la respuesta JSON y uso del resumen

Analiza la respuesta JSON devuelta por la API. Obtendrá una lista JSON similar a:

{
"Missing_Entities": [],
"Denser_Summary": "This article discusses a visit. It is about a president visiting a country. The president is American. The country is Poland. This is related to international relations.  The visit is happening during a time of conflict. This conflict involves Russia and Ukraine.  The visit aims to show support and discuss important matters.  More details will be provided."
},
{
"Missing_Entities": ["Joe Biden"; "Andrzej Duda"],
"Denser_Summary": "U.S. President Joe Biden visited Poland and met with Polish President Andrzej Duda. This visit is about international relations and is happening during the Russia-Ukraine conflict. They will discuss support and security. More details are expected."
},
{
"Missing_Entities": ["one-year anniversary of the Russia-Ukraine conflict"; "regional security"; "support for Ukraine"],
"Denser_Summary": "U.S. President Joe Biden met Polish President Andrzej Duda in Poland on the one-year anniversary of the Russia-Ukraine conflict. They discussed regional security and support for Ukraine, focusing on international relations."
},
{
"Missing_Entities": ["strengthening NATO's eastern flank"; "support for Ukrainian refugees"; "military aid to Ukraine"],
"Denser_Summary": "On the Russia-Ukraine conflict's one-year anniversary, U.S. President Joe Biden visited Poland, meeting President Andrzej Duda to discuss regional security, support for Ukraine (including refugees and military aid), and strengthening NATO's eastern flank."
},
{
"Missing_Entities": ["Warsaw"; "major speech"; "U.S. troops in Poland"],
"Denser_Summary": "To mark the Russia-Ukraine conflict's one-year mark, U.S. President Joe Biden visited Warsaw, Poland, meeting President Andrzej Duda to discuss regional security, Ukrainian refugee and military aid support, strengthening NATO's eastern flank, and Biden's planned major speech and meeting with U.S. troops in Poland."
}
]

Puede elegir la densidad adecuada de resúmenes en función de sus necesidades. Por ejemplo, si necesita un resumen muy breve, puede elegir el primero o el segundo; si necesita un resumen más detallado pero aun así conciso, puede elegir el cuarto o el quinto.

 

Escenarios de aplicación práctica:

  • Agregación de noticias y recomendación de contenidos: proporcione resúmenes de diferente densidad a distintos usuarios o plataformas para satisfacer diferentes necesidades de información.
  • Recuperación de información: mostrar una densidad diferente de resúmenes en los resultados de búsqueda para ayudar a los usuarios a juzgar rápidamente la relevancia de los artículos.
  • Ayuda a la comprensión lectora: ayuda a los lectores a comprender el contenido del texto de principio a fin aumentando gradualmente la densidad de los resúmenes.
  • Generación de contenidos para redes sociales: genere resúmenes de diferentes longitudes y densidades para distintas plataformas de redes sociales (por ejemplo, Twitter, Facebook).

Con los pasos anteriores, puede utilizar eficazmente las palabras clave de CoD en la práctica para generar resúmenes de texto multidensidad de alta calidad con GPT-4.

 

3. Datos estadísticos

3.1 Estadísticas directas

En la Tabla 1, calculamos los tokens con NLTK, medimos las entidades únicas con Spacy y calculamos las densidades de entidades como ratios. De hecho, el segundo paso conduce a una reducción media de 5 tokens (de 72 a 67), ya que se eliminan las palabras innecesarias del resumen inicialmente extenso. La densidad de entidades aumentó de 0,089 (inferior a la del GPT-4 humano y normal, 0,151 y 0,122, respectivamente) a 0,167 tras 5 pasos de densificación.

Pasos de CoDFichacosa que tiene una existencia material (por oposición a una existencia conceptual, virtual o en línea)Densidad (E/T)
1726.40.089
2678.70.129
3679.90.148
46910.80.158
57212.10.167
humanidad608.80.151
General GPT-4708.50.122

3.2 Estadísticas indirectas

Con cada paso de la CoD, la abstracción debería aumentar a medida que el resumen se reescribe iterativamente para hacer sitio a cada entidad adicional. Medimos la abstracción mediante la densidad extractiva: la longitud media al cuadrado de los fragmentos extraídos. Del mismo modo, el nivel de fusión debería aumentar monotónicamente a medida que se añaden entidades a un resumen de longitud fija. Aproximamos la fusión al número medio de frases fuente alineadas para cada frase abstracta. Para la alineación, utilizamos el método de ganancia relativa ROUGE, que alinea las frases fuente con las frases objetivo hasta que la ganancia relativa ROUGE de las frases añadidas deja de ser positiva. También esperamos que cambie la distribución del contenido, es decir, la posición en el artículo de la que procede el contenido del resumen. En concreto, esperamos que los resúmenes CoD muestren inicialmente un fuerte sesgo de apertura (Lead Bias), pero que gradualmente empiecen a introducir entidades de la mitad y el final del artículo. Para medirlo, utilizamos la alineación en fusión y medimos el rango medio de las frases de todas las frases fuente alineadas. La figura 2 confirma estas hipótesis: a medida que aumenta el paso de reescritura, aumenta la abstracción (panel izquierdo), aumenta el índice de fusión (panel central) y los resúmenes empiezan a incluir contenido de la mitad y el final del artículo (panel derecho). Curiosamente, todos los resúmenes de CoD son más abstractos que los escritos a mano y los de la línea de base.

CoD:密度链

Figura 2: Los resúmenes generados por CoD son cada vez más abstractos, al tiempo que muestran una mayor convergencia y un menor sesgo inicial.

 

4. Resultados

4.1 Preferencias humanas

Para comprender mejor las compensaciones que presentan los resúmenes de la CD, realizamos un estudio basado en las preferencias con una evaluación de la puntuación de la GPT-4.

Pasos de CoDPorcentaje de votos en primer lugar (anotadores individuales)suma el total
13.0 2.013.017.48.3
225.0 28.043.031.430.8
322.0 28.0 21.024.423.0
429.0 25.0 13.026.722.5
521.0 17.0 10.016.315.5

Cuadro 1:: CoD resumen de los porcentajes de votos en primer lugar por paso. Basándose en las preferencias combinadas, los Pasos de la CdD tienen una pluralidad de 2, una mediana de 3 y un valor esperado de 3,06.

En primer lugar, informamos de un valor bajo de 0,112 para el kappa de Fleiss (Fleiss, 1971), lo que sugiere que las diferencias sutiles entre los resúmenes y la naturaleza de la tarea son subjetivas. Estudios recientes también han observado una baja concordancia a nivel de instancia al juzgar resúmenes basados en GPT (Goyal et al., 2022).

Sin embargo, a nivel de sistema, empiezan a surgir algunas tendencias. Para 3 de los 4 anotadores, el paso 1 de CoD recibió la mayor proporción de votos en primer lugar de 100 ejemplos (28%, 43% y 31,4%, respectivamente). Sin embargo, en conjunto, el resumen del primer puesto de 61% (23,0+22,5+15,5) incluía ≥3 pasos de densificación. La mediana del número de pasos de CoD preferidos se situó en el medio (3), con un paso deseado de 3,06.

Basándonos en la densidad media de los resúmenes del paso 3, podemos inferir de forma aproximada que la densidad de entidades preferidas entre los candidatos a CdD es de aproximadamente 0,15. Como podemos ver en la Tabla 1, esta densidad coincide con la de los resúmenes escritos manualmente (0,151), pero es significativamente mayor que la de los resúmenes generados utilizando el prompt GPT-4 normal (0,122).

4.2 Indicadores automáticos

Como evaluador, el GPT-4 ha demostrado alinearse adecuadamente con el juicio humano (Fu et al., 2023; Liu et al., 2023a) e incluso puede superar a los trabajadores de crowdsourcing en algunas tareas de anotación (Gilardi et al., 2023). Como complemento a nuestra evaluación humana, pedimos al GPT-4 que valorara los resúmenes de CdD en una escala de 1 a 5 en las siguientes dimensiones: cantidad de información, calidad, coherencia, atribuibilidad y globalidad. Las definiciones de cantidad de información, calidad y atribuibilidad proceden de Aharoni et al. (2023), mientras que la coherencia procede de Fabbri et al. (2021). El objetivo general es captar la calidad conjunta. Véanse en el Apéndice A los consejos utilizados para capturar las puntuaciones de cada dimensión. La tabla 3 muestra que la densificación está correlacionada con la informatividad, pero hay un límite, con puntuaciones máximas en el paso 4 (4,74). Las dimensiones sin artículo: calidad y coherencia, disminuyeron después de los pasos 2 y 1, respectivamente. Todos los resúmenes se consideraron atribuibles al artículo fuente. Las puntuaciones globales se inclinaron a favor de los resúmenes más densos e informativos, con las puntuaciones más altas en el paso 4. Por término medio, los pasos primero y último de la CdD fueron los menos favorecidos, mientras que los tres pasos intermedios tuvieron puntuaciones cercanas (4,78, 4,77 y 4,76, respectivamente).

En el Apéndice A, informamos de la correlación más alta a nivel de resumen de las métricas generales con el juicio humano (correlación de Pearson de 0,31), pero observamos que la correlación general sigue siendo baja, un fenómeno que también se observó en el estudio de Deutsch et al. (2022) cuando los resúmenes eran de calidad similar.

4.3 Análisis cualitativo

Existe un claro equilibrio entre la coherencia y legibilidad de los resúmenes y la cantidad de información que contienen. Para ilustrarlo, en la figura 4 mostramos dos pasos de CoD: un resumen mejora con más detalles y el otro se ve comprometido. Por término medio, el resumen intermedio de CoD es el que mejor logra este equilibrio, pero dejamos para futuros trabajos la definición y cuantificación precisas de esta compensación.

CoD:密度链

Figura 4Ejemplos de pasos de densificación preferidos por los humanos (izquierda) y un ejemplo de no preferidos (derecha). En el caso de la izquierda, se prefiere el resumen inferior porque la adición de "Liverpool" y el goleador son temáticamente relevantes. El segundo resumen da cabida a una compresión sensata, por ejemplo, sintetizando "posibles vías para volver al partido" en "contraataques". Para la derecha, añadir más detalles sobre "TVMonde" no compensa la torpe fusión de entidades ("Ciberataque" e "Yves Bigot"), que fue resultado directo de tener que ajustar el resumen anterior.

 

5. Trabajos relacionados

Resumen de GPT

Goyal et al. (2022) evaluaron GPT-3 en la generación de resúmenes de artículos de noticias y descubrieron que los humanos preferían los resúmenes de GPT-3 a una línea de base supervisada previa, que no reflejaba las métricas existentes basadas en referencias y sin referencias.Zhang et al. (2023) descubrieron que al solicitar resúmenes de alta calidad a autónomos, los resúmenes de muestra cero de GPT-3 eran comparables al rendimiento humano. resúmenes GPT-3 de muestra cero eran comparables al rendimiento humano.

Resumen basado en entidades

Narayan et al. (2021) proponen generar cadenas de entidades como paso de planificación para el ajuste fino supervisado del modelo de resumen, en contraste con las palabras clave (Li et al., 2020; Dou et al., 2021) o las unidades puramente extraídas (Dou et al., 2021; Adams et al., 2023a). También se han incorporado entidades a los extractos como forma de control (Liu y Chen, 2021; He et al., 2022; Maddela et al., 2022) para aumentar la fidelidad (Nan et al., 2021; Adams et al., 2022) y como unidades de evaluación (Cao et al., 2022; Adams et al., 2023b).

6. Conclusión

Investigamos el efecto de la densificación de los resúmenes en las preferencias humanas por la calidad general. Descubrimos que un cierto nivel de densificación es bienvenido, pero que resulta difícil mantener la legibilidad y la coherencia cuando los resúmenes contienen demasiadas entidades. Pusimos a disposición pública el conjunto de prueba con anotaciones, así como un conjunto de entrenamiento más amplio sin anotaciones, para seguir investigando el tema de los resúmenes de longitud fija y densidad variable.

 

7. Limitaciones

Sólo analizamos las CD para un único dominio, es decir, los resúmenes de noticias. Las anotaciones no muestran coherencia a nivel de sumario alto, pero sí empiezan a mostrar tendencias a nivel de sistema, lo que concuerda con trabajos anteriores sobre evaluaciones basadas en LLM (Goyal et al., 2022). Por último, GPT-4 es un modelo de código cerrado, por lo que no pudimos compartir las ponderaciones del modelo. Sin embargo, liberamos todos los datos de evaluación, anotaciones y 5.000 CoDs sin anotar para casos de uso posteriores, por ejemplo, extraer densidades en modelos de código abierto como LLAMA-2 (Touvron et al., 2023).

 

bibliografía

(se omite la lista de referencias)

 

Indicadores GPT-4

Para la evaluación tipo Likert de la GPT-4, utilizamos la siguiente plantilla de preguntas.

摘要: {{摘要}} {{定义}}

A continuación se ofrecen ejemplos de las definiciones facilitadas para cada indicador de calidad.

  • volumen de informaciónResumen informativo: los resúmenes informativos recogen información importante del artículo y la presentan de forma precisa y concisa.
  • masa (en física):: Los resúmenes de alta calidad son fáciles de entender y comprender.
  • coherencia: Los resúmenes coherentes están bien estructurados y organizados.
  • atribuibleResumen: ¿toda la información del resumen es totalmente atribuible al artículo?
  • preferencia generalUn buen resumen debe transmitir las ideas principales del artículo de forma concisa, lógica y coherente.

Los indicios de calidad y coherencia no incluyen los indicios de los artículos. Estas definiciones se adaptaron de trabajos anteriores sobre anotación de resúmenes: (Fabbri et al., 2021; Aharoni et al., 2023).

dimensión (matem.)pertinencia
volumen de información0.215
masa (en física)0.120
coherencia0.178
atribuible0.245
población (estadística)0.311

Cuadro 2Coeficientes de correlación de Pearson a nivel de resumen entre las preferencias humanas y las puntuaciones Likert del GPT-4.

metaevaluación

Para calcular las correlaciones a nivel de resumen, primero convertimos los datos de preferencias en un vector que indica el número de veces que ese resumen recibió el primer voto. La tabla 4 muestra que, como era de esperar, las pistas diseñadas para captar las valoraciones generales de los resúmenes tienen la mayor correlación de Pearson a nivel general con las preferencias generales (0,31), pero la correlación general sigue siendo baja.

 

resúmenes

Este artículo explora cómo puede utilizarse GPT-4 para generar resúmenes cada vez más densos mediante el método Chained Density Cueing (CoD). En él se constata que un cierto nivel de densificación mejora la calidad de los resúmenes, pero un exceso de densidad perjudica la legibilidad y la coherencia. El equipo de investigación validó este hallazgo mediante estudios de preferencias humanas y la evaluación automatizada GPT-4, y puso a disposición pública los datos de resúmenes anotados y no anotados asociados, proporcionando un valioso recurso para futuras investigaciones.

Resumen de los puntos clave:

  • Cuestiones de densidad encadenadas (CoD)Generar resúmenes más densos añadiendo progresivamente las entidades que faltan sin aumentar la longitud.
  • densidad físicaEl estudio de la densidad de entidades como medida de la informatividad de los resúmenes revela que las preferencias humanas se aproximan a la densidad de los resúmenes escritos manualmente.
  • Abstracción e integración: CoD genera resúmenes que son más abstractos y convergentes, y con menos sesgo inicial.
  • preferencia humanaLos humanos prefieren resúmenes GPT-4 más densos de lo normal, pero demasiada densidad reduce la legibilidad.
  • Evaluación automatizadaLos resultados de la evaluación automatizada de la GPT-4 coincidieron en general con las preferencias humanas, pero la correlación global fue baja.

Futuras líneas de investigación:

  • Una definición más precisa de las compensacionesConclusión: las investigaciones futuras podrían definir y cuantificar mejor la relación entre el contenido de la información y la legibilidad.
  • Aplicaciones multidisciplinares:: Aplicar la metodología CoD a otros ámbitos, como artículos académicos, documentación técnica, etc., para validar su generalizabilidad.
  • Mejoras en la modelizaciónObjetivo: explorar cómo se puede mejorar la modelización para aumentar la legibilidad manteniendo un alto nivel de información.

A través de este artículo, podemos ver que la IA ha hecho progresos impresionantes en el procesamiento y la generación de textos, pero aún se enfrenta al reto de equilibrar el contenido de la información con la legibilidad. En el futuro, a medida que la tecnología siga avanzando, tenemos motivos para creer que los resúmenes generados por IA serán aún más inteligentes y fáciles de usar.

© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...