¿Modelos vectoriales de texto largo ciegos más allá de 4K tokens?

长文本向量模型在4K Tokens 之外形同盲区?

NoLiMA, publicado en febrero de 2025, es un método para evaluar la comprensión de textos largos en el Modelo de Lenguaje Amplio (LLM). A diferencia de la prueba tradicional Needle-in-a-Haystack (NIAH), que se basa en la concordancia de palabras clave, sus características más importantes son las siguientes Encontrar respuestas a partir de textos largos sólo es posible si se elaboran cuidadosamente preguntas y mensajes clave que obliguen al modelo a una comprensión semántica y un razonamiento profundos.

NoLiMa: https://arxiv.org/abs/2502.05167

Los resultados de NoLiMA revelan un problema importante: los LLM que afirman ser capaces de procesar cientos de miles o incluso millones de tokens tienen un rendimiento significativamente inferior en tareas que realmente requieren la comprensión de textos largos. Por ejemplo, con una longitud de 32.000 tokens, el rendimiento de los 10 modelos probados no es ni la mitad de bueno que con textos cortos (menos de 1.000 tokens); incluso el modelo con mejor rendimiento, GPT-4o, baja de un rendimiento casi perfecto de 99,3% a 69,7%.

Inspirándonos en NoLiMA, utilizamos el modelo vectorial jina-embeddings-v3 Se realizaron experimentos similares. La razón para investigar el modelo vectorial es que en los sistemas de generación aumentada de recuperación (RAG), el modelo de recuperación (también conocido como modelo vectorial) es bueno o malo, lo que determina directamente la eficacia de todo el sistema.

Nuestra investigación se centra en dos cuestiones centrales:

  • ¿Pueden los modelos vectoriales realizar "razonamientos de un solo paso" en textos largos? Con las pruebas NIAH tradicionales, las preguntas y las respuestas suelen coincidir directamente (por ejemplo, "¿En qué año fue Juan a París?" y "Juan fue a París en 2019"). A diferencia del "pin" que hemos diseñado, requiere que el modelo razone semánticamente (por ejemplo, la pregunta es "¿Qué personaje ha estado en Francia?"). El "pin" es "Yuki vive junto a la Ópera Semper", y el modelo tiene que saber que la Ópera Semper está en Alemania).
  • ¿Pueden las extensiones de consulta mejorar la recuperación de textos largos? La expansión de la consulta consiste en añadir algunas palabras relacionadas a la consulta para enriquecer la semántica. Queremos ver si este enfoque puede compensar las deficiencias de los modelos vectoriales cuando se trata de textos largos.
长文本向量模型在4K Tokens 之外形同盲区?

Prueba NIAH tradicional (permite comparar palabras clave) frente a la prueba NOLIMA (requiere razonamiento semántico)

Los resultados experimentales con LLM han demostrado que se basan demasiado en la coincidencia superficial de textos y no lo suficiente en un razonamiento más profundo. Nos preguntamos si ocurre lo mismo con los modelos vectoriales. Esto podría permitirnos ver qué es lo que aún falta en las técnicas actuales de búsqueda semántica.

Construcción de mensajes clave y contexto

Construcción de información clave

En las pruebas tradicionales de "aguja en un pajar", los mensajes clave ("agujas") suelen estar redactados de forma muy parecida a las preguntas que se buscan. Por ejemplo:

  • PREGUNTA: "¿Qué personaje ha estado en Dresde?"
  • Mensaje clave: "Yuki vive en Dresde".

Pero ese artículo de NoLiMa no lo hace, y no queremos hacerlo. Lo que queremos analizar es la comprensión de la semántica por parte del modelo, no simplemente la coincidencia de palabras clave. Así que diseñamos una variante de "salto único" ("salto único" significa que la respuesta y la pregunta tienen que estar conectadas por una pequeña inferencia), y utilizamos deliberadamente algunas palabras que no aparecían en el texto, y también frases invertidas.

  • PREGUNTA: "¿Qué personaje ha estado en Dresde?"
  • INFORMACIÓN CLAVE (POR DEFECTO): "De hecho, Yuki vive junto a la Ópera Semper".
  • Mensaje clave (invertido): "La Ópera Semper está al lado de donde vive Yuki".

Siguiendo la metodología del artículo, generamos múltiples categorías de grupos de "pregunta-mensaje clave" (cada uno de los cuales contiene una pregunta, un mensaje clave de "un salto" y una versión del mensaje clave de "un salto" a la inversa). "mensaje clave a la inversa").

A continuación se muestran algunos ejemplos:

formulariocuestionesInformación clave original (sólo como referencia)Mensajes clave de un solo saltoInformación clave invertida
Restricciones dietéticas¿Qué personaje no puede comer pescado?Alice no puede comer pescado.Alice menciona entonces que ha sido vegetariana durante muchos años.Una dieta vegetariana ha sido importante para Alice durante muchos años.
enfermedad¿Qué personaje no puede beber leche?Bob no puede beber leche.Bob explica que es intolerante a la lactosa.La intolerancia a la lactosa afecta a Bob todos los días.
capacidad verbal¿Qué personaje habla francés?Charlie habla francés.De hecho, Charlie estudió en la Sorbona.Charlie se licenció en la Sorbona.
Experiencia profesional¿Qué personaje es el músico?Diane es músico.Diane dirigió en la Ópera de Sídney en 2013.La representación de la Ópera de Sydney fue dirigida por Diane.

💡 Los nombres anteriores son sólo ejemplos. En el "pin" real, los nombres se seleccionan al azar de una lista de nombres de diferentes culturas.

Además, la "información original de la clave" (es decir, la versión coincidente literalmente) de la tabla es sólo para su comodidad, y no se utilizará en nuestros experimentos.

contextualización

Preparamos diez libros públicos, cada uno con al menos 50.000 tokens, y seleccionamos al azar algunos fragmentos cortos de cada libro (cada fragmento no tiene más de 250 tokens), y luego empalmamos estos fragmentos para formar "contextos" de diferentes longitudes, cuyas longitudes son 128, 256, 512, 1024, 2048, 4096 y 8192 tokens, respectivamente. A continuación, estos fragmentos se empalman para formar "contextos" de distintas longitudes: 128, 256, 512, 1024, 2048, 4096 y 8192 palabras, respectivamente. A continuación, colocamos un mensaje clave en cada contexto:

长文本向量模型在4K Tokens 之外形同盲区?

Contextualización con breves fragmentos y mensajes clave del libro

Para ser más concretos, digamos que tomamos el mensaje clave "De hecho, Yuki vive junto a la Ópera Semper" y lo ponemos en el lema 50 en un contexto de 128 lemas:

长文本向量模型在4K Tokens 之外形同盲区?

Ejemplo de una aguja en un pajar

Utilizamos jina-embeddings-v3 El modelo se utiliza para vectorizar el texto y, a continuación, se calculan las puntuaciones de similitud del texto de "información clave" y el texto de "contexto":

Question-Haystack similarity = 0.2391

Para dar sentido a esta puntuación de similitud, tenemos que hacer un paso más de "normalización". Para ello, se calcula primero la puntuación de similitud entre la pregunta y el mensaje clave por defecto (es decir, sin contexto, comparación directa). A continuación, dividimos la anterior puntuación de similitud "mensaje clave-contexto" por la puntuación de similitud "pregunta-mensaje clave":

Question-Needle similarity = 0.3598
Normalized Query - Haystack similarity = 0.2391 / 0.3598 = 0.6644

¿Por qué normalizar? Porque las puntuaciones de similitud calculadas pueden ser diferentes para distintos modelos vectoriales. Y.jina-embeddings-v3 Los modelos suelen subestimar la similitud entre dos textos.

Para cada mensaje clave (tanto la versión por defecto como la versión flip-flop), generamos 10 contextos de longitudes diferentes, en cada uno de los cuales el mensaje clave aparece en un lugar distinto. Para el mismo mensaje clave y la misma longitud de contexto, estos 10 contextos tienen el siguiente aspecto:

长文本向量模型在4K Tokens 之外形同盲区?

Colocar información clave a intervalos regulares en diez contextos

 

Además, para tener un control, también generamos un contexto para cada condición de prueba (diferente longitud de contexto) que no contenía ninguna información clave. Esto nos da un total de 3234 contextos generados.

Por último, utilizamos eljina-embeddings-v3 (utilizando el LoRA de concordancia de texto por defecto) codifica cada contexto. Si el número total de elementos léxicos de un contexto supera los 8192 (que es el límite superior del modelo jina-embeddings-v3), truncamos el exceso y codificamos también el correspondiente por pregunta.

 

Evaluación de los indicadores

Diseñamos un marco de evaluación con varias métricas diferentes para medir el rendimiento de los modelos vectoriales bajo diferentes longitudes de contexto:

Principales indicadores

1. Puntuaciones de similitud normalizadas

Esta es la métrica principal. No se limita a analizar la similitud semántica entre la pregunta y todo el contexto, sino que también toma la pregunta y la información clave y las compara por separado. Esto nos da una idea del rendimiento del modelo en el contexto que contiene la información clave, en comparación con su rendimiento en el caso ideal (en el que la pregunta y la información clave se comparan directamente).

El método de cálculo específico es el siguiente: en primer lugar, se calcula la puntuación de similitud coseno entre la pregunta y su correspondiente información clave como referencia; a continuación, se divide la "similitud pregunta-contexto" por esta referencia para obtener la puntuación de similitud normalizada.

长文本向量模型在4K Tokens 之外形同盲区?

2. Cuánto mejor que una suposición al azar

Para los modelos vectoriales, sólo tiene sentido comparar la similitud de la misma pregunta con diferentes textos. Así que, además de la puntuación de similitud normalizada, tenemos que ver si la pregunta es realmente más similar a todo el contexto que a un fragmento aleatorio de texto de la misma longitud pero sin información clave. En otras palabras, queremos ver si la respuesta que encuentra el modelo es realmente más precisa que una suposición a ciegas.

Indicadores secundarios

1. Análisis de las competencias distintivas

Esta métrica examina la capacidad del modelo para distinguir la información clave de otros contenidos irrelevantes. Hay dos aspectos específicos:

  • Separación media: Cuál es la diferencia entre los pasajes que contienen respuestas ("ejemplos positivos") y los que no ("ejemplos negativos").
  • Puntuación AUC (área bajo la curva)La capacidad del modelo para distinguir entre información clave y otros contenidos se mide calculando el área bajo la curva ROC (curva de características operativas del sujeto).

2. Efectos posicionales

También examinaremos si la ubicación de la información clave en el contexto afecta a la facilidad con que el modelo la encuentra. Analizaremos:

  • ¿Existe alguna relación (coeficiente de correlación) entre la ubicación de la información clave y la puntuación de similitud?
  • Qué ocurre con el rendimiento del modelo (pendiente de regresión) cuando la información clave se coloca en distintas posiciones.
  • Agrupa los mensajes clave por lugares y observa cómo los distintos grupos se comportan de forma diferente.

 

estudio

Las puntuaciones de similitud y la precisión disminuyen a medida que aumenta la longitud del texto.

Los resultados experimentales son claros: cuanto más largo es el contexto del texto, peor funciona el modelo.La puntuación media de similitud desciende de 0,37 a 128 palabras hasta 0,10 a 8.000 palabras, y esta caída no es una línea recta, sino que es especialmente rápida entre 128 palabras y 1.000 palabras.

长文本向量模型在4K Tokens 之外形同盲区?

Rendimiento de la normalización en función de la longitud del contexto

 

También descubrimos queInvertir el enunciado de la información clave (invertirlo) tiene poco efecto sobre el modelo que la encuentra. Ya sea "De hecho, Yuki vive cerca de la Ópera Semper" (la afirmación por defecto) o "La Ópera Semper está justo al lado de donde vive Yuki" (la afirmación invertida), la probabilidad de que el modelo las encuentre es casi la misma:

长文本向量模型在4K Tokens 之外形同盲区?

Comparación del rendimiento del modelo con dos cuentas (orden por defecto frente a orden inverso)

 

Sin embargo.El tipo de contenido de la información clave influye en la dificultad de encontrar el modelo. Si se trata de información sobre lugares y puntos de referencia, el modelo es más fácil de encontrar; pero si se trata de información sobre la dieta y las condiciones de salud, el modelo es más difícil de encontrar, y la dificultad aumenta más rápidamente a medida que el texto es más largo:

长文本向量模型在4K Tokens 之外形同盲区?

Relación entre la dificultad para encontrar distintos tipos de información (agrupación) (rendimiento normalizado) y la longitud del texto

 

Para comprobar si el modelo es realmente mejor que las adivinanzas, comparamos los resultados del modelo con una "adivinanza aleatoria". Una "suposición aleatoria" es un fragmento de texto tan largo como la pregunta, pero que no contiene información clave. Comprobamos queCuanto más largo es el contexto, más se acercan los resultados del modelo a una suposición a ciegas, y elegir un trozo de texto inútil después es casi igual de bueno.

长文本向量模型在4K Tokens 之外形同盲区?

Comparación del rendimiento del modelo y la probabilidad aleatoria (con probabilidad 0,5)

 

También agrupamos los datos según el tipo de contenido de la información clave y, a continuación, examinamos el rendimiento del modelo. Los resultados fueron similares: para algunos tipos de información (por ejemplo, restricciones dietéticas), el modelo no era mucho mejor que adivinar, aunque el texto no fuera demasiado largo; para otros tipos de información (por ejemplo, lugares y puntos de referencia), el modelo funcionaba bien por muy largo que fuera el texto:

长文本向量模型在4K Tokens 之外形同盲区?

Probabilidad de que el modelo encuentre una respuesta frente a la adivinación aleatoria para distintos tipos de agrupaciones de información.

 

Invertir el enunciado de la información clave no tiene prácticamente ningún efecto sobre la probabilidad de que el modelo la encuentre. La siguiente figura muestra que la probabilidad de que el modelo encuentre el texto que contiene correctamente la información clave es mucho mayor que la probabilidad de hacer una suposición al azar. Veamos por separado los dos enunciados de la información clave (por defecto e invertido):

长文本向量模型在4K Tokens 之外形同盲区?

Orden predeterminado frente a orden inverso, ¿cuántas más probabilidades tiene el modelo de encontrar la respuesta que una suposición al azar?

 

Como puede verse en la figura, la tendencia del rendimiento del modelo es similar en ambos enunciados. Por lo tanto, no distinguiremos entre los dos casos más adelante.

¿Puede el modelo seguir distinguiendo entre información útil e inútil?

Uno de nuestros hallazgos más importantes se refería a la capacidad de los modelos vectoriales para distinguir entre información útil e inútil en textos de distinta longitud. Hicimos un "análisis de separación" y descubrimos que la capacidad del modelo para encontrar la respuesta correcta disminuye con especial rapidez entre 128 y 1.000 palabras. Después, sigue disminuyendo, pero a un ritmo más lento.

长文本向量模型在4K Tokens 之外形同盲区?

Relación entre la separación y la longitud del contexto

 

En textos cortos (128 palabras), el modelo distingue claramente entre información útil e inútil.La separación media fue de 0,1, con un AUC de 0,81 (es decir, 81 veces de cada 100, el pasaje que contenía la respuesta se clasificó en primer lugar).

Sin embargo, a medida que el texto se hace más largo, el rendimiento del modelo se reduce drásticamente.bajarA las 1000 palabras, la separación desciende a 0,04 (por debajo de 60%) y el AUC cae a 0,66, lo que indica que el modelo ya no es capaz de distinguir. A las 8.000 palabras, la separación es casi nula (0,001) y el AUC se acerca a 0,5 (comparable a la adivinación aleatoria), lo que significa que el modelo ya no es capaz de distinguir información útil basándose en las puntuaciones de similitud.

Llama la atención el ritmo al que disminuye la capacidad del modelo para distinguir la información útil a medida que aumenta la longitud del texto.Mientras que la puntuación bruta de similitud se redujo en unos 751 TP3T de 128 a 8000 palabras, la métrica de separación se redujo en casi 991 TP3T y el tamaño del efecto se redujo aún más, ¡en 98,61 TP3T!La dificultad de los modelos vectoriales para tratar textos largos no sólo radica en la reducción de las puntuaciones de similitud, sino también en la grave degradación de la capacidad para distinguir entre información útil e inútil, que es mucho mayor de lo que esperábamos.

¿Cómo afecta la ubicación de la información clave a la dificultad para encontrarla?

En general, es más fácil encontrar la información clave colocándola en la parte superior del texto. Sin embargo, no es necesariamente cierto que colocarla en el centro dificulte su localización:

长文本向量模型在4K Tokens 之外形同盲区?

El efecto de colocar la información clave en distintas posiciones en textos de distinta longitud sobre su localización.

 

Los resultados experimentales también confirman que la información clave es más fácil de encontrar cuando se coloca al principio. Además, si el texto es corto, también es más fácil encontrarla cuando se coloca cerca del final. Sin embargo, independientemente de la longitud del texto, no es tan fácil encontrarla cuando se coloca en el centro:

长文本向量模型在4K Tokens 之外形同盲区?

Compara la probabilidad de encontrar la información clave colocándola en distintos lugares.

 

 

¿Pueden ayudar las extensiones de consulta?

Hace poco publicamos un blog sobre la "ampliación de consultas". Se trata de un método habitual en las búsquedas, que consiste simplemente en que, cuando se formula una pregunta, se añaden palabras relevantes a la misma para que los resultados de la búsqueda sean más precisos.

Ampliación de consultas basada en LLM: más información, búsquedas más precisas

Desde la aparición de los modelos vectoriales, la forma de buscar ha cambiado mucho. ¿Sigue siendo útil en la era de la IA un método como la "ampliación de consultas", que se basa en gran medida en añadir vocabulario? Nosotros creemos que sí.

En ese blog, utilizamos el Modelo Grande (LLM) para generar algunas palabras extendidas, y luego añadimos estas palabras al vector de consulta, y descubrimos que los resultados de búsqueda eran mucho mejores. Ahora, nos gustaría ver si esto ayuda en tareas de búsqueda de texto largo como "encontrar una aguja en un pajar". Por ejemplo, cuando se pregunta

哪个角色去过德累斯顿?

Ampliémoslo con un modelo grande (Gemini 2.0), añadamos 100 palabras relacionadas y probablemente tendrá este aspecto:

哪个角色去过德累斯顿? 角色:虚构角色 文学角色 主角 反派 人物 角色 身份 剧中人物

德累斯顿:德国德累斯顿;二战德累斯顿轰炸 历史小说 库尔特·冯内古特 《五号屠宰场》 萨克森州城市 易北河 文化地标

去过:访问过 去过 曾到过 出现于 出现于 特征为 设定在 发生于 地点 背景

¿Qué utilidad pueden tener las extensiones de consulta?

Realizamos un experimento que generó tres conjuntos de consultas ampliadas, cada una con 100, 150 y 250 palabras añadidas (para más detalles sobre cómo añadirlas, consulta este artículo). A continuación, realizamos el experimento anterior tres veces más, cada vez con un conjunto diferente de consultas ampliadas.

Resulta que no importa cuántas palabras se añadan, en cuanto el texto es largo, el rendimiento del modelo tira de la entrepierna, más o menos lo mismo que cuando no se utiliza la expansión de consultas:

长文本向量模型在4K Tokens 之外形同盲区?

Rendimiento del modelo agregado para varios escenarios de ampliación de consultas

Comparado con el problema sin la ampliación, todos los casos en los que se añaden palabras son la misma historia de siempre:Cuanto más largo sea el texto, peor será el rendimiento. Además, este descenso sigue siendo desigual, siendo mayor entre las 128 palabras y las 1.000 palabras:

长文本向量模型在4K Tokens 之外形同盲区?

Probabilidad de que el modelo encuentre la respuesta correcta en varios escenarios de ampliación de la consulta.

Sin embargo Un examen más detallado de la métrica "Ratio de comparación" muestra que la ampliación de las consultas sigue siendo útil:Facilita que el modelo encuentre textos que contienen información clave. Sin ampliación de la consulta, el modelo funciona tan bien como una suposición aleatoria de 8.000 elementos léxicos.

¿Cómo interpretar los resultados de una ampliación de consulta?

Estos resultados concuerdan con el artículo de NoLiMa y con nuestras conclusiones anteriores sobre la ampliación de consultas. Puede interpretarse así:

  1. Añadir palabras con moderación funciona mejorEl efecto de añadir 100 palabras es mejor que el de añadir 150 o 250 palabras, lo que significa que, al ampliar la consulta, hay un cierto grado de adición de palabras, y añadir demasiadas palabras aportará ruido semántico en lugar de señales, lo que interferirá con el juicio del modelo. Cuando se añaden 250 palabras, es muy probable que se añadan algunos términos con escasa relevancia para la pregunta, y estas palabras no serán de ayuda en un texto largo.
  2. Los textos largos siguen siendo un reto fundamentalLa arquitectura actual del modelo basado en la atención tiene un cuello de botella fundamental cuando se trata de textos largos. La arquitectura actual de los modelos basados en la atención tiene un cuello de botella fundamental cuando se trata de textos largos, un problema que no puede resolverse simplemente añadiendo unas pocas palabras.
  3. La divulgación de la información sigue siendo útilEl coeficiente de comparación es superior a 0,5, lo que sugiere que la expansión de la consulta sigue siendo eficaz. Incluso con 8.000 palabras de texto largo, las preguntas de expansión de consultas tienen más probabilidades de encontrar la respuesta correcta que las adivinanzas aleatorias. Esto nos inspira la idea de que la expansión de consultas sigue siendo una vía potencial para mejorar la capacidad de procesamiento de textos largos de los modelos vectoriales, que merece la pena seguir explorando.

 

¿Impacto de la concordancia literal en los modelos vectoriales?

En experimentos anteriores, para medir la capacidad del modelo vectorial de realizar "inferencia de un salto" en textos largos, evitamos deliberadamente cualquier repetición literal entre preguntas e información clave. Los resultados muestran que, incluso con la ampliación de la consulta, la capacidad del modelo para encontrar información relevante en textos largos se deteriora. Este fenómeno es interesante. A todas luces, el modelo vectorial debería ser capaz de realizar este tipo de razonamiento por sí solo, sin ayuda adicional. Al fin y al cabo, acabamos de sustituir "Dresde" por "Ópera Semper", lo que en esencia es sustituir una palabra por otra similar.

¿Qué importancia tiene la concordancia literal en la concordancia semántica? ¿O influye más la longitud del texto? Para averiguarlo, rediseñamos el experimento de modo que hubiera repeticiones literales entre los mensajes clave y las preguntas, por ejemplo:

  • PREGUNTA: "¿Qué personaje ha estado en Dresde?"
  • Mensaje clave (por defecto): "En realidad, Yuki vive en Dresde".
  • Mensaje clave (invertido): "Dresde es donde vive Yuki".

Nótese que aquí damos la información "Yuki vive en Dresde" directamente, en lugar de exigir al lector que deduzca "La Ópera Semper está en Dresde, así que la gente que vive en el barrio ha estado en Dresde", como ocurría antes.

Cambiamos los 22 grupos de preguntas y la información clave a esta forma directa y luego utilizamos el mismo modelo vectorial jina-embeddings-v3 Volví a realizar el experimento, probando con distintas longitudes de texto y ubicaciones de la información clave.

长文本向量模型在4K Tokens 之外形同盲区?

Rendimiento de la normalización en función de la longitud del contexto

长文本向量模型在4K Tokens 之外形同盲区?

Rendimiento del modelo frente a una estimación aleatoria (0,5)

长文本向量模型在4K Tokens 之外形同盲区?

Ratios comparativos en diferentes lugares

 

Los resultados fueron inesperados. Aunque haya las mismas palabras en la pregunta y en la respuesta, la capacidad del modelo para distinguir entre la respuesta correcta y una suposición aleatoria disminuye rápidamente en cuanto el texto es largo. Por supuesto, sigue siendo ligeramente mejor que en el caso de que no haya palabras idénticas.

En última instancia, esto demuestra que la longitud del contexto y la ubicación de la información clave en él influyen más en el rendimiento del modelo vectorial en la tarea "una aguja en un pajar" que la redacción específica de la información clave (representación semántica).

 

llegar a un veredicto

En general, las conclusiones de nuestros experimentos con modelos vectoriales son coherentes con los experimentos de NoLiMA con grandes modelos lingüísticos: cuanto más largo es el texto, más difícil le resulta al modelo encontrar la respuesta correcta. Nuestros experimentos también muestran que, aunque las palabras clave de la pregunta y la respuesta sean exactamente las mismas, el modelo no siempre encuentra la correcta.

Nuestros resultados experimentales coinciden en gran medida con las conclusiones del documento NoLiMA sobre LLM:Para los modelos vectoriales, la longitud del contexto es un factor clave en el rendimiento de la recuperación.Cuanto más largo sea el texto, más difícil le resultará al modelo encontrar la respuesta correcta. Aunque las palabras clave de la pregunta y la respuesta sean exactamente las mismas, el modelo no siempre encontrará la correcta.

  1. El rendimiento disminuye bruscamente con la longitudjina-embeddings-v3: jina-embeddings-v3 funciona bien con textos cortos (128 palabras), pero su rendimiento disminuye rápidamente con textos largos. La puntuación de similitud normalizada desciende de 0,37 con 128 palabras a 0,10 con 8.000 palabras y, lo que es más importante, la capacidad del modelo para distinguir entre información relevante e irrelevante (lo que denominamos "separación") desaparece casi por completo.
  2. El "razonamiento de un solo salto" es difícil.Incluso con textos cortos, el rendimiento del modelo se deteriora significativamente si no hay un solapamiento literal directo entre la pregunta y la respuesta. Esto sugiere que el modelo vectorial tiene dificultades con el "razonamiento de un solo salto" (por ejemplo, deducir "ha estado en Dresde" de "vive junto a la Ópera Semper").
  3. Las extensiones de consulta ayudan, pero no lo son todoLa expansión de la consulta puede mejorar en cierta medida el rendimiento de la recuperación, especialmente con textos largos, haciendo que el modelo supere a las conjeturas aleatorias. Sin embargo, no resuelve por completo los problemas que plantean los textos largos y el rendimiento sigue disminuyendo a medida que el texto se hace más largo. Además, hay que tener cuidado al añadir palabras, ya que las palabras irrelevantes introducen ruido semántico y reducen el rendimiento.
  4. La concordancia literal no es la claveRespuesta: aunque haya las mismas palabras clave en la pregunta y en la respuesta, mientras el texto sea largo, el modelo sigue sin poder encontrarla. Esto demuestra que la posición de la respuesta en el texto influye más en que el modelo pueda encontrar la respuesta que cómo se dice la respuesta y lo largo que es el texto.

En general, nuestra investigación sugiere que jina-embeddings-v3 Un modelo vectorial de este tipo, que es bueno para manejar textos cortos, aún no es capaz de manejar textos largos que requieren una comprensión más profunda de la semántica. Esto nos motiva a seguir explorando técnicas más eficaces para la recuperación de textos largos, y es de esperar que en el futuro el jina-embeddings-v4 Hay un gran avance en.

© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...