¿Cómo elegir el modelo de incrustación para crear una aplicación GAR?

AI RespuestasPublicado hace 11 meses Círculo de intercambio de inteligencia artificial

37.1K 00

La elección del modelo de incrustación adecuado es un paso crucial a la hora de crear un sistema GAR. A continuación le presento mis factores clave y mis sugerencias sobre lo que debe tener en cuenta a la hora de elegir un modelo de incrustación:

Definir escenarios de aplicación

En primer lugar, hay que aclarar los escenarios de aplicación y los requisitos específicos del sistema GAR. Por ejemplo, ¿se trata de datos de texto, datos de imagen o datos multimodales? Los distintos tipos de datos pueden requerir modelos de incrustación diferentes. Por ejemplo, para los datos de texto, puede consultar las tablas de clasificación MTEB (Massive Text Embedding Benchmark: una colección de métricas de evaluación para medir los modelos de incrustación de texto) de HuggingFace para elegir un modelo adecuado, o acudir a la comunidad nacional Magic Matching para consultar las tablas de clasificación.

Necesidades genéricas y específicas de cada ámbito

En segundo lugar, elija un modelo en función de la generalidad o especificidad de la tarea. Si la tarea que desea implementar es más genérica y no implica demasiados conocimientos del dominio, puede elegir un modelo de incrustación genérico; si la tarea implica un dominio específico (por ejemplo, derecho, sanidad, etc., educación, finanzas, etc.), deberá elegir un modelo más adecuado para ese dominio.

multilingüismo

Si el contenido de la base de conocimientos existe en su sistema y necesita admitir varios idiomas, puede elegir modelos de incrustación multilingües, como BAAI/bge-M3, bce_embedding (chino-inglés), etc., que funcionan mejor en un entorno multilingüe. Si su base de conocimientos contiene principalmente datos en chino, puede elegir modelos como iic/nlp_gte_sentence-embedding_chinese-base, etc. El efecto será mejor.

Evaluación del rendimiento

Consulte marcos de evaluación comparativa como MTEB Leaderboards para evaluar el rendimiento de distintos modelos. Estas tablas de clasificación abarcan varios idiomas y tipos de tareas y pueden ayudarle a encontrar los modelos con mejor rendimiento en tareas específicas. A continuación, hay que tener en cuenta las limitaciones de tamaño y recursos del modelo. Los modelos más grandes pueden ofrecer un mayor rendimiento, pero también aumentan los costes computacionales y los requisitos de memoria. Además, las dimensiones de incrustación más grandes suelen proporcionar información semántica más rica, pero también pueden conllevar mayores costes computacionales. Por lo tanto, hay que sopesar la elección en función de los recursos de hardware reales y los requisitos de rendimiento.

Pruebas prácticas y validación

Por último, si es posible, puede seleccionar de 2 a 3 modelos para comparar los efectos, probar y validar el rendimiento de los modelos seleccionados en escenarios empresariales reales, observar métricas como la precisión y la recuperación para evaluar el rendimiento de los modelos en conjuntos de datos específicos y realizar ajustes en función de los resultados.

Recomendación de modelo de incrustación

A continuación se presentan 5 modelos principales de incrustación, recomendados para construir sistemas RAG como referencia:

Incrustación de BGEDesarrollado por el Wisdom Source Institute, admite varios idiomas y ofrece varias versiones, incluido el eficaz reranker. el modelo es de código abierto y licencia libre, y es adecuado para tareas como la recuperación, la clasificación y la agrupación.

GTE Embedding: lanzado por el Instituto Dharma de Alibaba, basado en el marco BERT, es aplicable a escenarios como la recuperación de información y el juicio de similitud semántica con un excelente rendimiento.

Jina Embedding: creado por el equipo Finetuner de Jina AI, entrenado en el conjunto de datos Linnaeus-Clean, es adecuado para la recuperación de información y el juicio de similitud semántica con un rendimiento excepcional.

Conan-Embedding: se trata de un modelo de incrustación optimizado para el chino, que alcanza el nivel SOTA (State-of-the-Art) en C-MTEB, y es especialmente adecuado para los sistemas RAG que requieren una representación semántica de alta precisión del chino.

text-embedding-ada-002: Desarrollado por el equipo de Xenova, es compatible con la biblioteca Hugging Face y proporciona representaciones vectoriales de texto de alta calidad para una amplia gama de tareas de PLN.

Por supuesto, también hay Sentence-BERT, E5-embedding, Instructor y así sucesivamente, el rendimiento de estos modelos en diferentes escenarios será un poco diferente, de acuerdo a sus necesidades específicas y las consideraciones que he enumerado anteriormente, usted puede elegir el modelo adecuado para construir un sistema RAG.