Kit de herramientas para ingenieros de modelización de grandes lenguajes: una selección de más de 120 recursos útiles para bibliotecas

Noticias AIActualizado hace 1 año Círculo de intercambio de inteligencia artificial

58.5K 00

En el campo de la Inteligencia Artificial, la tecnología de modelado de grandes lenguajes (LLM) está cambiando rápidamente y están surgiendo diversas bibliotecas de herramientas. Con el fin de ayudar a los desarrolladores a afrontar mejor los retos que plantea el desarrollo de LLM, este artículo recopila una caja de herramientas que contiene más de 120 bibliotecas LLM útiles, divididas por categorías funcionales, para que los ingenieros puedan encontrarlas y aplicarlas rápidamente.

Navegación rápida

Para facilitar a los lectores la localización rápida de los recursos que necesitan, a continuación se ofrecen enlaces rápidos a las bibliotecas de herramientas de cada categoría:


🚀 Formación y puesta a punto del LLM	🧱 Desarrollo de aplicaciones LLM	🩸 Generación de mejoras de recuperación LLM (RAG)
🟩 Razonamiento LLM	🚧 Despliegue del servicio LLM	📤 Extracción de datos del LLM
🌠 Generación de datos LLM	💎 LLM Cuerpo inteligente	⚖️ Evaluación LLM
🔍 Supervisión y control del LLM	📅 LLM Prompt Word Ingeniería	📝 LLM Salida estructurada
🛑 LLM Seguridad	💠 Modelo LLM integrado	❇️ Otros

Formación y puesta a punto del LLM

nombre de la biblioteca	descripciones	enlace (en un sitio web)
antipático	Ajuste más rápido de LLM con menos memoria.	enlace (en un sitio web)
PEFT	Biblioteca avanzada de ajuste de parámetros.	enlace (en un sitio web)
TRL	Formación mediante aprendizaje por refuerzo transformador Modelización del lenguaje.	enlace (en un sitio web)
Transformers	Transformers proporciona miles de modelos preentrenados para realizar tareas en distintas modalidades, como texto, visión y audio.	enlace (en un sitio web)
Axolotl	Herramientas diseñadas para simplificar el post-entrenamiento de varios modelos de IA.	enlace (en un sitio web)
LLMBox	Una completa biblioteca LLM, que incluye un proceso de formación unificado y una evaluación completa de los modelos.	enlace (en un sitio web)
LitGPT	Entrenar y afinar rápidamente el LLM.	enlace (en un sitio web)
Mergoo	Una biblioteca para fusionar fácilmente múltiples expertos LLM y entrenar eficientemente el LLM fusionado.	enlace (en un sitio web)
Llama-Fábrica	Herramienta de ajuste de LLM sencilla y eficaz.	enlace (en un sitio web)
Ludwig	Marco de bajo código para crear LLM, redes neuronales y otros modelos de IA personalizados.	enlace (en un sitio web)
Txtinstruct	Un marco para el entrenamiento de modelos de ajuste de instrucciones.	enlace (en un sitio web)
Lamini	Una plataforma integrada de inferencia y ajuste de LLM.	enlace (en un sitio web)
XTuring	XTuring proporciona un ajuste rápido, eficiente y sencillo de LLM de código abierto como Mistral, LLaMA, GPT-J y otros.	enlace (en un sitio web)
RL4LMs	Biblioteca modular de RL para ajustar los modelos lingüísticos a las preferencias humanas.	enlace (en un sitio web)
DeepSpeed	DeepSpeed es una biblioteca de optimización de aprendizaje profundo que hace que el entrenamiento y la inferencia distribuidos sean sencillos, eficientes y eficaces.	enlace (en un sitio web)
torchtune	Una biblioteca nativa de PyTorch diseñada específicamente para afinar LLM.	enlace (en un sitio web)
PyTorch rayo	Una biblioteca que proporciona una interfaz de alto nivel para el preentrenamiento y el ajuste de los LLM.	enlace (en un sitio web)

Desarrollo de aplicaciones LLM

fig. patrón

nombre de la biblioteca	descripciones	enlace (en un sitio web)
Cadena LangChain	LangChain es un marco para el desarrollo de aplicaciones basadas en el Large Language Model (LLM).	enlace (en un sitio web)
Índice de llamas	LlamaIndex es el marco de datos para aplicaciones LLM.	enlace (en un sitio web)
Pajar	Haystack es un marco LLM integral que permite a los usuarios crear aplicaciones basadas en LLM, modelos Transformer, búsqueda vectorial, etc.	enlace (en un sitio web)
Flujo rápido	Un conjunto de herramientas de desarrollo diseñadas para simplificar el ciclo de desarrollo integral de aplicaciones de IA basadas en LLM.	enlace (en un sitio web)
Cinta adhesiva	Un marco modular en Python para crear aplicaciones basadas en IA.	enlace (en un sitio web)
Tejido	Weave es un conjunto de herramientas para desarrollar aplicaciones de IA generativa.	enlace (en un sitio web)
Pila de llamas	Construye la aplicación Llama.	enlace (en un sitio web)

Acceso múltiple a la API

nombre de la biblioteca	descripciones	enlace (en un sitio web)
LiteLLM	Una biblioteca de más de 100 llamadas a la API LLM en formato OpenAI.	enlace (en un sitio web)
Pasarela AI	Una rápida pasarela de IA con vallas integradas. Rutas a más de 200 LLM, más de 50 vallas de IA a través de 1 API rápida y amigable.	enlace (en un sitio web)

router (informática)

nombre de la biblioteca	descripciones	enlace (en un sitio web)
RutaLLM	Marco para el servicio y la evaluación de enrutadores LLM - Ahorro de costes LLM sin comprometer la calidad Sustitución directa de clientes OpenAI para el enrutamiento de consultas más sencillas a modelos más baratos.	enlace (en un sitio web)

memorización

nombre de la biblioteca	descripciones	enlace (en un sitio web)
mem0	Capa de memoria para aplicaciones de IA.	enlace (en un sitio web)
Memoria	Una capa de memoria de IA con almacenamiento a corto y largo plazo, agrupación semántica y decaimiento opcional de la memoria para aplicaciones conscientes del contexto.	enlace (en un sitio web)

interfaces

nombre de la biblioteca	descripciones	enlace (en un sitio web)
Streamlit	Streamlit permite a los usuarios convertir scripts de Python en aplicaciones web interactivas en cuestión de minutos.	enlace (en un sitio web)
Gradio	Cree y comparta deliciosas aplicaciones de aprendizaje automático en Python.	enlace (en un sitio web)
AI SDK UI	Construcción de interfaces de usuario generativas y de chat.	enlace (en un sitio web)
AI-Radio	Cree aplicaciones de IA respaldadas por diversos proveedores de IA.	enlace (en un sitio web)
Simpleaichat	Paquetes de Python para interactuar fácilmente con aplicaciones de chat con potentes funciones y mínima complejidad de código.	enlace (en un sitio web)
Chainlit	Cree aplicaciones de IA conversacional listas para la producción en cuestión de minutos.	enlace (en un sitio web)

código bajo

nombre de la biblioteca	descripciones	enlace (en un sitio web)
LangFlow	LangFlow es un constructor de aplicaciones de bajo código para aplicaciones RAG y de IA multiagente. Está basado en Python y es independiente de cualquier modelo, API o base de datos.	enlace (en un sitio web)

(informática) caché

nombre de la biblioteca	descripciones	enlace (en un sitio web)
GPTCache	Una biblioteca para crear cachés semánticas para consultas LLM. Reduce el coste de la API LLM en 10x💰 y aumenta la velocidad en 100x. Totalmente integrada con LangChain y LlamaIndex.	enlace (en un sitio web)

LLM RAG

nombre de la biblioteca	descripciones	enlace (en un sitio web)
FastGraph RAG	El marco de trabajo Fast GraphRAG, ágil y con capacidad de respuesta, está diseñado para flujos de trabajo de recuperación interpretables, muy precisos y dirigidos por agentes.	enlace (en un sitio web)
Chonkie	Biblioteca de fragmentación RAG, ligera, extremadamente rápida y fácil de usar.	enlace (en un sitio web)
RAGChecker	Un marco detallado para diagnosticar las GAR.	enlace (en un sitio web)
RAG to Riches	Cree, amplíe e implante aplicaciones de generación de búsquedas avanzadas.	enlace (en un sitio web)
BeyondLLM	Beyond LLM proporciona un conjunto de herramientas todo en uno para la experimentación, evaluación y despliegue de sistemas de Generación Aumentada de Recuperación (RAG).	enlace (en un sitio web)
SQLite-Vec	¡Una extensión SQLite de búsqueda vectorial que se ejecuta en cualquier lugar!	enlace (en un sitio web)
fastRAG	fastRAG es un marco de investigación para la recuperación eficiente y optimizada de conductos de generación mejorada, que combina técnicas avanzadas de LLM y recuperación de información.	enlace (en un sitio web)
FlashRAG	Conjunto de herramientas de Python para una investigación eficaz del GAR.	enlace (en un sitio web)
Llmware	Un marco unificado para construir canalizaciones RAG empresariales utilizando pequeños modelos creados a tal efecto.	enlace (en un sitio web)
Rerankers	API unificada y ligera para varios modelos de reordenación.	enlace (en un sitio web)
Vectara	Construir la aplicación Agentic RAG.	enlace (en un sitio web)

Razonamiento LLM

nombre de la biblioteca	descripciones	enlace (en un sitio web)
Compresor LLM	Biblioteca compatible con Transformers que permite aplicar diversos algoritmos de compresión a LLM para optimizar su despliegue.	enlace (en un sitio web)
LightLLM	Marco de inferencia y servicios LLM basado en Python conocido por su diseño ligero, facilidad de escalabilidad y rendimiento de alta velocidad.	enlace (en un sitio web)
vLLM	Motor de inferencia y servicio de alto rendimiento y eficiencia de memoria para LLM.	enlace (en un sitio web)
antorcha	Ejecute PyTorch LLM localmente en servidores, ordenadores de sobremesa y dispositivos móviles.	enlace (en un sitio web)
TensorRT-LLM	TensorRT-LLM es una biblioteca para optimizar la inferencia de modelos lingüísticos extensos (LLM).	enlace (en un sitio web)
WebLLM	Motor de inferencia LLM de alto rendimiento para navegadores.	enlace (en un sitio web)

Despliegue del servicio LLM

nombre de la biblioteca	descripciones	enlace (en un sitio web)
Langcorn	Utilice FastAPI para automatizar el servicio de aplicaciones y agentes LLM de LangChain.	enlace (en un sitio web)
LitServe	Motor de servicios extremadamente rápido para cualquier modelo de IA de cualquier tamaño. Mejora FastAPI con funciones como el procesamiento por lotes, el streaming y el autoescalado de GPU.	enlace (en un sitio web)

Extracción de datos LLM

nombre de la biblioteca	descripciones	enlace (en un sitio web)
Crawl4AI	Herramienta de rastreo web de código abierto compatible con LLM .	enlace (en un sitio web)
ScrapeGraphAI	Una biblioteca Python de rastreo web que utiliza LLM y lógica de grafos directa para crear pipelines de rastreo de sitios web y documentos locales (XML, HTML, JSON, Markdown, etc.).	enlace (en un sitio web)
Docling	Docling analiza documentos y los exporta fácil y rápidamente al formato deseado.	enlace (en un sitio web)
Llama Parse	Analizador nativo de documentos GenAI que puede analizar datos de documentos complejos para cualquier caso de uso LLM posterior (RAG, agente).	enlace (en un sitio web)
PyMuPDF4LLM	La librería PyMuPDF4LLM facilita a los usuarios la extracción de contenido PDF en los formatos requeridos por los entornos LLM & RAG.	enlace (en un sitio web)
Crawlee	Una biblioteca de rastreo web y automatización de navegadores.	enlace (en un sitio web)
MegaParse	Analizador sintáctico para cada tipo de documento.	enlace (en un sitio web)
ExtractThinker	Biblioteca de inteligencia documental para LLM.	enlace (en un sitio web)

Generación de datos LLM

nombre de la biblioteca	descripciones	enlace (en un sitio web)
DataDreamer	DataDreamer es una potente biblioteca Python de código abierto para la generación de datos sintéticos y flujos de trabajo de formación.	enlace (en un sitio web)
fabricante	Un marco flexible de código abierto para generar conjuntos de datos utilizando grandes modelos lingüísticos.	enlace (en un sitio web)
Promptwright	Biblioteca de generación de conjuntos de datos sintéticos.	enlace (en un sitio web)
EasyInstruct	Un marco fácil de usar para procesar instrucciones de modelos lingüísticos de gran tamaño.	enlace (en un sitio web)

LLM Cuerpo Inteligente

nombre de la biblioteca	descripciones	enlace (en un sitio web)
CrewAI	Un marco para la orquestación de agentes de IA autónomos que juegan a juegos de rol.	enlace (en un sitio web)
LangGraph	Construir el agente de lenguaje elástico como un grafo.	enlace (en un sitio web)
Agno	Construya agentes de IA con memoria, conocimientos, herramientas y capacidades de razonamiento. Chatea con ellos utilizando una bonita interfaz de agente.	enlace (en un sitio web)
AutoGen	Un marco de código abierto para construir sistemas de agentes de IA.	enlace (en un sitio web)
Smolagents	Biblioteca para construir potentes agentes en unas pocas líneas de código.	enlace (en un sitio web)
Pydantic AI	Framework de agentes en Python para la creación de aplicaciones de producción mediante IA generativa.	enlace (en un sitio web)
gradio-tools	Una librería Python para convertir aplicaciones Gradio en herramientas que puedan ser utilizadas por agentes basados en LLM para completar sus tareas.	enlace (en un sitio web)
Composición	Conjunto de herramientas de producción para agentes de IA.	enlace (en un sitio web)
Agentes atómicos	Construcción atómica de agentes de IA.	enlace (en un sitio web)
Memary	Una capa de memoria de código abierto para agentes autónomos.	enlace (en un sitio web)
Uso del navegador	Hacer el sitio accesible a los agentes de IA.	enlace (en un sitio web)
OpenWebAgent	Un conjunto de herramientas abierto para habilitar proxies web en grandes modelos lingüísticos.	enlace (en un sitio web)
Lagent	Un marco ligero para construir agentes basados en LLM.	enlace (en un sitio web)
LazyLLM	Una herramienta de desarrollo de bajo código para crear aplicaciones LLM multiagente.	enlace (en un sitio web)
Enjambres	Un marco para la orquestación multiagente de clase empresarial lista para la producción.	enlace (en un sitio web)
ChatArena	ChatArena es una biblioteca que proporciona un entorno de juegos de lenguaje multiagente y facilita la investigación sobre agentes LLM autónomos y sus interacciones sociales.	enlace (en un sitio web)
Enjambre	Exploración de un marco educativo ergonómico, ligero y orquestado por múltiples agentes.	enlace (en un sitio web)
AgentStack	La forma más rápida de crear potentes agentes de IA.	enlace (en un sitio web)
Archgw	Pasarela de agentes inteligentes.	enlace (en un sitio web)
Flujo	Un motor de tareas ligero para construir agentes de IA.	enlace (en un sitio web)
AgentOps	SDK de Python para la supervisión de agentes de IA.	enlace (en un sitio web)
Langroide	Marco multiagente.	enlace (en un sitio web)
Agentarium	Un marco para crear y gestionar simulaciones que pueblan agentes impulsados por IA.	enlace (en un sitio web)
Upsonic	adyuvante MCP para agentes de IA fiables.	enlace (en un sitio web)

Evaluación LLM

nombre de la biblioteca	descripciones	enlace (en un sitio web)
Ragas	Ragas es el conjunto de herramientas definitivo para evaluar y optimizar aplicaciones de modelos lingüísticos extensos (LLM).	enlace (en un sitio web)
Giskard	Herramientas de evaluación y prueba de código abierto para sistemas ML y LLM.	enlace (en un sitio web)
DeepEval	Marco de evaluación del LLM	enlace (en un sitio web)
Lighteval	Un conjunto de herramientas todo en uno para evaluar los LLM.	enlace (en un sitio web)
Trulens	Herramientas de evaluación y seguimiento de experimentos LLM	enlace (en un sitio web)
PromptBench	Un marco de evaluación unificado para la modelización lingüística a gran escala.	enlace (en un sitio web)
LangTest	Modelos lingüísticos seguros y válidos. Más de 60 tipos de pruebas para comparar modelos LLM y NLP en términos de precisión, sesgo, imparcialidad, solidez y mucho más.	enlace (en un sitio web)
EvalPlus	Marco de evaluación riguroso para LLM4Code.	enlace (en un sitio web)
FastChat	Una plataforma abierta para entrenar, servir y evaluar chatbots basados en grandes modelos lingüísticos.	enlace (en un sitio web)
jueces	Un grupo reducido de jueces LLM.	enlace (en un sitio web)
Evals	Evals es un marco para la evaluación de LLM y sistemas LLM, así como para la evaluación comparativa de registros de código abierto.	enlace (en un sitio web)
AgenteEvals	Evaluadores y utilidades para evaluar el rendimiento de los agentes.	enlace (en un sitio web)
LLMBox	Una completa biblioteca LLM, que incluye un proceso de formación unificado y una evaluación completa de los modelos.	enlace (en un sitio web)
Opik	Una plataforma de desarrollo de LLM de código abierto de extremo a extremo que también incluye la evaluación de LLM.	enlace (en un sitio web)

Seguimiento del LLM

nombre de la biblioteca	descripciones	enlace (en un sitio web)
MLflow	Una plataforma integral de MLOps/LLMOps de código abierto para el seguimiento, la evaluación y la supervisión de aplicaciones LLM.	enlace (en un sitio web)
Opik	Una plataforma de desarrollo LLM integral de código abierto que también incluye la supervisión de LLM.	enlace (en un sitio web)
LangSmith	Proporciona herramientas para documentar, supervisar y mejorar las aplicaciones LLM.	enlace (en un sitio web)
Pesas y sesgos (W&B)	W&B proporciona funciones para el seguimiento del rendimiento de los LLM.	enlace (en un sitio web)
Helicona	Plataforma de observabilidad LLM de código abierto para desarrolladores. Integración de una línea para monitorización, métricas, evaluación, seguimiento de agentes, gestión de cue, playgrounds y mucho más.	enlace (en un sitio web)
Evidentemente	Un marco de observabilidad ML y LLM de código abierto.	enlace (en un sitio web)
Phoenix	Una plataforma de observabilidad de IA de código abierto diseñada para la experimentación, la evaluación y la resolución de problemas.	enlace (en un sitio web)
Observadores	Una biblioteca ligera para la observabilidad de la IA.	enlace (en un sitio web)

LLM Palabra clave ingeniería

nombre de la biblioteca	descripciones	enlace (en un sitio web)
PCToolkit	Conjunto unificado de herramientas de compresión de indicios plug-and-play para modelos lingüísticos de gran tamaño.	enlace (en un sitio web)
Contexto selectivo	El Contexto Selectivo comprime las indicaciones y el contexto del usuario para permitir que el LLM (por ejemplo, ChatGPT) procese el doble de contenido.	enlace (en un sitio web)
LLMLingua	Biblioteca para comprimir pistas y acelerar el razonamiento LLM.	enlace (en un sitio web)
betterprompt	Una suite para probar los avisos de LLM antes de pasarlos al entorno de producción.	enlace (en un sitio web)
Promptify	Resuelva problemas de PLN con LLM y genere fácilmente diferentes instrucciones de tareas de PLN para modelos generativos populares como GPT, PaLM, etc. con Promptify.	enlace (en un sitio web)
PromptSource	PromptSource es un conjunto de herramientas para crear, compartir y utilizar avisos en lenguaje natural.	enlace (en un sitio web)
DSPy	DSPy es un marco de trabajo de código abierto para programar modelos lingüísticos.	enlace (en un sitio web)
Py-priompt	La biblioteca de diseño.	enlace (en un sitio web)
Promptimizer	Consejos para optimizar la biblioteca.	enlace (en un sitio web)

Salida estructurada LLM

nombre de la biblioteca	descripciones	enlace (en un sitio web)
Instructor	Biblioteca de Python para procesar resultados estructurados de grandes modelos lingüísticos (LLM). Construida sobre Pydantic, proporciona una API sencilla, transparente y fácil de usar.	enlace (en un sitio web)
XGrammar	Una biblioteca de código abierto para la generación eficiente, flexible y portátil de estructuras.	enlace (en un sitio web)
Esquemas	Potente generación de texto (estructurado)	enlace (en un sitio web)
Orientación	La orientación es un paradigma de programación válido utilizado para guiar el modelo de lenguaje.	enlace (en un sitio web)
LMQL	Un lenguaje para el bootstrapping de restricciones y la programación LLM eficiente.	enlace (en un sitio web)
Jsonformer	Un método infalible para generar JSON estructurado a partir de modelos lingüísticos.	enlace (en un sitio web)

LLM Seguridad

nombre de la biblioteca	descripciones	enlace (en un sitio web)
JailbreakEval	Una colección de evaluadores automatizados para evaluar los intentos de fuga de la cárcel.	enlace (en un sitio web)
EasyJailbreak	Un framework Python fácil de usar para generar pistas adversas de jailbreak.	enlace (en un sitio web)
Barandillas	Añadir guardarraíles a grandes modelos lingüísticos.	enlace (en un sitio web)
Guardia LLM	Kit interactivo de seguridad LLM.	enlace (en un sitio web)
AuditoríaNLG	AuditNLG es una biblioteca de código abierto que puede ayudar a reducir los riesgos asociados al uso de sistemas de IA generativa para el lenguaje.	enlace (en un sitio web)
Barandillas NeMo	NeMo Guardrails es un conjunto de herramientas de código abierto para añadir fácilmente guardarraíles programables a los sistemas de diálogo basados en LLM.	enlace (en un sitio web)
Garak	Escáner de vulnerabilidades LLM	enlace (en un sitio web)

Modelo LLM integrado

nombre de la biblioteca	descripciones	enlace (en un sitio web)
Sentencia-Transformers	Modelo avanzado de incrustación de texto	enlace (en un sitio web)
Modelo2Vec	Modelos rápidos de incrustación estática avanzada	enlace (en un sitio web)
Inferencia de inserción de texto	Solución de inferencia de alta velocidad para modelos de incrustación de texto.TEI permite una extracción de alto rendimiento para los modelos más populares, incluidos FlagEmbedding, Ember, GTE y E5.	enlace (en un sitio web)

el resto

nombre de la biblioteca	descripciones	enlace (en un sitio web)
Texto Machina	Un marco Python modular y extensible diseñado para ayudar a crear conjuntos de datos de alta calidad e imparciales para construir modelos robustos para tareas relacionadas con MGT como la detección, la atribución y la detección de límites.	enlace (en un sitio web)
Razonadores LLM	Una biblioteca para el razonamiento avanzado de modelos lingüísticos a gran escala.	enlace (en un sitio web)
EasyEdit	Un marco fácil de usar para editar el conocimiento de modelos lingüísticos a gran escala.	enlace (en un sitio web)
CódigoTF	CodeTF: Una biblioteca Transformer integral para el LLM avanzado de código.	enlace (en un sitio web)
spacy-llm	Este paquete integra un Large Language Model (LLM) en spaCy con un sistema modular para la creación rápida de prototipos y prompting, y transforma respuestas no estructuradas en salidas robustas para una gran variedad de tareas de PLN.	enlace (en un sitio web)
pandas-ai	Chatea con la base de datos del usuario (SQL, CSV, pandas, polars, MongoDB, NoSQL, etc.).	enlace (en un sitio web)
Herramienta de transparencia LLM	Conjunto de herramientas interactivas de código abierto para analizar el funcionamiento interno de los modelos lingüísticos basados en Transformer.	enlace (en un sitio web)
Vanna	Chatea con las bases de datos SQL de tus usuarios. Generación precisa de texto a SQL mediante el LLM de RAG.	enlace (en un sitio web)
mergekit	Herramientas para fusionar grandes modelos lingüísticos preformados.	enlace (en un sitio web)
MarkLLM	Un conjunto de herramientas de código abierto para marcas de agua LLM.	enlace (en un sitio web)
LLMSanitize	Biblioteca de código abierto para la detección de contaminación en conjuntos de datos de PLN y grandes modelos lingüísticos (LLM).	enlace (en un sitio web)
Annotateai	Anote automáticamente los artículos con LLM.	enlace (en un sitio web)
Razonador LLM	Sea cualquier LLM como OpenAI o1 y DeepSeek Piensa como R1.	enlace (en un sitio web)