大型语言模型工程师工具箱：精选120+实用库资源

在人工智能领域，大型语言模型（LLM）技术日新月异，各种工具库层出不穷。为了帮助开发者更好地应对 LLM 开发的挑战，本文整理了一份包含 120 多个实用 LLM 库的工具箱，并按功能类别进行划分，方便工程师们快速查找和应用。

快速导航

为了方便读者快速定位所需资源，以下是各个类别工具库的快速链接：


🚀 LLM 训练与微调	🧱 LLM 应用开发	🩸 LLM 检索增强生成(RAG)
🟩 LLM 推理	🚧 LLM 服务部署	📤 LLM 数据提取
🌠 LLM 数据生成	💎 LLM 智能体	⚖️ LLM 评估
🔍 LLM 监控	📅 LLM 提示词工程	📝 LLM 结构化输出
🛑 LLM 安全	💠 LLM 嵌入模型	❇️ 其他

LLM 训练与微调

库名称	描述	链接
unsloth	以更少的内存更快地微调 LLM。	链接
PEFT	先进的参数高效微调库。	链接
TRL	使用强化学习训练 transformer 语言模型。	链接
Transformers	Transformers 提供了数千个预训练模型，用于执行文本、视觉和音频等不同模态的任务。	链接
Axolotl	旨在简化各种 AI 模型后训练的工具。	链接
LLMBox	一个全面的 LLM 库，包括统一的训练管道和全面的模型评估。	链接
LitGPT	快速训练和微调 LLM。	链接
Mergoo	一个用于轻松合并多个 LLM 专家并有效训练合并后的 LLM 的库。	链接
Llama-Factory	简单高效的 LLM 微调工具。	链接
Ludwig	用于构建自定义 LLM、神经网络和其他 AI 模型的低代码框架。	链接
Txtinstruct	一个用于训练指令调优模型的框架。	链接
Lamini	一个集成的 LLM 推理和调优平台。	链接
XTuring	XTuring 提供了对 Mistral、LLaMA、GPT-J 等开源 LLM 进行快速、高效和简单微调的功能。	链接
RL4LMs	一个模块化的 RL 库，用于根据人类偏好微调语言模型。	链接
DeepSpeed	DeepSpeed 是一个深度学习优化库，使分布式训练和推理变得简单、高效和有效。	链接
torchtune	一个专门为微调 LLM 而设计的 PyTorch 原生库。	链接
PyTorch Lightning	一个为预训练和微调 LLM 提供高级接口的库。	链接

LLM 应用开发

框架

库名称	描述	链接
LangChain	LangChain 是一个用于开发由大型语言模型 (LLM) 驱动的应用程序的框架。	链接
Llama Index	LlamaIndex 是 LLM 应用程序的数据框架。	链接
HayStack	Haystack 是一个端到端的 LLM 框架，允许用户构建由 LLM、Transformer 模型、向量搜索等驱动的应用程序。	链接
Prompt flow	一套开发工具，旨在简化基于 LLM 的 AI 应用程序的端到端开发周期。	链接
Griptape	一个用于构建 AI 驱动应用程序的模块化 Python 框架。	链接
Weave	Weave 是一个用于开发生成式 AI 应用程序的工具包。	链接
Llama Stack	构建 Llama 应用。	链接

多 API 访问

库名称	描述	链接
LiteLLM	以 OpenAI 格式调用 100 多个 LLM API 的库。	链接
AI Gateway	一个快速 AI 网关，具有集成的护栏。通过 1 个快速友好的 API 路由到 200 多个 LLM、50 多个 AI 护栏。	链接

路由器

库名称	描述	链接
RouteLLM	用于服务和评估 LLM 路由器的框架 - 在不影响质量的情况下节省 LLM 成本。OpenAI 客户端的直接替代品，用于将更简单的查询路由到更便宜的模型。	链接

记忆

库名称	描述	链接
mem0	AI 应用的记忆层。	链接
Memoripy	一个 AI 记忆层，具有短期和长期存储、语义聚类以及用于上下文感知应用程序的可选记忆衰减功能。	链接

界面

库名称	描述	链接
Streamlit	构建和共享数据应用程序的更快方法。Streamlit 让用户在几分钟内将 Python 脚本转换为交互式 web 应用程序。	链接
Gradio	全部用 Python 构建和共享令人愉悦的机器学习应用程序。	链接
AI SDK UI	构建聊天和生成式用户界面。	链接
AI-Gradio	创建由各种 AI 提供商支持的 AI 应用程序。	链接
Simpleaichat	Python 包，用于轻松与聊天应用程序交互，具有强大的功能和最小的代码复杂性。	链接
Chainlit	在几分钟内构建可用于生产的对话式 AI 应用程序。	链接

低代码

库名称	描述	链接
LangFlow	LangFlow 是一个用于 RAG 和多代理 AI 应用程序的低代码应用程序构建器。它基于 Python，并且与任何模型、API 或数据库无关。	链接

缓存

库名称	描述	链接
GPTCache	一个用于为 LLM 查询创建语义缓存的库。将 LLM API 成本降低 10 倍💰，将速度提高 100 倍。与 LangChain 和 LlamaIndex 完全集成。	链接

LLM RAG

库名称	描述	链接
FastGraph RAG	流线型且可提示的 Fast GraphRAG 框架，专为可解释、高精度、代理驱动的检索工作流程而设计。	链接
Chonkie	RAG 分块库，轻量级、极速且易于使用。	链接
RAGChecker	用于诊断 RAG 的细粒度框架。	链接
RAG to Riches	构建、扩展和部署先进的检索增强生成应用程序。	链接
BeyondLLM	Beyond LLM 提供了一个一体化工具包，用于检索增强生成 (RAG) 系统的实验、评估和部署。	链接
SQLite-Vec	一个可在任何地方运行的向量搜索 SQLite 扩展！	链接
fastRAG	fastRAG 是一个研究框架，用于高效和优化的检索增强生成管道，结合了先进的 LLM 和信息检索技术。	链接
FlashRAG	用于高效 RAG 研究的 Python 工具包。	链接
Llmware	用于使用小型、专用模型构建企业 RAG 管道的统一框架。	链接
Rerankers	各种重排序模型的轻量级统一 API。	链接
Vectara	构建 Agentic RAG 应用程序。	链接

LLM 推理

库名称	描述	链接
LLM Compressor	与 Transformers 兼容的库，用于将各种压缩算法应用于 LLM，以优化部署。	链接
LightLLM	基于 Python 的 LLM 推理和服务框架，以其轻量级设计、易扩展性和高速性能而著称。	链接
vLLM	用于 LLM 的高吞吐量和内存高效的推理和服务引擎。	链接
torchchat	在服务器、桌面和移动设备上本地运行 PyTorch LLM。	链接
TensorRT-LLM	TensorRT-LLM 是一个用于优化大型语言模型 (LLM) 推理的库。	链接
WebLLM	高性能浏览器内 LLM 推理引擎。	链接

LLM 服务部署

库名称	描述	链接
Langcorn	使用 FastAPI 自动服务 LangChain LLM 应用程序和代理。	链接
LitServe	适用于任何大小的任何 AI 模型的极速服务引擎。它使用批量处理、流式传输和 GPU 自动缩放等功能增强了 FastAPI。	链接

LLM 数据提取

库名称	描述	链接
Crawl4AI	开源 LLM 友好的 Web 爬虫和抓取工具。	链接
ScrapeGraphAI	一个 web 抓取 Python 库，它使用 LLM 和直接图逻辑为网站和本地文档（XML、HTML、JSON、Markdown 等）创建抓取管道。	链接
Docling	Docling 解析文档并轻松快速地将它们导出为所需的格式。	链接
Llama Parse	GenAI 原生文档解析器，可以为任何下游 LLM 用例（RAG、代理）解析复杂文档数据。	链接
PyMuPDF4LLM	PyMuPDF4LLM 库使用户可以更轻松地以 LLM & RAG 环境所需的格式提取 PDF 内容。	链接
Crawlee	一个 web 抓取和浏览器自动化库。	链接
MegaParse	适用于每种文档类型的解析器。	链接
ExtractThinker	用于 LLM 的文档智能库。	链接

LLM 数据生成

库名称	描述	链接
DataDreamer	DataDreamer 是一个强大的开源 Python 库，用于提示、合成数据生成和训练工作流程。	链接
fabricator	一个灵活的开源框架，用于使用大型语言模型生成数据集。	链接
Promptwright	合成数据集生成库。	链接
EasyInstruct	一个易于使用的大型语言模型指令处理框架。	链接

LLM 智能体

库名称	描述	链接
CrewAI	用于编排角色扮演、自主 AI 代理的框架。	链接
LangGraph	将弹性语言代理构建为图。	链接
Agno	构建具有记忆、知识、工具和推理能力的 AI 代理。使用漂亮的代理 UI 与他们聊天。	链接
AutoGen	一个用于构建 AI 代理系统的开源框架。	链接
Smolagents	在几行代码中构建强大代理的库。	链接
Pydantic AI	Python 代理框架，用于使用生成式 AI 构建生产级应用程序。	链接
gradio-tools	一个 Python 库，用于将 Gradio 应用程序转换为可由基于 LLM 的代理利用以完成其任务的工具。	链接
Composio	用于 AI 代理的生产就绪工具集。	链接
Atomic Agents	原子地构建 AI 代理。	链接
Memary	用于自主代理的开源记忆层。	链接
Browser Use	使网站可供 AI 代理访问。	链接
OpenWebAgent	一个在大型语言模型上启用 Web 代理的开放工具包。	链接
Lagent	一个用于构建基于 LLM 的代理的轻量级框架。	链接
LazyLLM	一个用于构建多代理 LLM 应用程序的低代码开发工具。	链接
Swarms	企业级生产就绪多代理编排框架。	链接
ChatArena	ChatArena 是一个库，提供多代理语言游戏环境，并促进对自主 LLM 代理及其社交互动进行研究。	链接
Swarm	探索符合人体工程学的轻量级多代理编排的教育框架。	链接
AgentStack	构建强大 AI 代理的最快方法。	链接
Archgw	智能代理网关。	链接
Flow	一个用于构建 AI 代理的轻量级任务引擎。	链接
AgentOps	AI 代理监控的 Python SDK。	链接
Langroid	多代理框架。	链接
Agentarium	用于创建和管理填充 AI 驱动代理的模拟的框架。	链接
Upsonic	支持 MCP 的可靠 AI 代理框架。	链接

LLM 评估

库名称	描述	链接
Ragas	Ragas 是评估和优化大型语言模型 (LLM) 应用程序的终极工具包。	链接
Giskard	ML & LLM 系统的开源评估和测试工具。	链接
DeepEval	LLM 评估框架	链接
Lighteval	用于评估 LLM 的一体化工具包。	链接
Trulens	LLM 实验的评估和跟踪工具	链接
PromptBench	大型语言模型的统一评估框架。	链接
LangTest	交付安全有效的语言模型。用于比较 LLM & NLP 模型在准确性、偏差、公平性、稳健性等方面的 60 多种测试类型。	链接
EvalPlus	用于 LLM4Code 的严格评估框架。	链接
FastChat	一个用于训练、服务和评估基于大型语言模型的聊天机器人的开放平台。	链接
judges	一个小型 LLM 评委库。	链接
Evals	Evals 是一个用于评估 LLM 和 LLM 系统的框架，以及基准的开源注册表。	链接
AgentEvals	用于评估代理性能的评估器和实用程序。	链接
LLMBox	一个全面的 LLM 库，包括统一的训练管道和全面的模型评估。	链接
Opik	一个开源端到端 LLM 开发平台，其中还包括 LLM 评估。	链接

LLM 监控

库名称	描述	链接
MLflow	一个开源端到端 MLOps/LLMOps 平台，用于跟踪、评估和监控 LLM 应用程序。	链接
Opik	一个开源端到端 LLM 开发平台，其中还包括 LLM 监控。	链接
LangSmith	提供用于记录、监控和改进 LLM 应用程序的工具。	链接
Weights & Biases (W&B)	W&B 提供用于跟踪 LLM 性能的功能。	链接
Helicone	面向开发人员的开源 LLM 可观测性平台。用于监控、指标、评估、代理跟踪、提示管理、游乐场等的一行集成。	链接
Evidently	一个开源 ML 和 LLM 可观测性框架。	链接
Phoenix	一个专为实验、评估和故障排除而设计的开源 AI 可观测性平台。	链接
Observers	一个用于 AI 可观测性的轻量级库。	链接

LLM 提示词工程

库名称	描述	链接
PCToolkit	大型语言模型的统一即插即用提示压缩工具包。	链接
Selective Context	Selective Context 压缩用户的提示和上下文，以允许 LLM（例如 ChatGPT）处理 2 倍以上的内容。	链接
LLMLingua	用于压缩提示以加速 LLM 推理的库。	链接
betterprompt	在将 LLM 提示推送到生产环境之前对其进行测试的套件。	链接
Promptify	使用 LLM 解决 NLP 问题，并使用 Promptify 轻松为 GPT、PaLM 等流行的生成模型生成不同的 NLP 任务提示。	链接
PromptSource	PromptSource 是一个用于创建、共享和使用自然语言提示的工具包。	链接
DSPy	DSPy 是用于编程（而不是提示）语言模型的开源框架。	链接
Py-priompt	提示设计库。	链接
Promptimizer	提示优化库。	链接

LLM 结构化输出

库名称	描述	链接
Instructor	Python 库，用于处理来自大型语言模型 (LLM) 的结构化输出。它构建于 Pydantic 之上，提供了一个简单、透明且用户友好的 API。	链接
XGrammar	一个用于高效、灵活和可移植的结构化生成的开源库。	链接
Outlines	强大的（结构化）文本生成	链接
Guidance	Guidance 是一种用于指导语言模型的有效编程范例。	链接
LMQL	一种用于约束引导和高效 LLM 编程的语言。	链接
Jsonformer	一种从语言模型生成结构化 JSON 的万无一失的方法。	链接

LLM 安全

库名称	描述	链接
JailbreakEval	用于评估越狱尝试的自动评估器集合。	链接
EasyJailbreak	一个易于使用的 Python 框架，用于生成对抗性越狱提示。	链接
Guardrails	为大型语言模型添加护栏。	链接
LLM Guard	LLM 交互的安全工具包。	链接
AuditNLG	AuditNLG 是一个开源库，可以帮助降低与使用生成式 AI 系统进行语言相关的风险。	链接
NeMo Guardrails	NeMo Guardrails 是一个开源工具包，用于轻松地为基于 LLM 的对话系统添加可编程护栏。	链接
Garak	LLM 漏洞扫描器	链接

LLM 嵌入模型

库名称	描述	链接
Sentence-Transformers	先进的文本嵌入模型	链接
Model2Vec	快速的先进静态嵌入模型	链接
Text Embedding Inference	用于文本嵌入模型的高速推理解决方案。TEI 为最流行的模型（包括 FlagEmbedding、Ember、GTE 和 E5）实现了高性能提取。	链接

其他

库名称	描述	链接
Text Machina	一个模块化和可扩展的 Python 框架，旨在帮助创建高质量、无偏见的数据集，以构建用于 MGT 相关任务（如检测、归因和边界检测）的稳健模型。	链接
LLM Reasoners	用于高级大型语言模型推理的库。	链接
EasyEdit	一个易于使用的大型语言模型知识编辑框架。	链接
CodeTF	CodeTF：用于先进代码 LLM 的一站式 Transformer 库。	链接
spacy-llm	此包将大型语言模型 (LLM) 集成到 spaCy 中，具有用于快速原型设计和提示的模块化系统，并将非结构化响应转换为各种 NLP 任务的稳健输出。	链接
pandas-ai	与用户的数据库（SQL、CSV、pandas、polars、MongoDB、NoSQL 等）聊天。	链接
LLM Transparency Tool	一个开源交互式工具包，用于分析基于 Transformer 的语言模型的内部工作原理。	链接
Vanna	与用户的 SQL 数据库聊天。通过使用 RAG 的 LLM 实现准确的文本到 SQL 生成。	链接
mergekit	用于合并预训练大型语言模型的工具。	链接
MarkLLM	一个 LLM 水印开源工具包。	链接
LLMSanitize	一个用于 NLP 数据集和大型语言模型 (LLM) 中污染检测的开源库。	链接
Annotateai	使用 LLM 自动注释论文。	链接
LLM Reasoner	让任何 LLM 像 OpenAI o1 和 DeepSeek R1 一样思考。	链接