在人工智能领域,大型语言模型(LLM)技术日新月异,各种工具库层出不穷。为了帮助开发者更好地应对 LLM 开发的挑战,本文整理了一份包含 120 多个实用 LLM 库的工具箱,并按功能类别进行划分,方便工程师们快速查找和应用。
快速导航
为了方便读者快速定位所需资源,以下是各个类别工具库的快速链接:
🚀 LLM 训练与微调 | 🧱 LLM 应用开发 | 🩸 LLM 检索增强生成(RAG) |
🟩 LLM 推理 | 🚧 LLM 服务部署 | 📤 LLM 数据提取 |
🌠 LLM 数据生成 | 💎 LLM 智能体 | ⚖️ LLM 评估 |
🔍 LLM 监控 | 📅 LLM 提示词工程 | 📝 LLM 结构化输出 |
🛑 LLM 安全 | 💠 LLM 嵌入模型 | ❇️ 其他 |
LLM 训练与微调
库名称 | 描述 | 链接 |
---|---|---|
unsloth | 以更少的内存更快地微调 LLM。 | 链接 |
PEFT | 先进的参数高效微调库。 | 链接 |
TRL | 使用强化学习训练 transformer 语言模型。 | 链接 |
Transformers | Transformers 提供了数千个预训练模型,用于执行文本、视觉和音频等不同模态的任务。 | 链接 |
Axolotl | 旨在简化各种 AI 模型后训练的工具。 | 链接 |
LLMBox | 一个全面的 LLM 库,包括统一的训练管道和全面的模型评估。 | 链接 |
LitGPT | 快速训练和微调 LLM。 | 链接 |
Mergoo | 一个用于轻松合并多个 LLM 专家并有效训练合并后的 LLM 的库。 | 链接 |
Llama-Factory | 简单高效的 LLM 微调工具。 | 链接 |
Ludwig | 用于构建自定义 LLM、神经网络和其他 AI 模型的低代码框架。 | 链接 |
Txtinstruct | 一个用于训练指令调优模型的框架。 | 链接 |
Lamini | 一个集成的 LLM 推理和调优平台。 | 链接 |
XTuring | XTuring 提供了对 Mistral、LLaMA、GPT-J 等开源 LLM 进行快速、高效和简单微调的功能。 | 链接 |
RL4LMs | 一个模块化的 RL 库,用于根据人类偏好微调语言模型。 | 链接 |
DeepSpeed | DeepSpeed 是一个深度学习优化库,使分布式训练和推理变得简单、高效和有效。 | 链接 |
torchtune | 一个专门为微调 LLM 而设计的 PyTorch 原生库。 | 链接 |
PyTorch Lightning | 一个为预训练和微调 LLM 提供高级接口的库。 | 链接 |
LLM 应用开发
框架
库名称 | 描述 | 链接 |
---|---|---|
LangChain | LangChain 是一个用于开发由大型语言模型 (LLM) 驱动的应用程序的框架。 | 链接 |
Llama Index | LlamaIndex 是 LLM 应用程序的数据框架。 | 链接 |
HayStack | Haystack 是一个端到端的 LLM 框架,允许用户构建由 LLM、Transformer 模型、向量搜索等驱动的应用程序。 | 链接 |
Prompt flow | 一套开发工具,旨在简化基于 LLM 的 AI 应用程序的端到端开发周期。 | 链接 |
Griptape | 一个用于构建 AI 驱动应用程序的模块化 Python 框架。 | 链接 |
Weave | Weave 是一个用于开发生成式 AI 应用程序的工具包。 | 链接 |
Llama Stack | 构建 Llama 应用。 | 链接 |
多 API 访问
库名称 | 描述 | 链接 |
---|---|---|
LiteLLM | 以 OpenAI 格式调用 100 多个 LLM API 的库。 | 链接 |
AI Gateway | 一个快速 AI 网关,具有集成的护栏。通过 1 个快速友好的 API 路由到 200 多个 LLM、50 多个 AI 护栏。 | 链接 |
路由器
库名称 | 描述 | 链接 |
---|---|---|
RouteLLM | 用于服务和评估 LLM 路由器的框架 - 在不影响质量的情况下节省 LLM 成本。OpenAI 客户端的直接替代品,用于将更简单的查询路由到更便宜的模型。 | 链接 |
记忆
库名称 | 描述 | 链接 |
---|---|---|
mem0 | AI 应用的记忆层。 | 链接 |
Memoripy | 一个 AI 记忆层,具有短期和长期存储、语义聚类以及用于上下文感知应用程序的可选记忆衰减功能。 | 链接 |
界面
库名称 | 描述 | 链接 |
---|---|---|
Streamlit | 构建和共享数据应用程序的更快方法。Streamlit 让用户在几分钟内将 Python 脚本转换为交互式 web 应用程序。 | 链接 |
Gradio | 全部用 Python 构建和共享令人愉悦的机器学习应用程序。 | 链接 |
AI SDK UI | 构建聊天和生成式用户界面。 | 链接 |
AI-Gradio | 创建由各种 AI 提供商支持的 AI 应用程序。 | 链接 |
Simpleaichat | Python 包,用于轻松与聊天应用程序交互,具有强大的功能和最小的代码复杂性。 | 链接 |
Chainlit | 在几分钟内构建可用于生产的对话式 AI 应用程序。 | 链接 |
低代码
库名称 | 描述 | 链接 |
---|---|---|
LangFlow | LangFlow 是一个用于 RAG 和多代理 AI 应用程序的低代码应用程序构建器。它基于 Python,并且与任何模型、API 或数据库无关。 | 链接 |
缓存
库名称 | 描述 | 链接 |
---|---|---|
GPTCache | 一个用于为 LLM 查询创建语义缓存的库。将 LLM API 成本降低 10 倍💰,将速度提高 100 倍。与 LangChain 和 LlamaIndex 完全集成。 | 链接 |
LLM RAG
库名称 | 描述 | 链接 |
---|---|---|
FastGraph RAG | 流线型且可提示的 Fast GraphRAG 框架,专为可解释、高精度、代理驱动的检索工作流程而设计。 | 链接 |
Chonkie | RAG 分块库,轻量级、极速且易于使用。 | 链接 |
RAGChecker | 用于诊断 RAG 的细粒度框架。 | 链接 |
RAG to Riches | 构建、扩展和部署先进的检索增强生成应用程序。 | 链接 |
BeyondLLM | Beyond LLM 提供了一个一体化工具包,用于检索增强生成 (RAG) 系统的实验、评估和部署。 | 链接 |
SQLite-Vec | 一个可在任何地方运行的向量搜索 SQLite 扩展! | 链接 |
fastRAG | fastRAG 是一个研究框架,用于高效和优化的检索增强生成管道,结合了先进的 LLM 和信息检索技术。 | 链接 |
FlashRAG | 用于高效 RAG 研究的 Python 工具包。 | 链接 |
Llmware | 用于使用小型、专用模型构建企业 RAG 管道的统一框架。 | 链接 |
Rerankers | 各种重排序模型的轻量级统一 API。 | 链接 |
Vectara | 构建 Agentic RAG 应用程序。 | 链接 |
LLM 推理
库名称 | 描述 | 链接 |
---|---|---|
LLM Compressor | 与 Transformers 兼容的库,用于将各种压缩算法应用于 LLM,以优化部署。 | 链接 |
LightLLM | 基于 Python 的 LLM 推理和服务框架,以其轻量级设计、易扩展性和高速性能而著称。 | 链接 |
vLLM | 用于 LLM 的高吞吐量和内存高效的推理和服务引擎。 | 链接 |
torchchat | 在服务器、桌面和移动设备上本地运行 PyTorch LLM。 | 链接 |
TensorRT-LLM | TensorRT-LLM 是一个用于优化大型语言模型 (LLM) 推理的库。 | 链接 |
WebLLM | 高性能浏览器内 LLM 推理引擎。 | 链接 |
LLM 服务部署
库名称 | 描述 | 链接 |
---|---|---|
Langcorn | 使用 FastAPI 自动服务 LangChain LLM 应用程序和代理。 | 链接 |
LitServe | 适用于任何大小的任何 AI 模型的极速服务引擎。它使用批量处理、流式传输和 GPU 自动缩放等功能增强了 FastAPI。 | 链接 |
LLM 数据提取
库名称 | 描述 | 链接 |
---|---|---|
Crawl4AI | 开源 LLM 友好的 Web 爬虫和抓取工具。 | 链接 |
ScrapeGraphAI | 一个 web 抓取 Python 库,它使用 LLM 和直接图逻辑为网站和本地文档(XML、HTML、JSON、Markdown 等)创建抓取管道。 | 链接 |
Docling | Docling 解析文档并轻松快速地将它们导出为所需的格式。 | 链接 |
Llama Parse | GenAI 原生文档解析器,可以为任何下游 LLM 用例(RAG、代理)解析复杂文档数据。 | 链接 |
PyMuPDF4LLM | PyMuPDF4LLM 库使用户可以更轻松地以 LLM & RAG 环境所需的格式提取 PDF 内容。 | 链接 |
Crawlee | 一个 web 抓取和浏览器自动化库。 | 链接 |
MegaParse | 适用于每种文档类型的解析器。 | 链接 |
ExtractThinker | 用于 LLM 的文档智能库。 | 链接 |
LLM 数据生成
库名称 | 描述 | 链接 |
---|---|---|
DataDreamer | DataDreamer 是一个强大的开源 Python 库,用于提示、合成数据生成和训练工作流程。 | 链接 |
fabricator | 一个灵活的开源框架,用于使用大型语言模型生成数据集。 | 链接 |
Promptwright | 合成数据集生成库。 | 链接 |
EasyInstruct | 一个易于使用的大型语言模型指令处理框架。 | 链接 |
LLM 智能体
库名称 | 描述 | 链接 |
---|---|---|
CrewAI | 用于编排角色扮演、自主 AI 代理的框架。 | 链接 |
LangGraph | 将弹性语言代理构建为图。 | 链接 |
Agno | 构建具有记忆、知识、工具和推理能力的 AI 代理。使用漂亮的代理 UI 与他们聊天。 | 链接 |
AutoGen | 一个用于构建 AI 代理系统的开源框架。 | 链接 |
Smolagents | 在几行代码中构建强大代理的库。 | 链接 |
Pydantic AI | Python 代理框架,用于使用生成式 AI 构建生产级应用程序。 | 链接 |
gradio-tools | 一个 Python 库,用于将 Gradio 应用程序转换为可由基于 LLM 的代理利用以完成其任务的工具。 | 链接 |
Composio | 用于 AI 代理的生产就绪工具集。 | 链接 |
Atomic Agents | 原子地构建 AI 代理。 | 链接 |
Memary | 用于自主代理的开源记忆层。 | 链接 |
Browser Use | 使网站可供 AI 代理访问。 | 链接 |
OpenWebAgent | 一个在大型语言模型上启用 Web 代理的开放工具包。 | 链接 |
Lagent | 一个用于构建基于 LLM 的代理的轻量级框架。 | 链接 |
LazyLLM | 一个用于构建多代理 LLM 应用程序的低代码开发工具。 | 链接 |
Swarms | 企业级生产就绪多代理编排框架。 | 链接 |
ChatArena | ChatArena 是一个库,提供多代理语言游戏环境,并促进对自主 LLM 代理及其社交互动进行研究。 | 链接 |
Swarm | 探索符合人体工程学的轻量级多代理编排的教育框架。 | 链接 |
AgentStack | 构建强大 AI 代理的最快方法。 | 链接 |
Archgw | 智能代理网关。 | 链接 |
Flow | 一个用于构建 AI 代理的轻量级任务引擎。 | 链接 |
AgentOps | AI 代理监控的 Python SDK。 | 链接 |
Langroid | 多代理框架。 | 链接 |
Agentarium | 用于创建和管理填充 AI 驱动代理的模拟的框架。 | 链接 |
Upsonic | 支持 MCP 的可靠 AI 代理框架。 | 链接 |
LLM 评估
库名称 | 描述 | 链接 |
---|---|---|
Ragas | Ragas 是评估和优化大型语言模型 (LLM) 应用程序的终极工具包。 | 链接 |
Giskard | ML & LLM 系统的开源评估和测试工具。 | 链接 |
DeepEval | LLM 评估框架 | 链接 |
Lighteval | 用于评估 LLM 的一体化工具包。 | 链接 |
Trulens | LLM 实验的评估和跟踪工具 | 链接 |
PromptBench | 大型语言模型的统一评估框架。 | 链接 |
LangTest | 交付安全有效的语言模型。用于比较 LLM & NLP 模型在准确性、偏差、公平性、稳健性等方面的 60 多种测试类型。 | 链接 |
EvalPlus | 用于 LLM4Code 的严格评估框架。 | 链接 |
FastChat | 一个用于训练、服务和评估基于大型语言模型的聊天机器人的开放平台。 | 链接 |
judges | 一个小型 LLM 评委库。 | 链接 |
Evals | Evals 是一个用于评估 LLM 和 LLM 系统的框架,以及基准的开源注册表。 | 链接 |
AgentEvals | 用于评估代理性能的评估器和实用程序。 | 链接 |
LLMBox | 一个全面的 LLM 库,包括统一的训练管道和全面的模型评估。 | 链接 |
Opik | 一个开源端到端 LLM 开发平台,其中还包括 LLM 评估。 | 链接 |
LLM 监控
库名称 | 描述 | 链接 |
---|---|---|
MLflow | 一个开源端到端 MLOps/LLMOps 平台,用于跟踪、评估和监控 LLM 应用程序。 | 链接 |
Opik | 一个开源端到端 LLM 开发平台,其中还包括 LLM 监控。 | 链接 |
LangSmith | 提供用于记录、监控和改进 LLM 应用程序的工具。 | 链接 |
Weights & Biases (W&B) | W&B 提供用于跟踪 LLM 性能的功能。 | 链接 |
Helicone | 面向开发人员的开源 LLM 可观测性平台。用于监控、指标、评估、代理跟踪、提示管理、游乐场等的一行集成。 | 链接 |
Evidently | 一个开源 ML 和 LLM 可观测性框架。 | 链接 |
Phoenix | 一个专为实验、评估和故障排除而设计的开源 AI 可观测性平台。 | 链接 |
Observers | 一个用于 AI 可观测性的轻量级库。 | 链接 |
LLM 提示词工程
库名称 | 描述 | 链接 |
---|---|---|
PCToolkit | 大型语言模型的统一即插即用提示压缩工具包。 | 链接 |
Selective Context | Selective Context 压缩用户的提示和上下文,以允许 LLM(例如 ChatGPT)处理 2 倍以上的内容。 | 链接 |
LLMLingua | 用于压缩提示以加速 LLM 推理的库。 | 链接 |
betterprompt | 在将 LLM 提示推送到生产环境之前对其进行测试的套件。 | 链接 |
Promptify | 使用 LLM 解决 NLP 问题,并使用 Promptify 轻松为 GPT、PaLM 等流行的生成模型生成不同的 NLP 任务提示。 | 链接 |
PromptSource | PromptSource 是一个用于创建、共享和使用自然语言提示的工具包。 | 链接 |
DSPy | DSPy 是用于编程(而不是提示)语言模型的开源框架。 | 链接 |
Py-priompt | 提示设计库。 | 链接 |
Promptimizer | 提示优化库。 | 链接 |
LLM 结构化输出
库名称 | 描述 | 链接 |
---|---|---|
Instructor | Python 库,用于处理来自大型语言模型 (LLM) 的结构化输出。它构建于 Pydantic 之上,提供了一个简单、透明且用户友好的 API。 | 链接 |
XGrammar | 一个用于高效、灵活和可移植的结构化生成的开源库。 | 链接 |
Outlines | 强大的(结构化)文本生成 | 链接 |
Guidance | Guidance 是一种用于指导语言模型的有效编程范例。 | 链接 |
LMQL | 一种用于约束引导和高效 LLM 编程的语言。 | 链接 |
Jsonformer | 一种从语言模型生成结构化 JSON 的万无一失的方法。 | 链接 |
LLM 安全
库名称 | 描述 | 链接 |
---|---|---|
JailbreakEval | 用于评估越狱尝试的自动评估器集合。 | 链接 |
EasyJailbreak | 一个易于使用的 Python 框架,用于生成对抗性越狱提示。 | 链接 |
Guardrails | 为大型语言模型添加护栏。 | 链接 |
LLM Guard | LLM 交互的安全工具包。 | 链接 |
AuditNLG | AuditNLG 是一个开源库,可以帮助降低与使用生成式 AI 系统进行语言相关的风险。 | 链接 |
NeMo Guardrails | NeMo Guardrails 是一个开源工具包,用于轻松地为基于 LLM 的对话系统添加可编程护栏。 | 链接 |
Garak | LLM 漏洞扫描器 | 链接 |
LLM 嵌入模型
库名称 | 描述 | 链接 |
---|---|---|
Sentence-Transformers | 先进的文本嵌入模型 | 链接 |
Model2Vec | 快速的先进静态嵌入模型 | 链接 |
Text Embedding Inference | 用于文本嵌入模型的高速推理解决方案。TEI 为最流行的模型(包括 FlagEmbedding、Ember、GTE 和 E5)实现了高性能提取。 | 链接 |
其他
库名称 | 描述 | 链接 |
---|---|---|
Text Machina | 一个模块化和可扩展的 Python 框架,旨在帮助创建高质量、无偏见的数据集,以构建用于 MGT 相关任务(如检测、归因和边界检测)的稳健模型。 | 链接 |
LLM Reasoners | 用于高级大型语言模型推理的库。 | 链接 |
EasyEdit | 一个易于使用的大型语言模型知识编辑框架。 | 链接 |
CodeTF | CodeTF:用于先进代码 LLM 的一站式 Transformer 库。 | 链接 |
spacy-llm | 此包将大型语言模型 (LLM) 集成到 spaCy 中,具有用于快速原型设计和提示的模块化系统,并将非结构化响应转换为各种 NLP 任务的稳健输出。 | 链接 |
pandas-ai | 与用户的数据库(SQL、CSV、pandas、polars、MongoDB、NoSQL 等)聊天。 | 链接 |
LLM Transparency Tool | 一个开源交互式工具包,用于分析基于 Transformer 的语言模型的内部工作原理。 | 链接 |
Vanna | 与用户的 SQL 数据库聊天。通过使用 RAG 的 LLM 实现准确的文本到 SQL 生成。 | 链接 |
mergekit | 用于合并预训练大型语言模型的工具。 | 链接 |
MarkLLM | 一个 LLM 水印开源工具包。 | 链接 |
LLMSanitize | 一个用于 NLP 数据集和大型语言模型 (LLM) 中污染检测的开源库。 | 链接 |
Annotateai | 使用 LLM 自动注释论文。 | 链接 |
LLM Reasoner | 让任何 LLM 像 OpenAI o1 和 DeepSeek R1 一样思考。 | 链接 |