AI个人学习
和实操指南
豆包Marscode1

大型语言模型工程师工具箱:精选120+实用库资源

在人工智能领域,大型语言模型(LLM)技术日新月异,各种工具库层出不穷。为了帮助开发者更好地应对 LLM 开发的挑战,本文整理了一份包含 120 多个实用 LLM 库的工具箱,并按功能类别进行划分,方便工程师们快速查找和应用。

大型语言模型工程师工具箱:精选120+实用库资源-1


 

快速导航

为了方便读者快速定位所需资源,以下是各个类别工具库的快速链接:

🚀 LLM 训练与微调 🧱 LLM 应用开发 🩸 LLM 检索增强生成(RAG)
🟩 LLM 推理 🚧 LLM 服务部署 📤 LLM 数据提取
🌠 LLM 数据生成 💎 LLM 智能体 ⚖️ LLM 评估
🔍 LLM 监控 📅 LLM 提示词工程 📝 LLM 结构化输出
🛑 LLM 安全 💠 LLM 嵌入模型 ❇️ 其他

 

LLM 训练与微调

库名称 描述 链接
unsloth 以更少的内存更快地微调 LLM。 链接
PEFT 先进的参数高效微调库。 链接
TRL 使用强化学习训练 transformer 语言模型。 链接
Transformers Transformers 提供了数千个预训练模型,用于执行文本、视觉和音频等不同模态的任务。 链接
Axolotl 旨在简化各种 AI 模型后训练的工具。 链接
LLMBox 一个全面的 LLM 库,包括统一的训练管道和全面的模型评估。 链接
LitGPT 快速训练和微调 LLM。 链接
Mergoo 一个用于轻松合并多个 LLM 专家并有效训练合并后的 LLM 的库。 链接
Llama-Factory 简单高效的 LLM 微调工具。 链接
Ludwig 用于构建自定义 LLM、神经网络和其他 AI 模型的低代码框架。 链接
Txtinstruct 一个用于训练指令调优模型的框架。 链接
Lamini 一个集成的 LLM 推理和调优平台。 链接
XTuring XTuring 提供了对 Mistral、LLaMA、GPT-J 等开源 LLM 进行快速、高效和简单微调的功能。 链接
RL4LMs 一个模块化的 RL 库,用于根据人类偏好微调语言模型。 链接
DeepSpeed DeepSpeed 是一个深度学习优化库,使分布式训练和推理变得简单、高效和有效。 链接
torchtune 一个专门为微调 LLM 而设计的 PyTorch 原生库。 链接
PyTorch Lightning 一个为预训练和微调 LLM 提供高级接口的库。 链接

 

LLM 应用开发

框架

库名称 描述 链接
LangChain LangChain 是一个用于开发由大型语言模型 (LLM) 驱动的应用程序的框架。 链接
Llama Index LlamaIndex 是 LLM 应用程序的数据框架。 链接
HayStack Haystack 是一个端到端的 LLM 框架,允许用户构建由 LLM、Transformer 模型、向量搜索等驱动的应用程序。 链接
Prompt flow 一套开发工具,旨在简化基于 LLM 的 AI 应用程序的端到端开发周期。 链接
Griptape 一个用于构建 AI 驱动应用程序的模块化 Python 框架。 链接
Weave Weave 是一个用于开发生成式 AI 应用程序的工具包。 链接
Llama Stack 构建 Llama 应用。 链接

多 API 访问

库名称 描述 链接
LiteLLM 以 OpenAI 格式调用 100 多个 LLM API 的库。 链接
AI Gateway 一个快速 AI 网关,具有集成的护栏。通过 1 个快速友好的 API 路由到 200 多个 LLM、50 多个 AI 护栏。 链接

路由器

库名称 描述 链接
RouteLLM 用于服务和评估 LLM 路由器的框架 - 在不影响质量的情况下节省 LLM 成本。OpenAI 客户端的直接替代品,用于将更简单的查询路由到更便宜的模型。 链接

记忆

库名称 描述 链接
mem0 AI 应用的记忆层。 链接
Memoripy 一个 AI 记忆层,具有短期和长期存储、语义聚类以及用于上下文感知应用程序的可选记忆衰减功能。 链接

界面

库名称 描述 链接
Streamlit 构建和共享数据应用程序的更快方法。Streamlit 让用户在几分钟内将 Python 脚本转换为交互式 web 应用程序。 链接
Gradio 全部用 Python 构建和共享令人愉悦的机器学习应用程序。 链接
AI SDK UI 构建聊天和生成式用户界面。 链接
AI-Gradio 创建由各种 AI 提供商支持的 AI 应用程序。 链接
Simpleaichat Python 包,用于轻松与聊天应用程序交互,具有强大的功能和最小的代码复杂性。 链接
Chainlit 在几分钟内构建可用于生产的对话式 AI 应用程序。 链接

低代码

库名称 描述 链接
LangFlow LangFlow 是一个用于 RAG 和多代理 AI 应用程序的低代码应用程序构建器。它基于 Python,并且与任何模型、API 或数据库无关。 链接

缓存

库名称 描述 链接
GPTCache 一个用于为 LLM 查询创建语义缓存的库。将 LLM API 成本降低 10 倍💰,将速度提高 100 倍。与 LangChain 和 LlamaIndex 完全集成。 链接

 

LLM RAG

库名称 描述 链接
FastGraph RAG 流线型且可提示的 Fast GraphRAG 框架,专为可解释、高精度、代理驱动的检索工作流程而设计。 链接
Chonkie RAG 分块库,轻量级、极速且易于使用。 链接
RAGChecker 用于诊断 RAG 的细粒度框架。 链接
RAG to Riches 构建、扩展和部署先进的检索增强生成应用程序。 链接
BeyondLLM Beyond LLM 提供了一个一体化工具包,用于检索增强生成 (RAG) 系统的实验、评估和部署。 链接
SQLite-Vec 一个可在任何地方运行的向量搜索 SQLite 扩展! 链接
fastRAG fastRAG 是一个研究框架,用于高效和优化的检索增强生成管道,结合了先进的 LLM 和信息检索技术。 链接
FlashRAG 用于高效 RAG 研究的 Python 工具包。 链接
Llmware 用于使用小型、专用模型构建企业 RAG 管道的统一框架。 链接
Rerankers 各种重排序模型的轻量级统一 API。 链接
Vectara 构建 Agentic RAG 应用程序。 链接

 

LLM 推理

库名称 描述 链接
LLM Compressor 与 Transformers 兼容的库,用于将各种压缩算法应用于 LLM,以优化部署。 链接
LightLLM 基于 Python 的 LLM 推理和服务框架,以其轻量级设计、易扩展性和高速性能而著称。 链接
vLLM 用于 LLM 的高吞吐量和内存高效的推理和服务引擎。 链接
torchchat 在服务器、桌面和移动设备上本地运行 PyTorch LLM。 链接
TensorRT-LLM TensorRT-LLM 是一个用于优化大型语言模型 (LLM) 推理的库。 链接
WebLLM 高性能浏览器内 LLM 推理引擎。 链接

 

LLM 服务部署

库名称 描述 链接
Langcorn 使用 FastAPI 自动服务 LangChain LLM 应用程序和代理。 链接
LitServe 适用于任何大小的任何 AI 模型的极速服务引擎。它使用批量处理、流式传输和 GPU 自动缩放等功能增强了 FastAPI。 链接

 

LLM 数据提取

库名称 描述 链接
Crawl4AI 开源 LLM 友好的 Web 爬虫和抓取工具。 链接
ScrapeGraphAI 一个 web 抓取 Python 库,它使用 LLM 和直接图逻辑为网站和本地文档(XML、HTML、JSON、Markdown 等)创建抓取管道。 链接
Docling Docling 解析文档并轻松快速地将它们导出为所需的格式。 链接
Llama Parse GenAI 原生文档解析器,可以为任何下游 LLM 用例(RAG、代理)解析复杂文档数据。 链接
PyMuPDF4LLM PyMuPDF4LLM 库使用户可以更轻松地以 LLM & RAG 环境所需的格式提取 PDF 内容。 链接
Crawlee 一个 web 抓取和浏览器自动化库。 链接
MegaParse 适用于每种文档类型的解析器。 链接
ExtractThinker 用于 LLM 的文档智能库。 链接

 

LLM 数据生成

库名称 描述 链接
DataDreamer DataDreamer 是一个强大的开源 Python 库,用于提示、合成数据生成和训练工作流程。 链接
fabricator 一个灵活的开源框架,用于使用大型语言模型生成数据集。 链接
Promptwright 合成数据集生成库。 链接
EasyInstruct 一个易于使用的大型语言模型指令处理框架。 链接

LLM 智能体

库名称 描述 链接
CrewAI 用于编排角色扮演、自主 AI 代理的框架。 链接
LangGraph 将弹性语言代理构建为图。 链接
Agno 构建具有记忆、知识、工具和推理能力的 AI 代理。使用漂亮的代理 UI 与他们聊天。 链接
AutoGen 一个用于构建 AI 代理系统的开源框架。 链接
Smolagents 在几行代码中构建强大代理的库。 链接
Pydantic AI Python 代理框架,用于使用生成式 AI 构建生产级应用程序。 链接
gradio-tools 一个 Python 库,用于将 Gradio 应用程序转换为可由基于 LLM 的代理利用以完成其任务的工具。 链接
Composio 用于 AI 代理的生产就绪工具集。 链接
Atomic Agents 原子地构建 AI 代理。 链接
Memary 用于自主代理的开源记忆层。 链接
Browser Use 使网站可供 AI 代理访问。 链接
OpenWebAgent 一个在大型语言模型上启用 Web 代理的开放工具包。 链接
Lagent 一个用于构建基于 LLM 的代理的轻量级框架。 链接
LazyLLM 一个用于构建多代理 LLM 应用程序的低代码开发工具。 链接
Swarms 企业级生产就绪多代理编排框架。 链接
ChatArena ChatArena 是一个库,提供多代理语言游戏环境,并促进对自主 LLM 代理及其社交互动进行研究。 链接
Swarm 探索符合人体工程学的轻量级多代理编排的教育框架。 链接
AgentStack 构建强大 AI 代理的最快方法。 链接
Archgw 智能代理网关。 链接
Flow 一个用于构建 AI 代理的轻量级任务引擎。 链接
AgentOps AI 代理监控的 Python SDK。 链接
Langroid 多代理框架。 链接
Agentarium 用于创建和管理填充 AI 驱动代理的模拟的框架。 链接
Upsonic 支持 MCP 的可靠 AI 代理框架。 链接

 

LLM 评估

库名称 描述 链接
Ragas Ragas 是评估和优化大型语言模型 (LLM) 应用程序的终极工具包。 链接
Giskard ML & LLM 系统的开源评估和测试工具。 链接
DeepEval LLM 评估框架 链接
Lighteval 用于评估 LLM 的一体化工具包。 链接
Trulens LLM 实验的评估和跟踪工具 链接
PromptBench 大型语言模型的统一评估框架。 链接
LangTest 交付安全有效的语言模型。用于比较 LLM & NLP 模型在准确性、偏差、公平性、稳健性等方面的 60 多种测试类型。 链接
EvalPlus 用于 LLM4Code 的严格评估框架。 链接
FastChat 一个用于训练、服务和评估基于大型语言模型的聊天机器人的开放平台。 链接
judges 一个小型 LLM 评委库。 链接
Evals Evals 是一个用于评估 LLM 和 LLM 系统的框架,以及基准的开源注册表。 链接
AgentEvals 用于评估代理性能的评估器和实用程序。 链接
LLMBox 一个全面的 LLM 库,包括统一的训练管道和全面的模型评估。 链接
Opik 一个开源端到端 LLM 开发平台,其中还包括 LLM 评估。 链接

 

LLM 监控

库名称 描述 链接
MLflow 一个开源端到端 MLOps/LLMOps 平台,用于跟踪、评估和监控 LLM 应用程序。 链接
Opik 一个开源端到端 LLM 开发平台,其中还包括 LLM 监控。 链接
LangSmith 提供用于记录、监控和改进 LLM 应用程序的工具。 链接
Weights & Biases (W&B) W&B 提供用于跟踪 LLM 性能的功能。 链接
Helicone 面向开发人员的开源 LLM 可观测性平台。用于监控、指标、评估、代理跟踪、提示管理、游乐场等的一行集成。 链接
Evidently 一个开源 ML 和 LLM 可观测性框架。 链接
Phoenix 一个专为实验、评估和故障排除而设计的开源 AI 可观测性平台。 链接
Observers 一个用于 AI 可观测性的轻量级库。 链接

 

LLM 提示词工程

库名称 描述 链接
PCToolkit 大型语言模型的统一即插即用提示压缩工具包。 链接
Selective Context Selective Context 压缩用户的提示和上下文,以允许 LLM(例如 ChatGPT)处理 2 倍以上的内容。 链接
LLMLingua 用于压缩提示以加速 LLM 推理的库。 链接
betterprompt 在将 LLM 提示推送到生产环境之前对其进行测试的套件。 链接
Promptify 使用 LLM 解决 NLP 问题,并使用 Promptify 轻松为 GPT、PaLM 等流行的生成模型生成不同的 NLP 任务提示。 链接
PromptSource PromptSource 是一个用于创建、共享和使用自然语言提示的工具包。 链接
DSPy DSPy 是用于编程(而不是提示)语言模型的开源框架。 链接
Py-priompt 提示设计库。 链接
Promptimizer 提示优化库。 链接

 

LLM 结构化输出

库名称 描述 链接
Instructor Python 库,用于处理来自大型语言模型 (LLM) 的结构化输出。它构建于 Pydantic 之上,提供了一个简单、透明且用户友好的 API。 链接
XGrammar 一个用于高效、灵活和可移植的结构化生成的开源库。 链接
Outlines 强大的(结构化)文本生成 链接
Guidance Guidance 是一种用于指导语言模型的有效编程范例。 链接
LMQL 一种用于约束引导和高效 LLM 编程的语言。 链接
Jsonformer 一种从语言模型生成结构化 JSON 的万无一失的方法。 链接

 

LLM 安全

库名称 描述 链接
JailbreakEval 用于评估越狱尝试的自动评估器集合。 链接
EasyJailbreak 一个易于使用的 Python 框架,用于生成对抗性越狱提示。 链接
Guardrails 为大型语言模型添加护栏。 链接
LLM Guard LLM 交互的安全工具包。 链接
AuditNLG AuditNLG 是一个开源库,可以帮助降低与使用生成式 AI 系统进行语言相关的风险。 链接
NeMo Guardrails NeMo Guardrails 是一个开源工具包,用于轻松地为基于 LLM 的对话系统添加可编程护栏。 链接
Garak LLM 漏洞扫描器 链接

 

LLM 嵌入模型

库名称 描述 链接
Sentence-Transformers 先进的文本嵌入模型 链接
Model2Vec 快速的先进静态嵌入模型 链接
Text Embedding Inference 用于文本嵌入模型的高速推理解决方案。TEI 为最流行的模型(包括 FlagEmbedding、Ember、GTE 和 E5)实现了高性能提取。 链接

 

其他

库名称 描述 链接
Text Machina 一个模块化和可扩展的 Python 框架,旨在帮助创建高质量、无偏见的数据集,以构建用于 MGT 相关任务(如检测、归因和边界检测)的稳健模型。 链接
LLM Reasoners 用于高级大型语言模型推理的库。 链接
EasyEdit 一个易于使用的大型语言模型知识编辑框架。 链接
CodeTF CodeTF:用于先进代码 LLM 的一站式 Transformer 库。 链接
spacy-llm 此包将大型语言模型 (LLM) 集成到 spaCy 中,具有用于快速原型设计和提示的模块化系统,并将非结构化响应转换为各种 NLP 任务的稳健输出。 链接
pandas-ai 与用户的数据库(SQL、CSV、pandas、polars、MongoDB、NoSQL 等)聊天。 链接
LLM Transparency Tool 一个开源交互式工具包,用于分析基于 Transformer 的语言模型的内部工作原理。 链接
Vanna 与用户的 SQL 数据库聊天。通过使用 RAG 的 LLM 实现准确的文本到 SQL 生成。 链接
mergekit 用于合并预训练大型语言模型的工具。 链接
MarkLLM 一个 LLM 水印开源工具包。 链接
LLMSanitize 一个用于 NLP 数据集和大型语言模型 (LLM) 中污染检测的开源库。 链接
Annotateai 使用 LLM 自动注释论文。 链接
LLM Reasoner 让任何 LLM 像 OpenAI o1 和 DeepSeek R1 一样思考。 链接
未经允许不得转载:首席AI分享圈 » 大型语言模型工程师工具箱:精选120+实用库资源

首席AI分享圈

首席AI分享圈专注于人工智能学习,提供全面的AI学习内容、AI工具和实操指导。我们的目标是通过高质量的内容和实践经验分享,帮助用户掌握AI技术,一起挖掘AI的无限潜能。无论您是AI初学者还是资深专家,这里都是您获取知识、提升技能、实现创新的理想之地。

联系我们
zh_CN简体中文