
模块化 RAG 系统中使用推理模型的应用评估
本文将介绍 Kapa.ai 近期在检索增强生成(Retrieval-Augmented Generation,简称 RAG)系统中,对 OpenAI 的 o3-mini 等推理模型进行探索的总结汇报。 Kapa.ai 是一款由大型语言模型(LLM)驱动的 AI 助手,它可...
本文将介绍 Kapa.ai 近期在检索增强生成(Retrieval-Augmented Generation,简称 RAG)系统中,对 OpenAI 的 o3-mini 等推理模型进行探索的总结汇报。 Kapa.ai 是一款由大型语言模型(LLM)驱动的 AI 助手,它可...
1. 引言 在当今信息爆炸的时代,大量知识以表格形式存储于网页、维基百科和关系型数据库中。然而,传统的问答系统往往难以处理跨多个表格的复杂查询,这成为人工智能领域的一大挑战。为了应对这一难题,研究人员...
随着大型语言模型 (LLM) 能力的飞速发展,传统的基准测试,如 MMLU,在区分顶尖模型方面逐渐显现出局限性。仅仅依靠知识问答或标准化测试,已难以全面衡量模型在真实世界交互中至关重要的细微能力,例如情商、创...
开启 Builder 智能编程模式,无限量使用 DeepSeek-R1 和 DeepSeek-V3 ,对比海外版体验更加流畅。只需输入中文指令,不懂编程的小白也可以零门槛编写自己的应用。
大语言模型(LLM)的发展日新月异,其推理能力已成为衡量其智能水平的关键指标。特别是具备长推理能力的模型,例如 OpenAI 的 o1、DeepSeek-R1、QwQ-32B 和 Kimi K1.5 等,它们通过模拟人类深度思考过程来解决复...
引言 近年来,大型语言模型(LLMs)在人工智能领域取得了令人瞩目的进展,其强大的语言理解和生成能力使其在多个领域得到了广泛应用。然而,LLMs 在处理需要调用外部工具的复杂任务时,仍然面临诸多挑战。例如,...
Python 生态向来不缺包管理和环境管理工具,从经典的 pip、virtualenv 到 pip-tools、conda,再到现代化的 Poetry、PDM 等等。每种工具都有其擅长的领域,但也常常让开发者的工具链变得零散和复杂。 现在,来自 A...
导言 近年来,多智能体系统(MAS)在人工智能领域引起了广泛关注。这些系统通过多个大语言模型(LLM)智能体的协作,试图解决复杂的、多步骤的任务。然而,尽管人们对 MAS 充满期待,其在实际应用中的表现却不尽...
像 Claude 这样的大型语言模型 (LLM) 并非由人类直接编写程序代码造就,它们是在海量数据中训练出来的。在这个过程中,模型自己学会了解决问题的策略。这些策略隐藏在模型生成每个词时进行的数十亿次计算中,对于...
近期,Anthropic 公司推出了一种名为 "think" 的新工具,旨在增强 Claude 模型在复杂问题解决方面的能力。本文将深入探讨 "think" 工具的设计理念、性能表现以及实际应用中的最佳实践,并分析其对未来 AI 系统发...
摘要 信息检索系统对于有效访问大型文档集合至关重要。最近的方法利用大型语言模型(LLMs)通过查询增强来提高检索性能,但通常依赖于昂贵的监督学习或蒸馏技术,这些技术需要大量的计算资源和手工标注的数据。在...
大型推理模型在有机会时会利用漏洞。研究表明,可以使用大型语言模型(LLM)监控其思维链(chains-of-thought, CoT)来检测这些利用行为。惩罚模型的“不良想法”并不能阻止大多数不当行为,反而会使其隐藏意图。 ...
背景 近期,一篇名为 Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning 的论文 (arxiv.org/pdf/2503.09516) 引发了广泛关注。该论文提出了一种利用强化学习训练大语...
GraphRAG 项目 旨在利用非结构化文本中的隐含关系,扩展 AI 系统在私有数据集上可回答问题的范围。 相比传统的向量 RAG(或称“语义搜索”),GraphRAG 的一个关键优势是它能够回答针对整个数据集的 全局查询,例如...
如果你已经读过 Jina 上一篇经典长文《DeepSearch/DeepResearch 的设计与实现》,那么不妨再深挖一些能大幅提升回答质量的细节。这次,我们将重点关注两个细节: 从长网页提取最优文本段:如何利用迟分(late-chun...
Gemma 3 关键信息总结 一、关键指标 参数 详情 模型规模 1 亿到 270 亿参数,共四个版本:1B、4B、12B、27B 架构 基于 Transformer 的解码器专用架构,继承自 Gemma 2,并进行多项改进 多模态能力 支持文本和图像...
1. 背景与问题 随着人工智能(AI)技术的快速发展,尤其是扩散模型的进步,AI已经能够生成非常逼真的人像图片。例如,像InstantID这样的技术,只需要一张照片,就能生成具有相同身份特征的多个新图片。这种技术虽...
2025 年 2 月发布的 NoLiMA 是一种大语言模型(LLM)长文本理解能力评估方法。不同于传统“大海捞针”(Needle-in-a-Haystack, NIAH)测试依赖关键词匹配的做法,它最大的特点是 通过精心设计问题和关键信息,迫使...
当前生成式 AI 领域发展迅速,新的框架和技术层出不穷。因此,读者需要注意,本文所介绍的内容可能具有时效性。本文将深入探讨用于构建 LLM 应用程序的两个主流框架:LangChain 和 LangGraph,并分析它们的优劣,...
在人工智能 (AI) 领域,特别是大型语言模型 (LLM) 蓬勃发展的今天,理解 MCP Server、Function Call 和 Agent 这三个关键概念至关重要。它们如同 AI 系统的基石,各自承担着独特而又相互关联的角色。 深入理解它...