论文:https://arxiv.org/abs/2402.14207
我们能教LLMs从头开始写长篇文章,基于可靠的来源吗?
维基百科编辑认为这能帮助他们吗?
📣 宣布STORM,一个基于互联网搜索写维基百科式文章的系统。我现在在我的日常研究中使用STORM!
生成带有引用的长篇文章是很难做到&很难评估的!
我们将这个问题分解为两个步骤:
1️⃣ 预写作,其中系统收集参考文献并生成一个大纲。
2️⃣ 写作,其中系统生成带有引用的最终文章。
“预写作”需要从头开始研究一个主题。
这甚至对人类专家来说都很困难。直接提示语言模型生成问题并不奏效!这些问题缺乏深度,并且有有限的广度。
STORM旨在教语言模型**问好的问题**。
STORM通过自动发现研究主题的视角,并在提示中添加视角来改进提问。它还模拟信息搜索对话,以鼓励通常更深入的后续问题。
我们构建了FreshWiki来减少数据泄漏到LM训练数据中,以便进行评估。
为了衡量质量,我们引入了标题软召回和标题实体召回。大纲评估使预编写原型方法变得更容易。
STORM优于设计良好的RAG基线!
在最后的写作阶段,STORM 生成带有引用的文本,并逐节写出完整的文章。
由 STORM 生成的文章受到自动度量指标*和*经验丰富的 Wikipedia 编辑的青睐!
这种说明性写作应该始终扎根于事实。
我们评估了引文质量,并要求维基百科编辑对可验证性进行评级。我们发现,主要的挑战来自于转移话题,而不是广泛讨论的事实幻觉。
这需要进行事实核查之外的研究!
我们还询问了维基百科编辑对STORM的感知有用性。令人兴奋的是,所有参与者都同意STORM对他们的写作前期阶段很有帮助。此外,我自己也使用STORM深入学习研究中的概念(如果你还没有看过我们的演示视频,请点击这里)。
值得一提的是,STORM是一个精心设计的知识管理管道,而不是单个提示或模型。
我们使用DSPy构建STORM,它提供了非常整洁的模块化——这允许我们继续扩展我们的工作,而不会迷失在许多提示文件中。