综合介绍
CHRONOS是由阿里巴巴NLP团队开发的一款新闻时间线总结工具。该工具通过迭代自我提问的方式,生成新闻事件的时间线总结。CHRONOS不仅能够处理开放领域的时间线总结任务,还能在效率和可扩展性方面显著提升。其独特的数据集和算法使其在新闻检索和时间线生成方面表现出色,适用于研究人员和新闻从业者。
功能列表
- 新闻时间线生成:通过迭代自我提问,生成新闻事件的时间线。
- 开放领域时间线总结:处理开放领域的时间线总结任务,数据集覆盖广泛。
- 高效新闻检索:利用先进的检索算法,快速找到相关新闻。
- 数据集发布:提供开放领域时间线总结的数据集,供研究使用。
- API集成:支持与Qwen、GPT等模型的API集成,增强功能。
使用帮助
安装流程
- 安装依赖:首先,确保安装所需的Python依赖包。在命令行中运行以下命令:
pip install -r requirements.txt
- 生成示例问题:构建数据集的主题问题示例池。运行以下命令:
python question_exampler.py
或者使用提供的data/question_examples.json
文件,该文件包含Crisis、T17和Open-TLS数据集的示例问题。
- 运行CHRONOS:执行以下命令,完成开放领域时间线总结任务:
python main.py --model_name "模型名称" --max_round "最大迭代轮数" --dataset open --output "输出目录" --question_exs
使用指南
- 替换API密钥:在运行前,请在
src/model.py
中替换占位符为您的API密钥,以调用Qwen或GPT模型:
DASHSCOPE_API_KEY = "您的API密钥"
OPENAI_API_KEY = "您的API密钥"
同时,在src/searcher.py
中替换为您的Bing Web Search API密钥:
BING_SEARCH_KEY = "您的API密钥"
如果希望CHRONOS使用完整页面而非仅片段,请在src/reader.py
中替换为您的JINA密钥:
JINA_API_KEY = "您的API密钥"
- 运行脚本:使用以下命令运行CHRONOS,实验开放领域时间线总结数据集:
python main.py --model_name "模型名称" --max_round "最大迭代轮数" --dataset open --output "输出目录" --question_exs
功能操作流程
- 新闻时间线生成:通过迭代自我提问的方式,CHRONOS能够生成详细的新闻事件时间线。用户可以根据需要调整迭代轮数,以获取更全面的新闻总结。
- 开放领域时间线总结:CHRONOS的数据集覆盖广泛,能够处理各种开放领域的时间线总结任务。用户可以使用提供的数据集或自定义数据集进行实验。
- 高效新闻检索:CHRONOS利用先进的检索算法,能够快速找到相关新闻。用户可以通过API集成,增强检索功能,提升效率。
- 数据集发布:CHRONOS提供开放领域时间线总结的数据集,供研究人员使用。用户可以下载并使用这些数据集进行进一步研究。
- API集成:CHRONOS支持与Qwen、GPT等模型的API集成,用户可以根据需要选择合适的模型,增强功能。
通过以上步骤,用户可以轻松安装和使用CHRONOS,生成新闻时间线总结,提升新闻检索和时间线生成效率。