AI个人学习
和实操指南

实验:将WordPress全站内容转换为“内容查询功能”的AI助手

起因

首席AI分享圈整理了大量的“实用指令”和各类“AI工具”,在网站输入关键词匹配进行检索无法准确找到需要的资源。网站里有很多优秀的生成视频工具无法被找到,这是无法容忍的。

实验:将WordPress全站内容转换为结构化QA知识库-1


 

缺少网站开发能力的前提下,我们可以依赖外部功能进行检索:

依赖搜索引擎使用“站内检索”方式解决,好像有些麻烦,内容收录也不全:

实验:将WordPress全站内容转换为结构化QA知识库-1

或者直接输入:site:www.aisharenet.com SEO

 

当然,我没有能力直接将网站内容转换为语义检索,并且提供良好的使用界面,所以问题集中在:

如何将网站内容转换为方便检索的知识库。

 

 

内容分析

AI工具和使用指令,在标题区域,基本上描述清楚其内容特征,而内容区域虽然介绍更加详实,但会出现干扰文本,影响检索质量。同时,内容中的图片我也希望尽量提供给读者预览。

 

AI工具内容示例

实验:将WordPress全站内容转换为结构化QA知识库-1

使用指令内容示例

实验:将WordPress全站内容转换为结构化QA知识库-1

 

 

思考检索策略

 

1.标题和内容混合为一整段参与语义检索

优点:内容完整

缺点:内容太多导致检索不精准

 

2.仅检索标题,然后根据标题引用内容知识

优点:检索精准

缺点:降低有效检索范围

 

3.将标题和内容输入给大模型分割成QA对

优点:极大提升有效检索范围

缺点:处理起来费用、时间成本较高;会丢失原文重要内容、结构

PS:不需要任何开发经验,可以部署DIFY项目批量生成QA对,这里不演示了。

 

4.知识图谱化

内容不适合,忽略。

我要依赖免费开放的智能体编辑平台,这些平台也不支持知识图谱。

 

选择检索2,简单且高效。虽然有效检索范围降低,但可以通过持续迭代增量优化。

内容主体其实也不需要参与检索,只要按照语义检索到标题,返回对应URL即可,这样可以降低大模型处理长上下文时产生的异常,并且返回URL可以让阅读更加完整。

 

 

检索工具载体

 

用哪个三方平台实现语义检索?

市面上很多免费支持知识库的平台,例如元宝、智谱、扣子、文心等。。这里我要选择支持导入QA对进行检索的平台。

检索QA对:通过检索问题A返回问题A对应的答案B返回给大模型,将B作为参考内容回答用户问题。

哪个平台更好,哪个语义理解更好,这里不考虑,他们的基础性能基本都算达标。

 

用户在哪使用?

主推公众号,所以允许用户在公众号中检索。

 

智谱不错,但我选择文心智能体,文心智能体在处理QA规则时操作指示较为明确。同时文心智能体可以发布到百度进行获客。推荐阅读:杀手级流量入口:利用AI智能体为网站、公众号长期获取外部流量

 

 

操作教程

 

1.从WordPress导出XML文件

实验:将WordPress全站内容转换为结构化QA知识库-1

 

2.XML转换为MD格式

 

2.1 点此下载blog2md项目解压到目录D:\222\blog2md

 

2.2 blog2md目录中空白初点击鼠标右键,打开SHELL终端

实验:将WordPress全站内容转换为结构化QA知识库-1

 

2.3 大概率需要安装依赖,输入以下命令

安装命令:
npm install xml2js

验证命令:
npm list xml2js

 

2.4 导出的XML文件命名为111.xml,放在D:\222\blog2md目录,并执行以下命令

node index.js w 111.xml out

 

2.5 此时生成目录D:\222\blog2md\out,进入后可验证生成内容是否正确。

 

实验:将WordPress全站内容转换为结构化QA知识库-1

 

实验:将WordPress全站内容转换为结构化QA知识库-1

 

3.MD转换EXCEL格式

md内容格是结构化的,所以很好提取,这里我用chatgpt写个正则,用python执行。

我要提取:文件名(文件名就是URL,例如:https://www.aisharenet.com/anse/)、title、内容区域(---下方的内容)

 

3.1 执行python脚本后,当前目录下生成output.xlsx文件

实验:将WordPress全站内容转换为结构化QA知识库-1

 

脚本内容:

脚本文件保存后随便起个名:111.py,将脚本放在任意目录,这里我放在D:\222\blog2md。

在命令行中执行(默认的命令行无法直接执行111.pt,必须加.\前缀)

.1.py

 

脚本文件代码如下,请保存为111.py(CHATGPT生成)

读取md文件的目录:folder_path = "D:\\222\\blog2md\\out"

在当前目录生成EXCEL:output_file = "output.xlsx"

首席AI分享圈此处内容已经被作者隐藏,请输入验证码查看内容
验证码:
请关注本站微信公众号,回复“验证码”,获取验证码。在微信里搜索“首席AI分享圈”或者“Looks-AI”或者微信扫描右侧二维码都可以关注本站微信公众号。

3.2 整理output.xlsx为待上传的知识库

这里只保留标题,并拼接出完整的URL。

实验:将WordPress全站内容转换为结构化QA知识库-1

 

4. 文心智能体上传知识库

 

4.1 进入文心智能体,上传知识库

实验:将WordPress全站内容转换为结构化QA知识库-1

 

4.2 上传EXCEL文件

实验:将WordPress全站内容转换为结构化QA知识库-1

 

4.3 自定义检索列(这就是用文心智能体的原因,其他工具缺失此界面)

实验:将WordPress全站内容转换为结构化QA知识库-1

 

更多整理知识库的技巧请阅读:文心智能体教程:(四)加工文档并同步到知识库

 

5.创建智能体并发布使用

 

5.1 创建智能体

这里我们简单配置一下,不纠结具体细节。开始创建智能体...

你可以尝试使用低代码模式创建智能体,增加多知识库判断逻辑,毕竟网站有很多频道嘛,这里我就不演示了,对低代码有兴趣的朋友可以阅读:文心智能体教程:(五)编排智能体工作流

实验:将WordPress全站内容转换为结构化QA知识库-1

 

5.2 配置智能体

关闭非“知识库”功能,避免异常,其他设置我就用默认,不进行精调。

实验:将WordPress全站内容转换为结构化QA知识库-1

 

召回知识库的命中率要简单测试一下,否则容易匹配到不相关的内容。

实验:将WordPress全站内容转换为“内容查询功能”为主的AI助手-1

 

5.3 调试并预览输出结果

实验:将WordPress全站内容转换为结构化QA知识库-1

 

5.4 发布智能体

实验:将WordPress全站内容转换为结构化QA知识库-1

 

最后

最后,你得到一个可以在公众号中快速查询AI工具的智能体,这一切都是免费的!同时,基于文心智能体分发渠道( 文心智能体平台:建立在完整分发渠道和商业闭环的智能体应用 ),这款工具将发布到百度首页提供给用户使用。

未经允许不得转载:首席AI分享圈 » 实验:将WordPress全站内容转换为“内容查询功能”的AI助手

首席AI分享圈

首席AI分享圈专注于人工智能学习,提供全面的AI学习内容、AI工具和实操指导。我们的目标是通过高质量的内容和实践经验分享,帮助用户掌握AI技术,一起挖掘AI的无限潜能。无论您是AI初学者还是资深专家,这里都是您获取知识、提升技能、实现创新的理想之地。

联系我们
zh_CN简体中文