Эксперимент: преобразование содержимого сайта WordPress в "базу знаний" помощника ИИ

фактор (ведущий эффект)

Главный кружок по обмену ИИ собрал большое количество "практических команд" и различных "инструментов ИИ", которые можно найти на сайте, введяпо словуПоиск по сайту не смог найти нужный ресурс. На сайте представлено множество отличныхИнструменты для создания видеоНевозможность быть найденным - это невыносимо.

实验:将WordPress全站内容转换为AI助手的

 

Не имея возможности создать свой сайт, мы можем полагаться на внешние функции поиска:

Полагаться на то, что поисковая система использует метод "поиск по сайту" для решения этой проблемы, кажется несколько громоздким, а контент не входит в целое:

实验:将WordPress全站内容转换为AI助手的

Или просто наберите: site:aisharenet.com SEO

 

Конечно, у меня нет возможности напрямую преобразовывать содержимое сайта в семантический поиск и предоставлять хороший интерфейс для его использования, поэтому проблема сосредоточена на:

Как преобразовать содержимое веб-сайта в легкодоступную базу знаний.

 

 

контент-анализ

Инструменты искусственного интеллекта и инструкции по их использованию в области заголовка в основном четко описывают их содержательные особенности, в то время как область содержания, хотя и представлена более подробно, может показаться, чтоперебоитекст, что влияет на качество поиска. Кроме того, в контенте есть изображения, которые я хотел бы попытаться предоставить читателям для предварительного просмотра.

 

Примеры содержания инструментов искусственного интеллекта

实验:将WordPress全站内容转换为AI助手的

Пример использования содержимого команды

实验:将WordPress全站内容转换为AI助手的

 

 

Размышления о стратегиях поиска

 

1. Заголовок и содержание смешиваются как целый абзац для участия в семантическом поиске

Плюсы: Полное содержание

Минусы: Слишком большое количество контента приводит к неточному поиску

 

2. Извлеките только название, а затем цитируйте знания о содержании, основанные на названии.

Преимущество: точный поиск

Минусы: Уменьшение объема эффективного поиска

 

3. Введите название и содержание в большую модель, чтобы разделить ее на пары QA

Преимущество: Значительно увеличивает дальность эффективного поиска

Недостатки: более высокая стоимость обработки и временные затраты; важное содержание и структура оригинального текста будут утрачены

PS: не нужно никакого опыта разработки, вы можете развернуть проект DIFY пакетной генерации QA пар, не демонстрируемый здесь.

 

4. Картирование знаний

Содержание не подходит, игнорируйте.

Я собираюсь полагаться на свободные и открытые платформы для редактирования интеллекта, которые также не поддерживают графы знаний.

 

Селективный поиск2 прост и эффективен. Хотя эффективный диапазон поиска уменьшается, его можно постепенно оптимизировать с помощью непрерывных итераций.

Субъекту контента также не нужно принимать участие в поиске, если он следует семантике для полученияНадписьЭто уменьшает количество исключений, генерируемых большой моделью при работе с длинными контекстами, а возврат URL-адреса обеспечивает более полное чтение.

 

 

Носитель поискового инструмента

 

Какая трехсторонняя платформа используется для реализации семантического поиска?

На рынке существует множество бесплатных платформ, поддерживающих базы знаний, таких как MetaBase, Smart Spectrum, Buckle и Wenshin. Здесь я собираюсь выбрать платформу, которая поддерживает импорт пар QA для поиска.

Получение пар QA: возврат ответа B, соответствующего вопросу A, путем возврата вопроса A в большую модель, и использование B в качестве справочного контента для ответа на вопрос пользователя.

Какая платформа лучше, какое семантическое понимание лучше, здесь не рассматривается, их базовая производительность в основном считается на уровне.

 

Где пользователи используют его?

Главный толчок - публичный, поэтому он позволяет пользователям искать в открытом доступе.

 

Smart Spectrum хорош, но я выбираю Wenxin Intelligent Body, в котором есть более четкие операционные инструкции по работе с правилами QA. В то же время Wenshin Intelligent Body можно опубликовать в Baidu для привлечения клиентов. Рекомендуем прочитать:Портал "Убийственный трафик": использование интеллектуального тела AI для получения внешнего трафика для веб-сайтов и публичных номеров в долгосрочной перспективе

 

 

Самоучитель по эксплуатации

 

1. Экспорт XML-файлов из WordPress

实验:将WordPress全站内容转换为AI助手的

 

2.преобразование XML в формат MD

 

2.1 Нажмите здесь, чтобы загрузитьпроект blog2md(математика) родРазархивируйте в каталог D:\222\blog2md

 

2.2 Откройте терминал SHELL, нажав правую кнопку мыши в начале каталога blog2md.

实验:将WordPress全站内容转换为AI助手的

 

2.3 Скорее всего, вам нужно установить зависимости, введите следующую команду

安装命令:
npm install xml2js
验证命令:
npm list xml2js

 

2.4 Назовите экспортированный XML-файл 111.xml, поместите его в каталог D:\222\blog2md и выполните следующую команду

node index.js w 111.xml out

 

2.5 На этом этапе будет создан каталог D:\222\blog2md\out, и вы сможете проверить правильность сгенерированного содержимого после его ввода.

 

实验:将WordPress全站内容转换为AI助手的

 

实验:将WordPress全站内容转换为AI助手的

 

3.MD Преобразование формата EXCEL

Сетка содержимого md структурирована, поэтому ее удобно извлекать, здесь я пишу регулярку на chatgpt и выполняю ее на python.

Я хочу извлечь: имя файла (имя файла - это URL, например, https://aisharenet.com/anse/), заголовок, область содержимого (--- содержимое ниже).

 

3.1 После выполнения сценария python в текущем каталоге создается файл output.xlsx.

实验:将WordPress全站内容转换为AI助手的

 

Содержание сценария:

Сохраните файл скрипта и дайте ему имя: 111.py, поместите скрипт в любую директорию, здесь я поместил его в D:\222\blog2md.

Выполнить из командной строки (командная строка по умолчанию не может выполнить 111.pt напрямую, вы должны добавить префикс . \ префикс)

.\111.py

 

Код файла скрипта выглядит следующим образом, сохраните его под именем 111.py (сгенерирован CHATGPT).

Каталог для чтения md-файлов: folder_path = "D:\\222\\blog2md\\\out"

Создайте EXCEL в текущем каталоге: output_file = "output.xlsx".

import os
import pandas as pd
import re
import html
def clean_content(content):
# 移除 Markdown 语法中的特殊字符
content = re.sub(r'[*_~`#]', '', content)
# 将 HTML 实体转换为对应字符
content = html.unescape(content)
# 移除可能导致 Excel 问题的字符
content = ''.join(char for char in content if ord(char) < 65536)
# 替换换行符为空格
content = content.replace('\n', ' ').replace('\r', '')
# 移除多余的空格
content = re.sub(r'\s+', ' ', content).strip()
return content
def md_to_excel(folder_path, output_file):
data = []
for filename in os.listdir(folder_path):
if filename.endswith(".md"):
file_path = os.path.join(folder_path, filename)
try:
with open(file_path, "r", encoding="utf-8") as file:
content = file.read()
# 使用正则表达式提取元数据
metadata_pattern = r"---\n(.*?)\n---"
metadata_match = re.search(metadata_pattern, content, re.DOTALL)
if metadata_match:
metadata = metadata_match.group(1)
title = re.search(r"title:\s*['\"](.*?)['\"]", metadata)
title = title.group(1) if title else ""
# 提取内容部分
content_pattern = r"---\n.*?\n---\n\n(.*)"
content_match = re.search(content_pattern, content, re.DOTALL)
text_content = content_match.group(1) if content_match else ""
# 清理内容
cleaned_content = clean_content(text_content)
# 获取文件名(不包含.md后缀)作为URL
url = os.path.splitext(filename)[0]
data.append({
"title": title,
"content": cleaned_content,
"url": url
})
except Exception as e:
print(f"Error processing file {filename}: {str(e)}")
# 将数据转换为DataFrame并保存为Excel文件
df = pd.DataFrame(data)
try:
df.to_excel(output_file, index=False, engine='openpyxl')
print(f"Successfully saved to {output_file}")
except Exception as e:
print(f"Error saving Excel file: {str(e)}")
# 尝试使用 CSV 格式保存
csv_file = output_file.rsplit('.', 1)[0] + '.csv'
df.to_csv(csv_file, index=False, encoding='utf-8-sig')
print(f"Saved as CSV instead: {csv_file}")
# 指定Markdown文件所在的目录和输出的Excel文件路径
folder_path = "D:\\222\\blog2md\\out"
output_file = "output.xlsx"
# 调用函数进行转换
md_to_excel(folder_path, output_file)


3.2 Составьте файл output.xlsx в виде базы знаний для загрузки

Здесь сохраняется только заголовок, а полный URL-адрес вырезается.

实验:将WordPress全站内容转换为AI助手的

 

4. База знаний, загруженная интеллектуальным телом Manxim

 

4.1 Получение доступа к программе Literacy Mind Intelligence Body и загрузка базы знаний

实验:将WordPress全站内容转换为AI助手的

 

4.2 Загрузка файлов EXCEL

实验:将WordPress全站内容转换为AI助手的

 

4.3 Настраиваемые колонки поиска (это причина использования Wenshin Intelligence, другие инструменты не имеют такого интерфейса)

实验:将WordPress全站内容转换为AI助手的

 

Другие советы по организации базы знаний читайте далее:Литературный самоучитель по интеллектуальному телу: (4) Обработка документов и синхронизация с базой знаний

 

5. создайте интеллект и опубликуйте его для использования

 

5.1 Создание интеллигенции

Здесь мы просто настроим его, не вдаваясь в подробности. Начинаем создавать интеллекты...

Вы можете попробовать использовать режим low-code для создания интеллектуальных тел, добавив несколько баз знаний суждения логики, в конце концов, сайт имеет много каналов Ну, я не буду демонстрировать здесь, заинтересованные в low-code друзья могут прочитать:Самоучитель интеллектуального тела Вэньсиня: (V) Хореография рабочих процессов интеллектуального тела

实验:将WordPress全站内容转换为AI助手的

 

5.2 Настройка Intelligentsia

Отключите функции, не относящиеся к Базе знаний, чтобы избежать аномалий, а остальные настройки я оставлю по умолчанию без тонкой настройки.

实验:将WordPress全站内容转换为AI助手的

 

Процент попадания в базу знаний должен быть проверен на короткое время, иначе можно легко получить нерелевантный контент.

实验:将WordPress全站内容转换为AI助手的

 

5.3 Отладка и предварительный просмотр вывода

实验:将WordPress全站内容转换为AI助手的

 

5.4 Издательская интеллигенция

实验:将WordPress全站内容转换为AI助手的

 

окончательный

В итоге вы получаете интеллектуальное тело, которое может быстро находить инструменты искусственного интеллекта в открытом доступе, и все это бесплатно! Между тем, судя по каналу распространения Wenxin Smartbody ( Платформа Wenxin Intelligent Body: интеллектуальные приложения для тела, созданные на основе полных каналов дистрибуции и коммерческих закрытий ), этот инструмент будет выпущен на домашней странице Baidu, чтобы предоставить пользователям доступ.

© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...