Эксперимент: преобразование содержимого сайта WordPress в "базу знаний" помощника ИИ

Практические уроки по искусственному интеллектуОбновлено 1 год назад Круг обмена ИИ

45.8K 00

фактор (ведущий эффект)

Главный кружок по обмену ИИ собрал большое количество "практических команд" и различных "инструментов ИИ", которые можно найти на сайте, введяпо словуПоиск по сайту не смог найти нужный ресурс. На сайте представлено множество отличныхИнструменты для создания видеоНевозможность быть найденным - это невыносимо.

Не имея возможности создать свой сайт, мы можем полагаться на внешние функции поиска:

Полагаться на то, что поисковая система использует метод "поиск по сайту" для решения этой проблемы, кажется несколько громоздким, а контент не входит в целое:

Или просто наберите: site:aisharenet.com SEO

Конечно, у меня нет возможности напрямую преобразовывать содержимое сайта в семантический поиск и предоставлять хороший интерфейс для его использования, поэтому проблема сосредоточена на:

Как преобразовать содержимое веб-сайта в легкодоступную базу знаний.

контент-анализ

Инструменты искусственного интеллекта и инструкции по их использованию в области заголовка в основном четко описывают их содержательные особенности, в то время как область содержания, хотя и представлена более подробно, может показаться, чтоперебоитекст, что влияет на качество поиска. Кроме того, в контенте есть изображения, которые я хотел бы попытаться предоставить читателям для предварительного просмотра.

Примеры содержания инструментов искусственного интеллекта

Пример использования содержимого команды

Размышления о стратегиях поиска

1. Заголовок и содержание смешиваются как целый абзац для участия в семантическом поиске

Плюсы: Полное содержание

Минусы: Слишком большое количество контента приводит к неточному поиску

2. Извлеките только название, а затем цитируйте знания о содержании, основанные на названии.

Преимущество: точный поиск

Минусы: Уменьшение объема эффективного поиска

3. Введите название и содержание в большую модель, чтобы разделить ее на пары QA

Преимущество: Значительно увеличивает дальность эффективного поиска

Недостатки: более высокая стоимость обработки и временные затраты; важное содержание и структура оригинального текста будут утрачены

PS: не нужно никакого опыта разработки, вы можете развернуть проект DIFY пакетной генерации QA пар, не демонстрируемый здесь.

4. Картирование знаний

Содержание не подходит, игнорируйте.

Я собираюсь полагаться на свободные и открытые платформы для редактирования интеллекта, которые также не поддерживают графы знаний.

Селективный поиск2 прост и эффективен. Хотя эффективный диапазон поиска уменьшается, его можно постепенно оптимизировать с помощью непрерывных итераций.
Субъекту контента также не нужно принимать участие в поиске, если он следует семантике для полученияНадписьЭто уменьшает количество исключений, генерируемых большой моделью при работе с длинными контекстами, а возврат URL-адреса обеспечивает более полное чтение.

Носитель поискового инструмента

Какая трехсторонняя платформа используется для реализации семантического поиска?

На рынке существует множество бесплатных платформ, поддерживающих базы знаний, таких как MetaBase, Smart Spectrum, Buckle и Wenshin. Здесь я собираюсь выбрать платформу, которая поддерживает импорт пар QA для поиска.

Получение пар QA: возврат ответа B, соответствующего вопросу A, путем возврата вопроса A в большую модель, и использование B в качестве справочного контента для ответа на вопрос пользователя.

Какая платформа лучше, какое семантическое понимание лучше, здесь не рассматривается, их базовая производительность в основном считается на уровне.

Где пользователи используют его?

Главный толчок - публичный, поэтому он позволяет пользователям искать в открытом доступе.

Smart Spectrum хорош, но я выбираю Wenxin Intelligent Body, в котором есть более четкие операционные инструкции по работе с правилами QA. В то же время Wenshin Intelligent Body можно опубликовать в Baidu для привлечения клиентов. Рекомендуем прочитать:Портал "Убийственный трафик": использование интеллектуального тела AI для получения внешнего трафика для веб-сайтов и публичных номеров в долгосрочной перспективе

Самоучитель по эксплуатации

1. Экспорт XML-файлов из WordPress

2.преобразование XML в формат MD

2.1 Нажмите здесь, чтобы загрузитьпроект blog2md(математика) родРазархивируйте в каталог D:\222\blog2md

2.2 Откройте терминал SHELL, нажав правую кнопку мыши в начале каталога blog2md.

2.3 Скорее всего, вам нужно установить зависимости, введите следующую команду

安装命令：
npm install xml2js
验证命令：
npm list xml2js

2.4 Назовите экспортированный XML-файл 111.xml, поместите его в каталог D:\222\blog2md и выполните следующую команду

node index.js w 111.xml out

2.5 На этом этапе будет создан каталог D:\222\blog2md\out, и вы сможете проверить правильность сгенерированного содержимого после его ввода.

3.MD Преобразование формата EXCEL

Сетка содержимого md структурирована, поэтому ее удобно извлекать, здесь я пишу регулярку на chatgpt и выполняю ее на python.

Я хочу извлечь: имя файла (имя файла - это URL, например, https://aisharenet.com/anse/), заголовок, область содержимого (--- содержимое ниже).

3.1 После выполнения сценария python в текущем каталоге создается файл output.xlsx.

Содержание сценария:

Сохраните файл скрипта и дайте ему имя: 111.py, поместите скрипт в любую директорию, здесь я поместил его в D:\222\blog2md.

Выполнить из командной строки (командная строка по умолчанию не может выполнить 111.pt напрямую, вы должны добавить префикс . \ префикс)

.\111.py

Код файла скрипта выглядит следующим образом, сохраните его под именем 111.py (сгенерирован CHATGPT).

Каталог для чтения md-файлов: folder_path = "D:\\222\\blog2md\\\out"
Создайте EXCEL в текущем каталоге: output_file = "output.xlsx".

import os
import pandas as pd
import re
import html
def clean_content(content):
# 移除 Markdown 语法中的特殊字符
content = re.sub(r'[*_~`#]', '', content)
# 将 HTML 实体转换为对应字符
content = html.unescape(content)
# 移除可能导致 Excel 问题的字符
content = ''.join(char for char in content if ord(char) < 65536)
# 替换换行符为空格
content = content.replace('\n', ' ').replace('\r', '')
# 移除多余的空格
content = re.sub(r'\s+', ' ', content).strip()
return content
def md_to_excel(folder_path, output_file):
data = []
for filename in os.listdir(folder_path):
if filename.endswith(".md"):
file_path = os.path.join(folder_path, filename)
try:
with open(file_path, "r", encoding="utf-8") as file:
content = file.read()
# 使用正则表达式提取元数据
metadata_pattern = r"---\n(.*?)\n---"
metadata_match = re.search(metadata_pattern, content, re.DOTALL)
if metadata_match:
metadata = metadata_match.group(1)
title = re.search(r"title:\s*['\"](.*?)['\"]", metadata)
title = title.group(1) if title else ""
# 提取内容部分
content_pattern = r"---\n.*?\n---\n\n(.*)"
content_match = re.search(content_pattern, content, re.DOTALL)
text_content = content_match.group(1) if content_match else ""
# 清理内容
cleaned_content = clean_content(text_content)
# 获取文件名（不包含.md后缀）作为URL
url = os.path.splitext(filename)[0]
data.append({
"title": title,
"content": cleaned_content,
"url": url
})
except Exception as e:
print(f"Error processing file {filename}: {str(e)}")
# 将数据转换为DataFrame并保存为Excel文件
df = pd.DataFrame(data)
try:
df.to_excel(output_file, index=False, engine='openpyxl')
print(f"Successfully saved to {output_file}")
except Exception as e:
print(f"Error saving Excel file: {str(e)}")
# 尝试使用 CSV 格式保存
csv_file = output_file.rsplit('.', 1)[0] + '.csv'
df.to_csv(csv_file, index=False, encoding='utf-8-sig')
print(f"Saved as CSV instead: {csv_file}")
# 指定Markdown文件所在的目录和输出的Excel文件路径
folder_path = "D:\\222\\blog2md\\out"
output_file = "output.xlsx"
# 调用函数进行转换
md_to_excel(folder_path, output_file)

3.2 Составьте файл output.xlsx в виде базы знаний для загрузки

Здесь сохраняется только заголовок, а полный URL-адрес вырезается.

4. База знаний, загруженная интеллектуальным телом Manxim

4.1 Получение доступа к программе Literacy Mind Intelligence Body и загрузка базы знаний

4.2 Загрузка файлов EXCEL

4.3 Настраиваемые колонки поиска (это причина использования Wenshin Intelligence, другие инструменты не имеют такого интерфейса)

Другие советы по организации базы знаний читайте далее:Литературный самоучитель по интеллектуальному телу: (4) Обработка документов и синхронизация с базой знаний

5. создайте интеллект и опубликуйте его для использования

5.1 Создание интеллигенции

Здесь мы просто настроим его, не вдаваясь в подробности. Начинаем создавать интеллекты...

Вы можете попробовать использовать режим low-code для создания интеллектуальных тел, добавив несколько баз знаний суждения логики, в конце концов, сайт имеет много каналов Ну, я не буду демонстрировать здесь, заинтересованные в low-code друзья могут прочитать:Самоучитель интеллектуального тела Вэньсиня: (V) Хореография рабочих процессов интеллектуального тела

5.2 Настройка Intelligentsia

Отключите функции, не относящиеся к Базе знаний, чтобы избежать аномалий, а остальные настройки я оставлю по умолчанию без тонкой настройки.

Процент попадания в базу знаний должен быть проверен на короткое время, иначе можно легко получить нерелевантный контент.

5.3 Отладка и предварительный просмотр вывода

5.4 Издательская интеллигенция

окончательный

В итоге вы получаете интеллектуальное тело, которое может быстро находить инструменты искусственного интеллекта в открытом доступе, и все это бесплатно! Между тем, судя по каналу распространения Wenxin Smartbody ( Платформа Wenxin Intelligent Body: интеллектуальные приложения для тела, созданные на основе полных каналов дистрибуции и коммерческих закрытий ), этот инструмент будет выпущен на домашней странице Baidu, чтобы предоставить пользователям доступ.

Практические уроки по искусственному интеллекту

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.