Литературный самоучитель по интеллектуальному телу: (4) Обработка документов и синхронизация с базой знаний

Введение в базу знаний

База знаний является основой данных для выходных ответов интеллектуального тела и подходит для разработчиков с профессиональным накоплением данных, а также для тех, кто предъявляет требования к точности и профессионализму выходных результатов.
Загрузите собственные данные в модуль базы знаний, большую модель и процесс взаимодействия с пользователем, в соответствии с базой знаний извлекается аналогичный контент, большая модель затрагивается для генерации результатов, вы можете эффективно ограничить область генерации модели.
Wenxin Intelligent Body Platform полностью уважает и защищает безопасность ваших собственных данных, и не будет использовать предоставленные данные для обучения или улучшения больших моделей общего назначения, а также не открывает возможности обучения собственных моделей на данный момент.

文心智能体教程:(四)加工文档并同步到知识库

 

1. Сценарий использования

  • Развитие интеллекта по нулевому коду с отсылкой к базам знаний и ограниченным поиском;
  • Обращение к базе знаний при развитии интеллекта в низком коде;
  • Цитируйте базу знаний и быстро разрабатывайте плагины для работы с данными.

2. Портал базы знаний

Вход 1: После входа в платформу нажмите на левую навигацию, чтобы перейти к модулю "База знаний".

文心智能体教程:(四)加工文档并同步到知识库

Вход 2: Чтобы разработать интеллект с нулевым кодом, на странице "Создать интеллект" нажмите "Новая база знаний", чтобы добавить данные;

文心智能体教程:(四)加工文档并同步到知识库文心智能体教程:(四)加工文档并同步到知识库

Вступление 3: Низкокодовая разработка интеллекта, на странице визуального расположения перетащите комплект базы знаний, нажмите "Новая база знаний", чтобы ввести модуль базы знаний;

文心智能体教程:(四)加工文档并同步到知识库

Вход 4: Чтобы разработать плагин данных, на странице Edit Plugin нажмите "New Knowledge Base", чтобы перейти к модулю Knowledge Base.

文心智能体教程:(四)加工文档并同步到知识库

 

3. создание базы знаний

 

Шаг 1: Загрузите данные.

Существует 3 способа загрузки данных базы знаний: ①загрузка локальных файлов, ②загрузка веб-адреса, ③ импорт Baidu.com.hk. 1 аккаунт может создать 100 баз знаний, общий объем всех баз знаний не может быть более 1 Гб, 1 база знаний может быть добавлена к 100 файлам или URL, а общий объем не может превышать 200 М.

① Локальные файлы

  • В настоящее время поддерживаются только типы текста и изображений, включая txt, md, docx, pdf, xlsx, csv, png, jpg, jpeg, m4a, mp3, mp4, mov, mpeg.Поддерживается только загрузка видео, распознавание видеоконтента пока не поддерживается.
тип данныхпрозвищеИнструкции по загрузке
копиитекстРазмер файла не более 50M
мдРазмер файла не более 50M
docxРазмер файла не более 50M
Графика пока не поддерживается, изображения в файле будут отфильтрованы, и сохранится только текст.
pdfРазмер файла не более 50M
Графика пока не поддерживается, изображения в файле будут отфильтрованы, и сохранится только текст.
Поддерживается сканирование документов объемом до 50 страниц.
xlsxРазмер файла не более 50M
Рекомендуется загружать файлы данных в формате xlsx. Обратите внимание, что для того, чтобы модель могла понять смысл данных после разбиения файла в формате xlsx и выполнить более точный запрос данных и статистики, загружаемый xlsx должен содержать заголовки таблиц.
csvРазмер файла не более 50M
фотографияpng30px ≤ длина стороны ≤ 4096px, в соотношении 3:1, размер не должен превышать 20M.
В одну базу знаний можно загрузить до 500 изображений
Более точные результаты распознавания, когда на изображении присутствуют физические предметы
jpg30px ≤ длина стороны ≤ 4096px, в соотношении 3:1, размер не должен превышать 20M.
Для одного набора базы знаний можно загрузить до 500 изображений
Более точные результаты распознавания, когда на изображении присутствуют физические предметы
jpeg30px ≤ длина стороны ≤ 4096px, в соотношении 3:1, размер не должен превышать 20M.
В одну базу знаний можно загрузить до 500 изображений
Более точные результаты распознавания, когда на изображении присутствуют физические предметы
частота звукаm4aРазмер файла не более 50M
Преобразование звука в текст с помощью интеллектуального распознавания
mp3Размер файла не более 50M
Преобразование звука в текст с помощью интеллектуального распознавания
видеоmp4Размер файла не более 200M
Преобразование видео в текст с помощью интеллектуального распознавания
movРазмер файла не более 200M
Преобразование видео в текст с помощью интеллектуального распознавания
mpegРазмер файла не более 200M
Преобразование видео в текст с помощью интеллектуального распознавания

 

文心智能体教程:(四)加工文档并同步到知识库

 

② Представление веб-сайта

  • После ввода адреса веб-страницы нажмите кнопку "Идентифицировать", чтобы определить текстовые данные на веб-странице; он поддерживает только идентификацию адреса веб-страницы, которая находится в открытом доступе и была проиндексирована Baidu, если вам нужно войти в систему и получить доступ к ней, или если вы не авторизованы для индексации Baidu, он не сможет определить адрес веб-страницы.
  • Вы можете установить частоту обновления базы знаний путем автоматического распознавания в соответствии с частотой обновления веб-страниц.

③Baidu.com Импорт

  • В первый раз вам необходимо авторизовать данные учетной записи Baidu.com, и после успешной авторизации вы сможете выбирать файлы в нетбуке.
  • Время импорта нетбука ограничено скоростью загрузки файлов нетбука, если время длится долго, вы можете выбрать фоновую обработку.
文心智能体教程:(四)加工文档并同步到知识库

 

Шаг 2: Обработка данных.

Поскольку на данном этапе большая модель имеет строгие ограничения на количество вводимых и выводимых символов, а база знаний также является своего рода входным контентом, который также должен следовать ограничениям большой модели на количество вводимых символов, цель сегментации текста - разрезать длинный текст на короткие абзацы, удалить нерелевантную информацию и ввести наиболее релевантный контент, при этом необходимо обеспечить, чтобы количество вводимых символов не превышало установленного предела. Для того чтобы большая модель могла более точно понимать содержимое картинок, она будет сначала вызывать модель для интеллектуального аннотирования содержимого картинок. В настоящее время в большую модель можно ввести 2~3 параграфа базы знаний, а релевантный контент должен быть разделен на 3 параграфа или меньше, насколько это возможно.

  • Сегментация текста: Платформа предоставляет "сегментацию по умолчанию" и "пользовательскую сегментацию" для поддержки разработчиков в разрезании длинного текста на множество сегментов текстового содержания с помощью текста, знаков препинания, пробела, возврата каретки и т. д., чтобы модель могла более точно понять текстовое содержание. При обработке сегментации гарантируется, что максимальное количество символов сегментации будет вырезано в соответствии с заданным методом сегментации.

Романы, обслуживание клиентов и другие сценарии содержания вопросов и ответов, данных и другого контента, как настроить сегменты см. как настроить сегменты файлов (с примерами)

文心智能体教程:(四)加工文档并同步到知识库
  • Настройка формы: Заголовок таблицы в файле формы будет использоваться в качестве ключевой информации для понимания содержимого таблицы большой моделью. По умолчанию в качестве заголовка таблицы будет установлена 1-я строка таблицы, также может поддерживаться пользовательская маркировка заголовка таблицы в соответствии с реальной структурой таблицы.
文心智能体教程:(四)加工文档并同步到知识库
  • Настройки мультимедиа: По умолчанию вызывается большая модель изображения, аудиоконтента для интеллектуального распознавания, а также генерируется текстовая аннотация, помогающая извлечь ссылку на изображение, аудиопонимание, а также более точное извлечение отзыва. Если сгенерированная аннотация неверна, можно вручную изменить неправильный контент.Следите за новостями о возможностях распознавания видео, которые появятся в ближайшее время!
文心智能体教程:(四)加工文档并同步到知识库

4. Использование базы знаний

Способ 1: разработка интеллектов с нулевым кодом. На странице "Создание органа интеллекта" выберите "База знаний". Вы можете наблюдать за вызовом базы знаний и оптимизировать эффект отзыва при извлечении базы знаний, отладив параметры извлечения. Подробнее см. в разделе: Общие вопросы контроля вызова базы знаний

文心智能体教程:(四)加工文档并同步到知识库

Способ 2: Разработка интеллекта с низким кодом, на странице визуальной оркестровки перетащите набор баз знаний, чтобы выбрать созданную базу знаний.

文心智能体教程:(四)加工文档并同步到知识库

Способ 3: Разработать плагин данных и выбрать созданную базу знаний.

文心智能体教程:(四)加工文档并同步到知识库

 

 

Как настроить сегментацию документов (с примерами)

 

1. Когда необходимо изменить сегмент документа?

  1. Структурированные данные
  2. Вывод Smartbody или плагина приводит к успешным обращениям к базе знаний, но содержит слишком много нерелевантной информации

 

2. Как настроить сегментацию файлов

Цель обработки сегментации данных - разрезать длинный текст на короткие абзацы, удалив из полученного контента как можно больше нерелевантной информации, чтобы он мог быть обработан и понят моделью более эффективно.

Платформа Wenxin Intelligent Body Platform обеспечивает сегментацию по умолчанию и пользовательскую сегментацию. Для разных типов документов необходимо переключать различные конфигурации сегментации.

  • Maximum Segment Characters: максимальное количество символов в абзаце после вырезания длинного текста, вместо количества символов в каждом абзаце вы можете ввести любое число от 50 до 512;
文心智能体教程:(四)加工文档并同步到知识库
  • Символы перекрытия абзацев: максимальное количество повторяющихся символов в начале каждого сегмента и в конце предыдущего сегмента, вы можете ввести любое число от 0 до 500, обратите внимание, что количество перекрывающихся символов должно быть меньше, чем максимальное количество символов абзаца, чтобы максимально сохранить оригинальную семантику вырезанных сегментов, избежать неполного выражения из-за сегментации и помочь модели понять более точно и полно;
文心智能体教程:(四)加工文档并同步到知识库
  • Режим сегментации: символы сегментации для резки длинного текста, вы можете выбрать общепринятые символы сегментации или ввести любые символы, при резке текста позиция резки будет выбрана в соответствии с сортировкой символов сегментации.
文心智能体教程:(四)加工文档并同步到知识库

Примечание: Количество сегментов одной базы знаний не может превышать 700, поэтому устанавливайте их разумно.

 

3. сегментированные случаи

Пример 1: Сегментация содержимого длинного текста

Область применения: кейсы применимы к романам, электронным книгам, текстам, введениям компаний, диссертациям, патентным документам и т. д., где требуется, чтобы модель понимала семантику в контексте длинного текстового содержания.

Пример файла:Человек в костюме.docx

Сегментированные мысли:

Рекомендуемая сегментация по умолчаниюКонкретные результаты сегментации можно посмотреть, загрузив файл примера и создав базу знаний.
- Максимальное количество символов абзаца: длинные абзацы текстового контента обычно длиннее, и есть некоторые отношения между абзацами и параграфами, поэтому максимальное количество символов абзаца может быть установлено немного больше, старайтесь, чтобы абзац содержал полную семантику, модель может быть лучше и точнее понять.
- Символы перекрытия абзацев: когда абзацы нужно понимать в контексте, символы перекрытия абзацев можно заполнять по мере необходимости, чтобы релевантный контент между контекстами отображался в одном абзаце.
- Сегментация: сегментация по умолчанию символов сегментации в основном содержит большую часть сегментации текста, такие как результаты сегментации не подходят, вы можете просмотреть документ, подходящий для резки расположение символов, выберите или введите, чтобы добавить символы сегментации, будет в соответствии с порядком символов сегментации, чтобы выбрать разрез.

Идеи для последующей оптимизации: старайтесь, чтобы текст с одинаковой семантикой был сокращен в одном абзацеЕсли абзац не может быть разделен на один абзац из-за ограничения количества символов в абзаце, корреляция между абзацами может быть осуществлена через перекрывающиеся символы абзацев, так что модель может увеличить вероятность быть извлеченной одновременно при извлечении и всесторонне понять результаты вывода.

Результаты поиска моделей:

文心智能体教程:(四)加工文档并同步到知识库Выходной сигнал поиска модели:

文心智能体教程:(四)加工文档并同步到知识库

 

Пример 2: Структурная сегментация содержимого

Сфера применения: кейс применяется к записям чата службы поддержки клиентов, разговорам о продажах и другим сценариям вопросов и ответов, текстовым формам и т.д. естьСодержание отличительных структурных особенностейПотребность в моделяхПонимание семантики содержимого в структуре.

Пример файла:Wenxin Intelligent Body Platform FAQ.docx

Сегментированные мысли:

Рекомендуется использовать пользовательскую сегментацию, чтобы попытаться обеспечить одинаковую структуру в тексте, разрезанном на абзацыКонкретные результаты сегментации можно посмотреть, загрузив файл примера и создав базу знаний.
Максимальное количество символов абзаца: Сначала посмотрите на структуру оригинального текста, среднее количество символов в каждой структуре составляет сколько, максимальное количество символов будет установлено на сколько абзацев, возможно, выберите несколько репрезентативных абзацев для расчета среднего количества символов. Например, образец документа представляет собой вопросно-ответную структуру, в нем 2 абзаца, среднее количество знаков составляет 340 знаков, максимальное количество знаков абзаца установлено на 340 знаков.
знак наложения параграфаЕсли абзацы не могут быть разделены на один абзац из-за ограничения количества символов, перекрывающиеся символы могут быть использованы для объединения абзацев, чтобы увеличить вероятность извлечения модели при одновременном извлечении комплексного понимания результатов вывода.
сегментация: документ более отличительной структуры, каждая группа вопросов и ответов обозначены "вопрос", "ответ", и мы надеемся, что в соответствии со структурой вопрос и ответ сегментации, вы можете "спросить" в качестве символа сегментации, и в "вопрос" символ до сегментации, вы можете получить вопрос и ответ структуры результатов сегментации.

Результаты поиска моделей:

文心智能体教程:(四)加工文档并同步到知识库Выходной сигнал поиска модели:

文心智能体教程:(四)加工文档并同步到知识库

Пример 3: Сегментация содержимого класса данных Excel

Сфера применения: дела применяются к конкретнымЗапрос данных, категория статистики данныхкласса данных таблицы Excel, строка за строкой, без какой-либо корреляции, кроме статистической.

Пример файла:Данные о кассовых сборах фильмов на 2023 год.xlsx

Сегментированные мысли:

Если требуется статистический анализ, то данные, которые необходимо рассчитать, следует разделить на 1~3 сегмента, насколько это возможно (текущая модель ограничивает базу знаний максимум 2000 символами), и постараться обеспечить полноту исходных данных, вводимых в модель, чтобы конечные статистические результаты имели высокий коэффициент корректности;

Рекомендуется использовать пользовательские сегменты, чтобы попытаться обеспечить целостность исходных данных, введенных в модель, чтобы итоговая статистика была корректнойКонкретные результаты сегментации можно просмотреть, загрузив файл примера и создав базу знаний.
- Максимальное количество символов абзаца: Чтобы обеспечить целостность найденных абзацев, необходимо установить максимальное количество символов абзаца, не превышающее 512 символов.
- Символы перекрытия абзацев: чтобы уменьшить количество символов в абзаце, занимаемых перекрывающимися символами, необходимо установить значение параметра Символ перекрытия абзацев равным нулю.
- Сегментация: данные табличного типа могут быть вырезаны непосредственно по строке, режим сегментации выберите "подача строки".

Последующая оптимизация идей сегментации: Если модель ограничивает базу знаний максимум 2 000 символов, то вычисляемые данные следует по возможности разделить на 1-3 абзаца. Для больших статистических данных рекомендуется загружать электронную таблицу Excel с не более чем 2 столбцами, чтобы все данные, необходимые для статистики, были включены в 3 абзаца, введенные в модель.

Результаты поиска моделей:

文心智能体教程:(四)加工文档并同步到知识库Нанесение изменений на результаты вывода:

文心智能体教程:(四)加工文档并同步到知识库

Внимание:

  1. Заголовки таблиц важны для поиска сегментированных результатовЭто ключевая информация для понимания данных моделью, поэтому заголовок таблицы данных должен иметь четкую семантику и стараться не использовать нестандартные слова, которые модель не сможет понять.
  2. Для плагинов или интеллектов, которые нуждаются в статистическом анализе, необходимо добавить плагины или интеллекты вКомандные подсказки с подробным описанием этапов расчета могут повысить точность статистических результатов модели.

 

 

База знаний вызывает общий QA

Q1: При предварительном просмотре эффекта от вызова базы знаний появляются сообщения "Исключение системы" и "Исключение службы", как мне с этим справиться?
A: Извините, что повлиял на ваш опыт, "исключение системы", "исключение службы" является лишь случайной ситуацией, вы можете попробовать обновить после подсказки, выйти из текущей страницы, чтобы повторно посетить, очистить кэш и другие способы повторной попытки, вы можете возобновить использование.

Q2: Что делать, если моя база знаний не отзывается?
A: Может оказаться, что в базе знаний нет ничего, что имело бы отношение к вопросу.Страница управления базой знанийПроверьте, есть ли релевантный контент. Если релевантного контента нет, базу знаний можно пополнить в соответствии с вопросом; если релевантный контент есть, но он не вспоминается, его можно перенести в Q3.

Q3: У меня есть соответствующий контент в базе знаний, но я постоянно получаю сообщение "Не найдена соответствующая база знаний", как мне вызвать свою базу знаний?
A: Это можно решить следующим образом.
Во-первых, вы можете ввестиСтраница управления базой знанийЕсли есть семантические проблемы, контент можно сначала отредактировать, чтобы оптимизировать семантические проблемы;

文心智能体教程:(四)加工文档并同步到知识库

Во-вторых, эффект отзыва можно отладить, снизив [порог релевантности поиска] с помощью функции настройки отзыва в базе знаний.Примечание: [Retrieve Relevance Threshold] будет действовать глобально для текущего умного тела, необходимо интегрировать большинство сценариев спроса, чтобы сделать конфигурацию, например, нужно только оптимизировать отдельные случаи проблемы, вы можете представить идеальный ответ через [Feedback], чтобы изменить модель для генерации ответа.

文心智能体教程:(四)加工文档并同步到知识库
文心智能体教程:(四)加工文档并同步到知识库
Q4: Результаты поиска по базе знаний не соответствуют вопросу пользователя, но значение релевантности, выдаваемое системой, довольно высокое, как решить эту проблему?
A: Есть три способа попытаться решить эту проблему:
1. измените содержание пункта отзыва, удалите соответствующее описание, а затем повторно рассмотрите вопрос об отзыве;
2. отладка конфигурации отзыва базы знаний, когда в отзыве появляются нерелевантные результаты, занимающие последние места, можно попробовать улучшить [порог релевантности поиска], уменьшить [максимальное количество отзываемых абзацев], [максимальное количество символов абзаца];
3. если вам нужно оптимизировать только пример задачи, вы можете отправить идеальный ответ через [Обратная связь], чтобы модель сгенерировала ответ.
文心智能体教程:(四)加工文档并同步到知识库
Q5: Что делать, если из базы знаний была вызвана только часть релевантных результатов, а есть и другие, которые тоже хотели бы быть вызванными?
A: Есть два способа попытаться решить эту проблему:
1. отлаживая конфигурацию запоминания базы знаний, вы можете попробовать уменьшить [порог релевантности], улучшить [максимальное количество запоминаемых абзацев], [максимальное количество символов абзаца];
2. если вам нужно оптимизировать только пример задачи, вы можете изменить модель для создания ответа, отправив идеальный ответ через [Обратная связь].
文心智能体教程:(四)加工文档并同步到知识库
Q6: Результаты отзыва - это прекрасно, но конечный результат не имеет никакого отношения к моей базе знаний, верно?
A: Эта проблема возникает из-за того, что модель отфильтровывает результаты вспоминания базы знаний при приукрашивании ответов, чтобы решить эту проблему, попробуйте дополнить настройки характера интеллектов требованиями к применению базы знаний. Пример:
- Шаблон 1: Когда пользователь задает вопрос, необходимо выполнить поиск по базе знаний, а если результат не получен, вывести "Извините, я не очень хорошо разбираюсь в этом вопросе, мы можем поговорить о чем-нибудь другом~".
- Шаблон 2: Когда пользователь задает вопрос, ответ генерируется путем приоритезации результатов, вызванных из базы знаний.
文心智能体教程:(四)加工文档并同步到知识库
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...