Агентный чанкинг: управляемый агентами ИИ семантический чанкинг текста

вводная

В прикладной области больших языковых моделей (LLM), особенно в области генерации с расширением поиска (RAG) система, то разбиение текста на части играет решающую роль. Качество расчленения текста напрямую связано с достоверностью контекстной информации, что, в свою очередь, влияет на точность и полноту ответов, генерируемых LLM. Традиционные методы фрагментации текста, такие как фрагментация с фиксированным размером символов и рекурсивная сегментация текста, имеют свои недостатки, например, они могут обрываться в середине предложения или смысловой единицы, что приводит к потере контекста и семантической несогласованности. В этой статье мы рассмотрим более интеллектуальную стратегию сегментации - Agentic Chunking. Этот подход направлен на имитацию процесса человеческого оценивания для создания семантически связных фрагментов текста, что значительно повышает производительность систем RAG. Кроме того, будут приведены подробные примеры кода, чтобы помочь читателям начать работу.

Контрольное чтение:Простая и эффективная стратегия поиска RAG: гибридный поиск и перегруппировка по принципу "разреженный + плотный", а также использование "кэширования подсказок" для создания общего контекста, связанного с документом, для фрагментов текста.

 

Что такое агентурный чанкинг?

Агентурная чанкизация это современный подход к разбиению текста на части на основе LLM, который имитирует человеческое понимание и суждение при сегментации текста, направленное на создание семантически связных частей текста. Основная идея заключается в том, чтобы сосредоточиться на "агентивных" элементах текста, таких как персонажи, организации и т. д., и объединить предложения, связанные с этими агентивными элементами, для формирования значимых семантических единиц.

Основные идеи: Суть Agentic Chunking в том, что он не просто полагается на количество символов или предопределенные разделители для разделения текста. Вместо этого он использует возможности семантического понимания LLM для объединения семантически тесно связанных предложений в фрагменты, даже если эти предложения не являются смежными по расположению в исходном тексте. Такой подход более точно отражает внутреннюю структуру и семантические ассоциации текста.

 

Зачем вам нужен агентский чанкинг?

Традиционные методы разбивки текста на куски имеют ряд ограничений, которые трудно игнорировать:

  • Куски символов фиксированного размера (Fixed-Size Персонаж Chunking):
    • При таком подходе текст механически разбивается на блоки заданной фиксированной длины. При этом может происходить усечение между символами в середине предложения или даже внутри слов, что серьезно нарушает смысловую целостность текста.
    • Он полностью игнорирует внутреннюю структуру документа, такую как заголовки, списки и т. д., в результате чего результаты разбиения на куски оказываются оторванными от логической структуры документа.
    • Произвольная сегментация может также смешивать несвязанные между собой темы в одном блоке текста, что еще больше нарушает контекстуальную связность.
  • Рекурсивное разбиение текста:
    • Рекурсивная сегментация текста опирается на предопределенные иерархические разделители, такие как абзацы, предложения, слова и т.д. для сегментации.
    • Такой подход может оказаться неспособным эффективно обрабатывать сложные структуры документов, такие как многоуровневые заголовки, таблицы и т. д., что приведет к потере структурной информации.
    • По-прежнему возможно усечение в середине смысловых единиц, таких как абзацы или маркированные списки, что нарушает семантическую целостность.
    • Очень важно, что при рекурсивной сегментации текста также отсутствует глубокое понимание семантики текста, и сегментация опирается только на поверхностную структуру.
  • Семантический чанкинг:
    • Семантическое разбиение пытается сгруппировать предложения на основе сходства их векторов встраивания, стремясь создать семантически релевантные фрагменты.
    • Однако если предложения в абзаце значительно различаются по семантике, семантический кусок может неверно классифицировать эти предложения в разные куски, что приведет к нарушению связности абзаца.
    • Кроме того, семантический кусок обычно требует большого количества вычислений сходства, особенно при обработке больших документов, где вычислительные затраты значительно возрастают.

Агентный чанкинг эффективно преодолевает ограничения традиционных методов, упомянутых выше, благодаря следующим преимуществам:

  • Семантическая связность: Agentic Chunking способен генерировать семантически более значимые фрагменты текста, что значительно повышает точность поиска релевантной информации.
  • Сохранение контекста: он лучше сохраняет контекстную связность в блоках текста, что позволяет LLM генерировать более точные и контекстуальные ответы.
  • Гибкость: метод Agentic Chunking демонстрирует высокую степень гибкости и способен адаптироваться к документам различной длины, структуры и типа содержания для более широкого спектра приложений.
  • Устойчивость: агентный чанкинг имеет совершенный механизм защиты и обратный механизм, даже в случае необычайно сложной структуры документа или ограничений производительности LLM, он все равно может обеспечить эффективность и стабильность чанкинга.

 

Как работает агентурный чанкинг

Процесс агентурного чанкинга состоит из следующих основных этапов:

  • Создание мини-коробочки:
    • Во-первых, агентурный чанкинг использует рекурсивные методы сегментации текста для первоначального разбиения входного документа на более мелкие микрофрагменты. Например, размер каждого микрофрагмента может быть ограничен примерно 300 символами.
    • В процессе сегментации Agentic Chunking уделяет особое внимание тому, чтобы миниатюрные фрагменты не усекались в середине предложения, чтобы сохранить основную семантическую целостность.
  • Маркировка мини-кусочков:
    • Затем к каждому микроблоку добавляется уникальный маркер. Эта маркировка помогает LLM определить границы каждого микроблока при последующей обработке.
    • Важно отметить, что LLM рассматривает текст в большей степени на основе жетон а не точное количество символов, но он хорошо распознает структурные и семантические закономерности в тексте. Маркировка микроблоков помогает LLM распознавать границы блоков, даже если он не может точно подсчитать количество символов.
  • Группировка кусков с помощью LLM:
    • Предоставьте LLM помеченный документ вместе с конкретными инструкциями.
    • На этом этапе задача LLM состоит в том, чтобы провести глубокий анализ последовательности миниатюрных фрагментов и объединить их в более крупные, семантически связные фрагменты текста на основе семантической связанности.
    • В процессе группировки можно установить ограничения, такие как максимальное количество микроблоков, содержащихся в каждом блоке, чтобы контролировать размер блоков в соответствии с реальными требованиями.
  • Сборка чанков:
    • Объедините микроблоки, отобранные LLM, чтобы получить конечный результат Agentic Chunking - текстовый блок.
    • Чтобы лучше управлять и использовать эти текстовые блоки, к каждому блоку можно добавить соответствующие метаданные, такие как информация об источнике исходного документа, индексная позиция текстового блока в документе и т. д.
  • Перекрытие чанков для сохранения контекста:
    Чтобы обеспечить согласованность контекста между блоками, конечный генерируемый блок обычно имеет некоторую степень перекрытия с предыдущим и последующим микроблоками. Этот механизм перекрытия помогает LLM лучше понимать контекстную информацию при обработке соседних текстовых блоков и избегать фрагментации информации.
  • Защитные ограждения и механизмы отката:
    • Block Size Limit (Ограничение размера блока): принудительно устанавливает максимальный размер блока, гарантируя, что генерируемые текстовые блоки всегда будут находиться в пределах ограничения длины входных данных LLM, что позволяет избежать проблем, вызванных слишком длинными входными данными.
    • Управление контекстным окном: для очень длинных документов, длина которых превышает лимит контекстного окна LLM, Agentic Chunking может интеллектуально разделить их на несколько управляемых частей и обрабатывать их партиями, чтобы обеспечить эффективность и результативность обработки.
    • Проверка: после завершения работы с микрофрагментами Agentic Chunking также выполняет процесс проверки, чтобы убедиться, что все микрофрагменты были правильно включены в конечный текстовый блок и избежать пропусков информации.
    • Возврат к рекурсивному чанкингу: когда обработка LLM не работает или недоступна по какой-либо причине, Agentic Chunking может плавно вернуться к традиционным методам рекурсивного чанкинга текста, гарантируя, что базовая функциональность чанкинга будет обеспечена во всех случаях.
    • Параллельная обработка: Agentic Chunking поддерживает режим параллельной обработки, благодаря использованию многопоточности и других технологий, вы можете значительно ускорить скорость обработки текста, особенно при обработке больших документов, когда преимущество более очевидно.

 

Применения агентурного расчленения

Технология Agentic Chunking демонстрирует большой потенциал для применения в различных областях:

1. Расширенное обучение

  • Определение и объяснение: Agentic RAG оптимизирует процесс обучения, разбивая сложную информацию на управляемые единицы, тем самым улучшая ее восприятие и запоминание учащимися. Этот подход уделяет особое внимание "агентурным" элементам текста (например, персонажам, организациям), и, организуя информацию вокруг этих основных элементов, Agentic RAG способен создать более последовательный и доступный учебный контент.
  • Роль в учебном процессе: Агентные RAG-фреймворки играют все более важную роль в современных методах обучения. Используя интеллектуальные агенты на основе технологии RAG, преподаватели могут более гибко подстраивать контент под индивидуальные потребности разных учеников.
  • Применение в образовании: все больше учебных заведений используют технологию Agentic RAG для инновационных стратегий преподавания, разработки более увлекательных и персонализированных учебных программ, а также для улучшения результатов преподавания и обучения.
  • Влияние на вовлеченность учащихся: агентурное расчленение эффективно для повышения концентрации внимания, мотивации и интереса учащихся к обучению за счет представления информации в виде четко структурированных, легко воспринимаемых блоков текста.
  • Эффективное распознавание закономерностей: глубокий анализ и выявление эффективных закономерностей в использовании систем Agentic RAG в образовании необходимы для постоянной оптимизации результатов обучения.

2. Улучшенное хранение информации

  • Когнитивные процессы: технология Agentic RAG использует естественную тенденцию человеческих когнитивных процессов организовывать и соотносить информацию, чтобы улучшить ее запоминание. Мозг предпочитает организовывать данные в управляемые блоки, что значительно упрощает процесс поиска и запоминания информации.
  • Улучшение запоминания: концентрируясь на "агентурных" элементах текста (например, лицах или организациях), учащиеся могут легче установить связь между учебным материалом и имеющимися у них знаниями, что позволяет им эффективнее вспоминать и закреплять изученную информацию.
  • Стратегии долгосрочного сохранения знаний: Интеграция технологии Agentic RAG в повседневную практику обучения помогает выстраивать эффективные стратегии непрерывного обучения и накопления знаний, что позволяет сохранять и развивать знания в долгосрочной перспективе.
  • Практическое применение: В таких областях, как образование и бизнес-обучение, представление контента Agentic RAG может быть настроено в соответствии с потребностями конкретной аудитории для оптимального предоставления и усвоения информации.

3. Эффективное принятие решений

  • Применение в бизнесе: В мире бизнеса система Agentic RAG революционизирует парадигму принятия решений лидерами бизнеса, предоставляя структурированную основу для принятия решений. Она обеспечивает основу, которая значительно повышает науку стратегического планирования и операционную эффективность.
  • Система принятия решений: Agentic RAG способна разбивать сложные бизнес-данные и информацию на более мелкие и управляемые фрагменты, помогая организационным руководителям сосредоточиться на ключевых элементах, не потеряться в массе информации и повысить эффективность принятия решений.
  • Преимущества для руководителей компаний: Agentic RAG помогает руководителям компаний глубже понять тенденции рынка и потребности клиентов, обеспечивая тем самым более точную поддержку принятия решений для корпоративных стратегических корректировок и реагирования на рынок.
  • Шаги по реализации:
    • Определите ключевые области бизнеса, в которых технология Agentic RAG может принести пользу вашей организации.
    • Разработайте индивидуальную реализацию Agentic RAG, которая в значительной степени соответствует стратегическим целям организации.
    • Обучение персонала работе с системой Agentic RAG для обеспечения эффективного внедрения и применения системы.
    • Постоянно контролируйте эффект от работы системы Agentic RAG и корректируйте стратегию оптимизации в соответствии с реальной ситуацией, чтобы обеспечить максимальную производительность системы.

 

Преимущества агентурной группировки

  • Семантическая связность: агентурный чанкинг генерирует семантически более значимые фрагменты текста, значительно повышая точность поиска информации.
  • Сохранение контекста: агентурное расчленение эффективно сохраняет контекстную связность в блоках текста, позволяя LLM генерировать более точные и контекстуальные ответы.
  • Гибкость: Agentic Chunking демонстрирует отличную гибкость в адаптации к документам различной длины, структуры и типов содержимого.
  • Устойчивость: в Agentic Chunking встроены механизмы защиты и отката, обеспечивающие стабильную работу системы даже в случае аномалий структуры документа или ограничений производительности LLM.
  • Адаптивность: Agentic Chunking легко интегрируется с различными LLM и поддерживает тонкую оптимизацию под конкретные требования приложений.

 

Агентский чанкинг в действии

  • Сокращение ложных предположений на 92%: недостатком традиционных методов разбивки на части является то, что неточная разбивка может привести к ложным предположениям, которые делает система ИИ. Агентный чанкинг успешно сокращает количество таких ошибок на 92%.
  • Улучшенная полнота ответов: агентурная группировка значительно улучшает полноту ответов, предоставляя пользователям более полные и точные ответы, а также значительно улучшая пользовательский опыт.

 

Реализация агентного чанкинга (пример на Python)

В этом разделе представлен пример реализации Agentic Chunking Python-кода на основе фреймворка Langchain, а также пошаговое объяснение кода, чтобы помочь читателям быстро начать работу.

Необходимые условия:

  • Убедитесь, что библиотеки Langchain и OpenAI Python установлены:pip install langchain openai
  • Настройте ключ API OpenAI.

Код примера:

from langchain_core.prompts import ChatPromptTemplate
from langchain_openai import ChatOpenAI
from langchain_core.pydantic_v1 import BaseModel, Field
from langchain import hub
# 1. 文本命题化 (Propositioning)
# 示例文本
text = """
On July 20, 1969, astronaut Neil Armstrong walked on the moon.
He was leading NASA's Apollo 11 mission.
Armstrong famously said, "That's one small step for man, one giant leap for mankind" as he stepped onto the lunar surface.
Later, he planted the American flag.
The mission was a success.
"""
# 从 Langchain hub 获取命题化提示模板
obj = hub.pull("wfh/proposal-indexing")
# 使用 GPT-4o 模型
llm = ChatOpenAI(model="gpt-4o")
# 定义 Pydantic 模型以提取句子
class Sentences(BaseModel):
sentences: list[str]
# 创建结构化输出的 LLM
extraction_llm = llm.with_structured_output(Sentences)
# 创建句子提取链
extraction_chain = obj | extraction_llm
# 将文本分割成段落 (为简化示例,本文假设输入文本仅包含一个段落,实际应用中可处理多段落文本。)
paragraphs = [text]
propositions = []
for p in paragraphs:
sentences = extraction_chain.invoke(p)
propositions.extend(sentences.sentences)
print("Propositions:", propositions)
# 2. 创建 LLM Agent
# 定义块元数据模型
class ChunkMeta(BaseModel):
title: str = Field(description="The title of the chunk.")
summary: str = Field(description="The summary of the chunk.")
# 用于生成摘要和标题的 LLM (这里可以使用温度较低的模型)
summary_llm = ChatOpenAI(temperature=0)
# 用于块分配的 LLM
allocation_llm = ChatOpenAI(temperature=0)
# 存储已创建的文本块的字典
chunks = {}
# 3. 创建新块的函数
def create_new_chunk(chunk_id, proposition):
summary_prompt_template = ChatPromptTemplate.from_messages(
[
(
"system",
"Generate a new summary and a title based on the propositions.",
),
(
"user",
"propositions:{propositions}",
),
]
)
summary_chain = summary_prompt_template | summary_llm
chunk_meta = summary_chain.invoke(
{
"propositions": [proposition],
}
)
chunks[chunk_id] = {
"chunk_id": chunk_id,  # 添加 chunk_id
"summary": chunk_meta.summary,
"title": chunk_meta.title,
"propositions": [proposition],
}
return chunk_id  # 返回 chunk_id
# 4. 将命题添加到现有块的函数
def add_proposition(chunk_id, proposition):
summary_prompt_template = ChatPromptTemplate.from_messages(
[
(
"system",
"If the current_summary and title is still valid for the propositions, return them."
"If not, generate a new summary and a title based on the propositions.",
),
(
"user",
"current_summary:{current_summary}\ncurrent_title:{current_title}\npropositions:{propositions}",
),
]
)
summary_chain = summary_prompt_template | summary_llm
chunk = chunks[chunk_id]
current_summary = chunk["summary"]
current_title = chunk["title"]
current_propositions = chunk["propositions"]
all_propositions = current_propositions + [proposition]
chunk_meta = summary_chain.invoke(
{
"current_summary": current_summary,
"current_title": current_title,
"propositions": all_propositions,
}
)
chunk["summary"] = chunk_meta.summary
chunk["title"] = chunk_meta.title
chunk["propositions"] = all_propositions
# 5. Agent 的核心逻辑
def find_chunk_and_push_proposition(proposition):
class ChunkID(BaseModel):
chunk_id: int = Field(description="The chunk id.")
allocation_prompt = ChatPromptTemplate.from_messages(
[
(
"system",
"You have the chunk ids and the summaries. "
"Find the chunk that best matches the proposition. "
"If no chunk matches, return a new chunk id. "
"Return only the chunk id.",
),
(
"user",
"proposition:{proposition}\nchunks_summaries:{chunks_summaries}",
),
]
)
allocation_chain = allocation_prompt | allocation_llm.with_structured_output(ChunkID)
chunks_summaries = {
chunk_id: chunk["summary"] for chunk_id, chunk in chunks.items()
}
# 初始chunks可能为空,导致allocation_chain.invoke报错
if not chunks_summaries:
# 如果没有已存在的块,直接创建新块
next_chunk_id = 1
create_new_chunk(next_chunk_id, proposition)
return
best_chunk_id = allocation_chain.invoke(
{"proposition": proposition, "chunks_summaries": chunks_summaries}
).chunk_id
if best_chunk_id not in chunks:
# 如果返回的 chunk_id 不存在,创建新块
next_chunk_id = max(chunks.keys(), default=0) + 1 if chunks else 1
create_new_chunk(next_chunk_id, proposition)
else:
add_proposition(best_chunk_id, proposition)
# 遍历命题列表,进行分块
for i, proposition in enumerate(propositions):
find_chunk_and_push_proposition(proposition)
# 打印最终的块
print("\nFinal Chunks:")
for chunk_id, chunk in chunks.items():
print(f"Chunk {chunk_id}:")
print(f"  Title: {chunk['title']}")
print(f"  Summary: {chunk['summary']}")
print(f"  Propositions: {chunk['propositions']}")
print("-" * 20)

Код Объяснение:

  • Пропозиционализация:
    • В примере кода сначала используется hub.pull("wfh/proposal-indexing") для загрузки заранее определенного шаблона подсказки с предложениями из хаба Langchain.
    • Затем экземпляр LLM был инициализирован с помощью ChatOpenAI(model="gpt-4o"), выбрав модель GPT-4o для лучшей производительности.
    • Определите пидантическую модель Sentences для структурированного разбора списка предложений, выводимых из LLM.
    • Строит цепочку связей между шаблоном подсказки и LLM extraction_chain.
    • Для упрощения примера в этой статье предполагается, что входной текст содержит только один абзац, на самом деле приложение может обрабатывать несколько абзацев текста. Код будет представлять собой образец текста, разделенного на список абзацев.
    • Пройдитесь по абзацу и с помощью extraction_chain преобразуйте абзац в список предложений.
  • Создайте агента LLM:
    • Определите пидантическую модель ChunkMeta и определите структуру метаданных блока (заголовок и резюме).
    • Создайте два экземпляра LLM, summary_llm и allocation_llm. summary_llm используется для создания резюме и заголовка блока текста, а allocation_llm отвечает за определение того, в какой существующий блок следует поместить предложение, или за создание нового блока.
    • Инициализирует словарь chunks, который используется для хранения созданных блоков текста.
  • функция create_new_chunk:
    • Функция принимает chunk_id и proposition в качестве входных параметров.
    • На основе пропозиций с помощью шаблонов summary_prompt_template и summary_llm формируются заголовок и резюме блока.
    • и сохраняет новый блок в словаре chunks.
  • Функция add_proposition:
    • Функция также принимает chunk_id и proposition в качестве входных данных.
    • Извлекает информацию о существующих блоках из словаря chunks.
    • Обновляет список предложений для текущего блока.
    • Пересмотрите и обновите названия и резюме блоков.
    • и обновить метаданные соответствующего блока в словаре чанков.
  • Функция find_chunk_and_push_proposition (логика ядра агента):
    • Определите пидантическую модель ChunkID для разбора идентификаторов блоков для вывода LLM.
    • Создает запрос allocation_prompt, который поручает LLM найти существующий блок, наиболее соответствующий текущему предложению, или вернуть новый идентификатор блока.
    • Постройте цепочку allocation_chain, соединив шаблон подсказки и allocation_llm.
    • Создает словарь chunks_summaries, в котором хранятся идентификаторы и краткая информация о существующих блоках.
    • Если словарь chunks пуст (т.е. в нем еще нет ни одного куска текста), новый кусок создается напрямую.
    • Используйте allocation_chain для вызова LLM, чтобы получить идентификатор наиболее подходящего блока.
    • Если идентификатор chunk_id, возвращенный LLM, отсутствует в словаре chunks, что указывает на необходимость создания нового фрагмента текста, вызывается функция create_new_chunk.
    • Если возвращаемый chunk_id уже существует в словаре chunks, что указывает на то, что текущее предложение должно быть добавлено к существующему текстовому блоку, вызовите функцию add_proposition.
  • Основная петля:
    • Перейдите по списку предложений.
    • Для каждого предложения вызывается функция find_chunk_and_push_proposition, и предложение присваивается соответствующему текстовому блоку.
  • Выходные результаты:
    • Конечный результат сгенерированного текстового блока, включая заголовок, аннотацию и список включенных предложений.

Примечания по улучшению кода:

  • Улучшите функцию find_chunk_and_push_proposition, вызывая функцию create_new_chunk напрямую, когда словарь chunks пуст, чтобы избежать возможных ошибок.
  • В функции create_new_chunk в словарь chunks[chunk_id] добавляется пара ключ-значение chunk_id для явной записи идентификатора блока.
  • Оптимизация логики генерации next_chunk_id повышает надежность логики генерации идентификаторов и обеспечивает правильную генерацию идентификаторов в различных сценариях.

 

Строительство против покупки

Хотя агентурный чанкинг - это только одна часть рабочего процесса агента ИИ, он очень важен для создания семантически связных фрагментов текста. Есть свои преимущества и недостатки в создании собственного решения Agentic Chunking по сравнению с покупкой готового решения:

Преимущества самостоятельного строительства:

  • Высокая степень контроля и настройки: Самостоятельно созданное решение позволяет пользователям выполнять глубокую настройку в соответствии с их конкретными потребностями, от оперативного проектирования до оптимизации алгоритмов, и все это идеально соответствует реальным сценариям применения.
  • Точное нацеливание: предприятия могут выбрать наиболее подходящую стратегию разбиения текста на куски для достижения оптимальной производительности на основе уникальных характеристик данных и потребностей приложений.

Недостатки самостоятельного строительства:

  • Высокие затраты на разработку: создание собственного решения Agentic Chunking требует специальных знаний в области технологий обработки естественного языка и значительных затрат времени на разработку, что обходится недешево.
  • Непредсказуемость поведения LLM: поведение больших языковых моделей иногда трудно предсказать и контролировать, что представляет собой техническую проблему для самостоятельно созданных решений.
  • Текущие расходы на обслуживание: технология генеративного ИИ быстро развивается, и самостоятельные решения требуют постоянных инвестиций в обслуживание и обновления, чтобы не отставать от темпов развития технологий.
  • Производственные проблемы: Одно дело - получить хорошие результаты на стадии прототипирования, но есть еще значительные трудности в реальном внедрении решений Agentic Chunking в производство с высокой точностью 99% и выше.

 

резюме

Agentic Chunking - это мощная техника разбиения текста на части, имитирующая человеческое понимание и суждение для создания семантически связных фрагментов текста, что значительно повышает производительность систем RAG. Agentic Chunking преодолевает многие ограничения традиционных методов фрагментации текста, позволяя LLM генерировать более точные, полные и контекстуализированные ответы.

Эта статья поможет читателям понять принцип работы и реализацию Agentic Chunking с помощью подробных примеров кода и пошаговых объяснений. Конечно, реализация Agentic Chunking требует определенных технических вложений, но улучшение производительности и польза для приложений очевидны. Agentic Chunking, несомненно, является эффективным техническим решением для тех прикладных сценариев, в которых требуется обрабатывать большие объемы текстовых данных и предъявляются высокие требования к производительности RAG-систем.

Будущие тенденции: Будущие направления агентурного чанкинга могут включать в себя:

  • Глубокая интеграция с графовыми базами данных, построение графов знаний и дальнейшее развитие технологии Graph Structure Based Retrieval Enhanced Generation (Graph RAG) для более глубокого поиска и использования знаний.
  • Постоянно оптимизируйте разработку подсказок и инструкций LLM, чтобы еще больше повысить точность и эффективность обработки фрагментов текста.
  • Разработка более интеллектуальных стратегий объединения и разделения текстовых блоков для эффективной работы с более сложными и разнообразными структурами документов и повышения универсальности Agentic Chunking.
  • Мы активно изучаем возможности применения Agentic Chunking в более широком спектре областей, таких как интеллектуальное резюмирование текстов, высококачественный машинный перевод и т.д., чтобы расширить границы его применения.
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...