GraphReader: 대규모 언어 모델을 위한 긴 텍스트 처리를 향상시키는 그래프 기반 인텔리전트

그래픽 전문가마치 마인드맵을 잘 만드는 가정교사와 같이 긴 텍스트를 명확한 지식 네트워크로 변환하여 AI가 지도를 따라 탐색하듯 답에 필요한 핵심 포인트를 쉽게 찾을 수 있어 긴 텍스트를 다룰 때 발생하는 '길을 잃는' 문제를 효과적으로 극복할 수 있습니다.

게시: 2024.01.20
논문명: GraphReader: 대규모 언어 모델의 긴 컨텍스트 능력을 향상시키는 그래프 기반 에이전트 구축
논문 주소: https://arxiv.org/abs/2406.14550

이 문서에서는 긴 텍스트를 처리할 때 LLM(대규모 언어 모델)이 직면하는 문제를 해결하고 멀티홉 퀴즈와 같은 작업을 잘 수행하도록 설계된 그래프 구조 기반 지능형 본문 시스템인 GraphReader에 대해 설명합니다. 다음은 기사 요약입니다:

I. 논문 작성 동기

자연어 이해 및 생성 기술이 발전함에 따라 LLM이 직면한 주요 한계 중 하나는 컨텍스트 창 크기와 메모리 사용량의 한계로 인해 대량의 텍스트 입력을 효율적으로 처리하기 어렵다는 점입니다. 이 문제를 해결하기 위해 연구자들은 모델 구조 개선, 검색 강화 메커니즘 도입, 복잡한 추론을 위한 에이전트 활용 등 다양한 접근 방식을 모색해 왔습니다. 하지만 이러한 접근 방식은 각각 학습 비용 증가, 세부 정보 무시, 유연하지 못한 의사 결정 메커니즘 등의 한계가 있습니다.

II. 논문의 혁신적 포인트

목표그래프 구조를 구성하고 자율 에이전트 탐색 전략을 채택함으로써 그래프 리더는 제한된 컨텍스트 창 내에서 장거리 종속성을 캡처할 수 있으므로 긴 문서를 효율적으로 처리할 수 있습니다.
혁신 포인트::
- 긴 텍스트를 개별적인 덩어리로 분할하고 핵심 요소와 원자적 사실을 추출하세요;
- 이러한 구성 요소를 사용하여 텍스트 내의 관계를 반영하는 그래프 구조를 만들 수 있습니다;
- 지능형 바디는 그래프를 탐색하고 미리 정의된 기능과 단계별 합리적 계획에 따라 필요한 정보를 수집합니다;
- 전체 과정에는 최종 답변의 정확성과 완성도를 보장하기 위해 메모하고 반성하는 과정이 포함됩니다.

III. 논문 아이디어

그래프 리더의 작동은 세 단계로 나뉩니다:

그래픽 구성문서는 여러 부분으로 나뉘며, 각 부분은 핵심 요소를 추출하여 노드를 형성하는 원자적 사실로 요약되고, 노드는 공유된 핵심 요소를 기반으로 서로 연결됩니다.
그래픽 탐색지능체는 합리적인 계획에 따라 시작 노드를 선택하고 인접 노드를 확인하여 전체 그래프 구조를 탐색하며, 이 과정에서 후속 분석을 위해 근거 사실을 기록합니다.
- 원자적 사실 탐색: 컨텍스트 창에 노드와 연결된 모든 원시 텍스트 블록을 포함할 수 없으므로 에이전트는 원자적 사실 읽기부터 시작하여 점진적으로 원시 텍스트를 탐색하는 거칠게 세분화하는 전략을 채택합니다. 모든 원자적 사실이 컨텍스트 창에 들어갈 수 있으므로 에이전트는 먼저 각 노드와 연결된 모든 원자적 사실을 해당 텍스트 블록별로 그룹화하고 해당 텍스트 블록 ID로 레이블을 지정한 다음 에이전트에 전달합니다. 이렇게 하면 에이전트가 모든 원자 팩트 그룹을 읽음으로써 각 텍스트 블록의 개요를 캡처할 수 있습니다. 동시에 상담원은 노트북의 질문, 합리적인 계획 및 메모를 사용하여 필요한 단서를 반영하고 어떤 텍스트 블록에 유용한 정보가 포함될 수 있는지 결정합니다. 그 후 상담원에게는 두 가지 기능이 주어집니다:
  - READ_NEIGHBOR_NODE를 호출하면 에이전트는 질문에 답하는 데 도움이 될 수 있는 이웃 노드를 선택하고 원자적 사실과 텍스트 블록을 탐색하는 프로세스에 다시 들어갑니다;
  - 종료하면 에이전트는 유용한 정보를 포함하는 이웃 노드가 없다고 판단하고 탐색을 완료합니다.
- 텍스트 블록 탐색: 텍스트 블록 대기열이 비어 있지 않으면 상담원이 관심 있는 텍스트 블록을 두 개 이상 식별했음을 의미합니다. 그러면 그래프 리더가 대기열을 가로질러 각 텍스트 블록을 하나씩 읽습니다. 원자적 사실은 핵심 정보만 요약하고 짧은 단서를 제공하지만 구체적인 세부 정보는 원본 텍스트 블록에서 직접 얻는 것이 가장 좋기 때문에 이 단계가 매우 중요합니다. 텍스트 블록을 읽으면서 상담원은 문제를 고려하고 현재 노트북에 추가할 수 있는 내용을 생각하며 다시 계획을 세웁니다. 발견되는 모든 근거 자료는 노트북에 기록됩니다. 업데이트된 노트북에 따라 상담원은 다음 네 가지 기능 중 하나를 선택합니다:
  - 를 검색하면 상담원은 지원 사실이 충분하지 않은 경우 대기열의 텍스트 블록을 계속 탐색합니다;
  - 읽기_이전_청크 및 3) 읽기_다음_청크의 경우 잘림 문제로 인해 인접한 텍스트 청크에 관련성 있고 유용한 정보가 포함될 수 있으며, 상담원은 이러한 ID를 대기열에 삽입할 수 있습니다;
  - 종료 후 질문에 답할 수 있는 충분한 정보가 수집되면 상담원이 탐색을 완료합니다.
- 이웃 노드 탐색: 현재 노드의 원자 사실과 텍스트 블록 큐가 완전히 처리되면, 이는 이 노드를 완전히 탐색했음을 의미하며 에이전트는 다음 노드를 방문해야 합니다. 에이전트는 문제, 합리적인 계획 및 노트북의 내용을 고려하여 인접한 모든 노드, 즉 핵심 요소를 검토하고 다음 두 가지 기능 중 하나를 실행합니다:
  - 를 사용하면 에이전트가 특정 텍스트 청크가 더 읽을 가치가 있다고 판단하면 청크 ID로 함수 인수를 완성하고(즉, read_chunk(List[ID])), 해당 ID를 청크 대기열에 추가합니다.
  - 대신 에이전트가 더 이상 읽을 가치가 없는 텍스트 덩어리가 없다고 판단하면 현재 노드 읽기를 끝내고 주변 노드 탐색을 시작합니다.
답변에서 추론하기다양한 지성의 메모를 취합하고 사고 사슬 추론을 사용해 주어진 질문에 대한 답을 생성하세요.

IV. 성능 평가

긴 컨텍스트 벤치마킹을 통해 여러 데이터 세트를 실험한 결과, GraphReader는 다른 방법보다 훨씬 우수한 성능을 보여주었습니다. 예를 들어, HotpotQA 데이터 세트에서 GraphReader는 55.01 TP3T의 EM과 70.01 TP3T의 F1 점수를 달성하여 GPT-4-128k 및 기타 기존 방법보다 뛰어난 성능을 보였습니다. 또한 GraphReader는 매우 긴 컨텍스트를 처리할 때에도 우수한 성능을 유지하며, 특히 LV-Eval 벤치마크에서 GPT-4-128k 대비 75.00%의 상대적 성능 향상을 보여줍니다.

실험 결과에 따르면 GraphReader는 특히 멀티홉 문제와 매우 긴 텍스트에서 긴 텍스트 처리에서 상당한 성능 향상을 달성했습니다.

V. 영향 및 전망

그래프 리더는 LLM에서 긴 컨텍스트 처리의 문제를 해결하는 데 있어 중요한 진전을 보여줄 뿐만 아니라 향후 더 발전된 언어 모델을 위한 길을 열어줍니다. 이는 작은 컨텍스트 창으로도 장거리 종속성을 효율적으로 캡처하고 활용할 수 있음을 보여주며, 이는 긴 문서와 복잡한 다단계 추론이 필요한 작업에 중요한 의미를 갖습니다. 이 연구는 문서 분석 및 연구 지원과 같은 여러 분야에 혁신을 일으켜 AI 애플리케이션의 새로운 가능성을 열어줄 수 있습니다.