GraphReader: 대규모 언어 모델을 위한 긴 텍스트 처리를 향상시키는 그래프 기반 인텔리전트
그래픽 전문가마치 마인드맵을 잘 만드는 가정교사와 같이 긴 텍스트를 명확한 지식 네트워크로 변환하여 AI가 지도를 따라 탐색하듯 답에 필요한 핵심 포인트를 쉽게 찾을 수 있어 긴 텍스트를 다룰 때 발생하는 '길을 잃는' 문제를 효과적으로 극복할 수 있습니다.
- 게시: 2024.01.20
- 논문명: GraphReader: 대규모 언어 모델의 긴 컨텍스트 능력을 향상시키는 그래프 기반 에이전트 구축
- 논문 주소: https://arxiv.org/abs/2406.14550
이 문서에서는 긴 텍스트를 처리할 때 LLM(대규모 언어 모델)이 직면하는 문제를 해결하고 멀티홉 퀴즈와 같은 작업을 잘 수행하도록 설계된 그래프 구조 기반 지능형 본문 시스템인 GraphReader에 대해 설명합니다. 다음은 기사 요약입니다:
I. 논문 작성 동기
자연어 이해 및 생성 기술이 발전함에 따라 LLM이 직면한 주요 한계 중 하나는 컨텍스트 창 크기와 메모리 사용량의 한계로 인해 대량의 텍스트 입력을 효율적으로 처리하기 어렵다는 점입니다. 이 문제를 해결하기 위해 연구자들은 모델 구조 개선, 검색 강화 메커니즘 도입, 복잡한 추론을 위한 에이전트 활용 등 다양한 접근 방식을 모색해 왔습니다. 하지만 이러한 접근 방식은 각각 학습 비용 증가, 세부 정보 무시, 유연하지 못한 의사 결정 메커니즘 등의 한계가 있습니다.
II. 논문의 혁신적 포인트
- 목표그래프 구조를 구성하고 자율 에이전트 탐색 전략을 채택함으로써 그래프 리더는 제한된 컨텍스트 창 내에서 장거리 종속성을 캡처할 수 있으므로 긴 문서를 효율적으로 처리할 수 있습니다.
- 혁신 포인트::
- 긴 텍스트를 개별적인 덩어리로 분할하고 핵심 요소와 원자적 사실을 추출하세요;
- 이러한 구성 요소를 사용하여 텍스트 내의 관계를 반영하는 그래프 구조를 만들 수 있습니다;
- 지능형 바디는 그래프를 탐색하고 미리 정의된 기능과 단계별 합리적 계획에 따라 필요한 정보를 수집합니다;
- 전체 과정에는 최종 답변의 정확성과 완성도를 보장하기 위해 메모하고 반성하는 과정이 포함됩니다.
III. 논문 아이디어
그래프 리더의 작동은 세 단계로 나뉩니다:
- 그래픽 구성문서는 여러 부분으로 나뉘며, 각 부분은 핵심 요소를 추출하여 노드를 형성하는 원자적 사실로 요약되고, 노드는 공유된 핵심 요소를 기반으로 서로 연결됩니다.
- 그래픽 탐색지능체는 합리적인 계획에 따라 시작 노드를 선택하고 인접 노드를 확인하여 전체 그래프 구조를 탐색하며, 이 과정에서 후속 분석을 위해 근거 사실을 기록합니다.
- 원자적 사실 탐색: 컨텍스트 창에 노드와 연결된 모든 원시 텍스트 블록을 포함할 수 없으므로 에이전트는 원자적 사실 읽기부터 시작하여 점진적으로 원시 텍스트를 탐색하는 거칠게 세분화하는 전략을 채택합니다. 모든 원자적 사실이 컨텍스트 창에 들어갈 수 있으므로 에이전트는 먼저 각 노드와 연결된 모든 원자적 사실을 해당 텍스트 블록별로 그룹화하고 해당 텍스트 블록 ID로 레이블을 지정한 다음 에이전트에 전달합니다. 이렇게 하면 에이전트가 모든 원자 팩트 그룹을 읽음으로써 각 텍스트 블록의 개요를 캡처할 수 있습니다. 동시에 상담원은 노트북의 질문, 합리적인 계획 및 메모를 사용하여 필요한 단서를 반영하고 어떤 텍스트 블록에 유용한 정보가 포함될 수 있는지 결정합니다. 그 후 상담원에게는 두 가지 기능이 주어집니다:
- READ_NEIGHBOR_NODE를 호출하면 에이전트는 질문에 답하는 데 도움이 될 수 있는 이웃 노드를 선택하고 원자적 사실과 텍스트 블록을 탐색하는 프로세스에 다시 들어갑니다;
- 종료하면 에이전트는 유용한 정보를 포함하는 이웃 노드가 없다고 판단하고 탐색을 완료합니다.
- 텍스트 블록 탐색: 텍스트 블록 대기열이 비어 있지 않으면 상담원이 관심 있는 텍스트 블록을 두 개 이상 식별했음을 의미합니다. 그러면 그래프 리더가 대기열을 가로질러 각 텍스트 블록을 하나씩 읽습니다. 원자적 사실은 핵심 정보만 요약하고 짧은 단서를 제공하지만 구체적인 세부 정보는 원본 텍스트 블록에서 직접 얻는 것이 가장 좋기 때문에 이 단계가 매우 중요합니다. 텍스트 블록을 읽으면서 상담원은 문제를 고려하고 현재 노트북에 추가할 수 있는 내용을 생각하며 다시 계획을 세웁니다. 발견되는 모든 근거 자료는 노트북에 기록됩니다. 업데이트된 노트북에 따라 상담원은 다음 네 가지 기능 중 하나를 선택합니다:
- 를 검색하면 상담원은 지원 사실이 충분하지 않은 경우 대기열의 텍스트 블록을 계속 탐색합니다;
- 읽기_이전_청크 및 3) 읽기_다음_청크의 경우 잘림 문제로 인해 인접한 텍스트 청크에 관련성 있고 유용한 정보가 포함될 수 있으며, 상담원은 이러한 ID를 대기열에 삽입할 수 있습니다;
- 종료 후 질문에 답할 수 있는 충분한 정보가 수집되면 상담원이 탐색을 완료합니다.
- 이웃 노드 탐색: 현재 노드의 원자 사실과 텍스트 블록 큐가 완전히 처리되면, 이는 이 노드를 완전히 탐색했음을 의미하며 에이전트는 다음 노드를 방문해야 합니다. 에이전트는 문제, 합리적인 계획 및 노트북의 내용을 고려하여 인접한 모든 노드, 즉 핵심 요소를 검토하고 다음 두 가지 기능 중 하나를 실행합니다:
- 를 사용하면 에이전트가 특정 텍스트 청크가 더 읽을 가치가 있다고 판단하면 청크 ID로 함수 인수를 완성하고(즉, read_chunk(List[ID])), 해당 ID를 청크 대기열에 추가합니다.
- 대신 에이전트가 더 이상 읽을 가치가 없는 텍스트 덩어리가 없다고 판단하면 현재 노드 읽기를 끝내고 주변 노드 탐색을 시작합니다.
- 원자적 사실 탐색: 컨텍스트 창에 노드와 연결된 모든 원시 텍스트 블록을 포함할 수 없으므로 에이전트는 원자적 사실 읽기부터 시작하여 점진적으로 원시 텍스트를 탐색하는 거칠게 세분화하는 전략을 채택합니다. 모든 원자적 사실이 컨텍스트 창에 들어갈 수 있으므로 에이전트는 먼저 각 노드와 연결된 모든 원자적 사실을 해당 텍스트 블록별로 그룹화하고 해당 텍스트 블록 ID로 레이블을 지정한 다음 에이전트에 전달합니다. 이렇게 하면 에이전트가 모든 원자 팩트 그룹을 읽음으로써 각 텍스트 블록의 개요를 캡처할 수 있습니다. 동시에 상담원은 노트북의 질문, 합리적인 계획 및 메모를 사용하여 필요한 단서를 반영하고 어떤 텍스트 블록에 유용한 정보가 포함될 수 있는지 결정합니다. 그 후 상담원에게는 두 가지 기능이 주어집니다:
- 답변에서 추론하기다양한 지성의 메모를 취합하고 사고 사슬 추론을 사용해 주어진 질문에 대한 답을 생성하세요.

IV. 성능 평가
긴 컨텍스트 벤치마킹을 통해 여러 데이터 세트를 실험한 결과, GraphReader는 다른 방법보다 훨씬 우수한 성능을 보여주었습니다. 예를 들어, HotpotQA 데이터 세트에서 GraphReader는 55.01 TP3T의 EM과 70.01 TP3T의 F1 점수를 달성하여 GPT-4-128k 및 기타 기존 방법보다 뛰어난 성능을 보였습니다. 또한 GraphReader는 매우 긴 컨텍스트를 처리할 때에도 우수한 성능을 유지하며, 특히 LV-Eval 벤치마크에서 GPT-4-128k 대비 75.00%의 상대적 성능 향상을 보여줍니다.


실험 결과에 따르면 GraphReader는 특히 멀티홉 문제와 매우 긴 텍스트에서 긴 텍스트 처리에서 상당한 성능 향상을 달성했습니다.

V. 영향 및 전망
그래프 리더는 LLM에서 긴 컨텍스트 처리의 문제를 해결하는 데 있어 중요한 진전을 보여줄 뿐만 아니라 향후 더 발전된 언어 모델을 위한 길을 열어줍니다. 이는 작은 컨텍스트 창으로도 장거리 종속성을 효율적으로 캡처하고 활용할 수 있음을 보여주며, 이는 긴 문서와 복잡한 다단계 추론이 필요한 작업에 중요한 의미를 갖습니다. 이 연구는 문서 분석 및 연구 지원과 같은 여러 분야에 혁신을 일으켜 AI 애플리케이션의 새로운 가능성을 열어줄 수 있습니다.
© 저작권 정책
기사 저작권 AI 공유 서클 모두 무단 복제하지 마세요.
관련 문서
댓글 없음...