LLM 기반 Text-to-SQL의 개발 과정을 정리한 10,000단어짜리 문서

10,000단어 심층 분석으로 텍스트-SQL 기술의 과거와 현재를 이해할 수 있는 OlaChat AI 디지털 인텔리전스 어시스턴트입니다.

논문: 차세대 데이터베이스 인터페이스: LLM 기반 Text-to-SQL에 대한 조사

사용자 문제 이해, 데이터베이스 스키마 이해, SQL 생성의 복잡성 때문에 자연어 문제(텍스트-SQL)에서 정확한 SQL을 생성하는 것은 오랜 과제입니다. 다음과 같은 기존의 텍스트-SQL 시스템은인공 지능과 심층 신경망를 통해 상당한 진전이 있었습니다. 그 후사전 학습된 언어 모델(PLM)이 개발되어 텍스트-SQL 작업에 사용되어 유망한 성능을 달성했습니다. 최신 데이터베이스가 더욱 복잡해짐에 따라 해당 사용자 문제도 더욱 어려워져 매개변수 제약이 있는 PLM(사전 학습된 모델)이 잘못된 SQL을 생성하게 되고, 이로 인해 보다 정교한 맞춤형 최적화 방법이 필요해지면서 PLM 기반 시스템의 적용이 제한되고 있습니다.

최근 대규모 언어 모델(LLM)은 모델 크기의 증가로 인해 자연어 이해에서 상당한 역량을 발휘하고 있습니다. 따라서 LLM 기반 구현을 통합하는 것은은 텍스트-to-SQL 연구에 독특한 기회와 개선점, 솔루션을 제공할 수 있습니다. 이 백서에서는 LLM 기반 텍스트-to-SQL에 대한 포괄적인 검토를 제시하며, 특히 저자들은 텍스트-to-SQL의 기술적 과제와 발전 과정에 대한 간략한 개요를 제시합니다. 그런 다음, 저자들은 텍스트-SQL 시스템을 평가하기 위해 설계된 데이터 세트와 평가 지표에 대한 자세한 설명을 제공합니다. 그 후, 이 논문은 LLM 기반 텍스트-to-SQL의 최근 발전을 체계적으로 분석합니다. 마지막으로 이 분야의 남은 과제에 대해 논의하고 향후 연구 방향에 대한 기대치를 제시합니다.

본문에서 "[xx]"로 구체적으로 언급된 논문은 원본 논문의 참고 문헌 섹션에서 참조할 수 있습니다.

소개

Text-To-SQL은 자연어 처리 연구의 오랜 과제입니다. 자연어 문제를 데이터베이스에서 실행 가능한 SQL 쿼리로 변환(번역)하는 것을 목표로 합니다. 그림 1은 대규모 언어 모델(LLM 기반)에 기반한 텍스트-SQL 시스템의 예시를 보여줍니다. "역사상 가장 많이 플레이된 5개 리그의 이름과 해당 리그의 경기 수를 알려주실 수 있나요?"와 같은 사용자 질문이 주어지면 LLM은 질문과 해당 쿼리를 실행 가능한 SQL 쿼리로 변환합니다. LLM은 질문과 해당 데이터베이스 스키마를 입력으로 받아 이를 분석합니다. 그런 다음 SQL 쿼리를 출력으로 생성합니다. 이 SQL 쿼리는 데이터베이스에서 실행되어 사용자의 질문에 답하기 위해 관련 콘텐츠를 검색할 수 있습니다. 위의 시스템은 LLM을 사용하여 데이터베이스에 대한 자연어 인터페이스(NLIDB)를 구축합니다.

SQL은 여전히 가장 널리 사용되는 프로그래밍 언어 중 하나로, 전문 개발자의 절반(51.52%)이 업무에 SQL을 사용하고 있으며, 특히 개발자의 약 1/3(35.29%)만이 시스템 교육을 받은 상태이므로, 비숙련 사용자도 전문 데이터베이스 엔지니어처럼 구조화된 데이터베이스에 액세스할 수 있는 NLIDB는[1 , 2] 또한 인간과 컴퓨터의 상호작용을 가속화합니다[3]. 또한, LLM의 연구 핫스팟 중 텍스트-SQL은 데이터베이스의 실제 콘텐츠를 통합하여 LLM의 지식 격차를 메울 수 있으며, 만연한 착각 문제에 대한 잠재적인 솔루션을 제공합니다[4, 5][6]. 텍스트-to-SQL의 큰 가치와 잠재력으로 인해 LLM과의 통합 및 최적화에 대한 일련의 연구가 촉발되었고[7-10], 따라서 LLM 기반 텍스트-to-SQL은 NLP 및 데이터베이스 커뮤니티에서 여전히 많은 논의가 이루어지는 연구 분야입니다.

이전의 연구는 텍스트-SQL 구현에 있어 상당한 진전을 이루었으며 오랜 진화 과정을 거쳤습니다. 초기 연구의 대부분은 잘 설계된 규칙과 템플릿[11]을 기반으로 했으며, 이는 특히 단순한 데이터베이스 시나리오에 적합했습니다. 최근에는 규칙 기반 접근 방식과 관련된 높은 인건비[12]와 데이터베이스 환경의 복잡성 증가[13 - 15]로 인해 각 시나리오에 맞는 규칙이나 템플릿을 설계하는 것이 점점 더 어려워지고 비실용적이 되었습니다. 텍스트-SQL의 발전은 사용자 질문에서 해당 SQL에 대한 매핑을 자동으로 학습하는 심층 신경망[16, 17]의 개발로 촉진되었습니다[18, 19]. 그 후 강력한 시맨틱 구문 분석 기능을 갖춘 사전 학습된 언어 모델(PLM)이 텍스트-SQL 시스템의 새로운 패러다임이 되어[20] 성능을 새로운 차원으로 끌어올렸습니다[21 - 23]. PLM 기반 최적화(예: 테이블 콘텐츠 인코딩[19 , 24 , 25 ] 및 사전 학습[20 , 26 ])에 대한 점진적인 연구가 이 분야를 더욱 발전시켰습니다. 최근LLM 기반 접근 방식은 컨텍스트 학습(ICL)[8] 및 미세 조정(FT)[10] 패러다임을 통해 텍스트-SQL 변환을 구현합니다.이 회사는 잘 설계된 프레임워크와 PLM보다 더 높은 이해도를 바탕으로 최첨단 정확도를 달성합니다.

LLM 기반 텍스트-to-SQL의 전반적인 구현 세부 사항은 세 가지 영역으로 나눌 수 있습니다:

1) 문제에 대한 이해NL 질문은 사용자 의도를 의미론적으로 표현한 것으로, 그에 따라 생성된 SQL 쿼리는 이와 일치해야 합니다;

2) 패턴 이해스키마는 데이터베이스의 테이블 및 열 구조를 제공하며, 텍스트-SQL 시스템은 사용자의 문제와 일치하는 대상 구성 요소를 식별해야 합니다;

3) SQL 생성위의 구문 분석을 결합한 다음 올바른 구문을 예측하여 실행 가능한 SQL 쿼리를 생성하여 원하는 답을 검색하는 것입니다. 풍부한 학습 코퍼스를 통해 보다 강력한 의미론적 구문 분석 기능을 구현할 수 있기 때문에 [7, 27] LLM이 텍스트-SQL 기능을 잘 구현할 수 있음이 입증되었습니다[28, 29]. 문제 이해[8, 9], 패턴 이해[30, 31], SQL 생성[32]을 위해 LLM을 향상시키는 연구가 계속 증가하고 있습니다.

텍스트-SQL 연구 분야에서 상당한 진전이 있었음에도 불구하고 강력한 범용 텍스트-SQL 시스템 개발을 방해하는 몇 가지 과제가 여전히 존재합니다 [ 73 ]. 최근 몇 년간 관련 연구에서는 딥러닝 접근 방식의 텍스트-SQL 시스템을 조사하고 이전의 딥러닝 접근 방식과 PLM 기반 연구에 대한 인사이트를 제공했습니다. 이 설문조사의 목표는 최신 발전 사항을 따라잡고 LLM 기반 텍스트-to-SQL의 최신 모델과 접근 방식에 대한 포괄적인 검토를 제공하는 것입니다. 먼저, 텍스트 변환과 관련된 기본 개념과 과제를 소개하고 다양한 영역에서 이 작업의 중요성을 강조합니다. 그런 다음, 텍스트-SQL 시스템의 구현 패러다임의 진화에 대해 심층적으로 살펴보고 이 분야의 주요 발전과 혁신에 대해 논의합니다. 개요에 이어 LLM 통합을 위한 텍스트-to-SQL의 최신 발전에 대한 자세한 설명과 분석이 이어집니다. 특히 이 설문조사 백서에서는 다음과 같은 LLM 기반 텍스트-SQL과 관련된 다양한 주제를 다룹니다:

● 데이터 세트 및 벤치마크LLM 기반 텍스트-SQL 시스템을 평가하기 위해 일반적으로 사용되는 데이터 세트와 벤치마크에 대한 자세한 설명입니다. 이러한 데이터 세트의 특성, 복잡성, 텍스트-SQL 개발 및 평가 시 제기되는 과제에 대해 설명합니다.

● 지표 평가콘텐츠 매칭 기반 및 실행 기반 예제를 포함하여 LLM 기반 텍스트-SQL 시스템의 성능을 평가하는 데 사용되는 평가 메트릭을 소개합니다. 그런 다음 각 지표의 특징에 대해 간략하게 설명합니다.

● 방법 및 모델이 백서에서는 문맥 학습 및 미세 조정을 기반으로 한 예시를 포함하여 LLM 기반 텍스트-to-SQL에 사용되는 다양한 접근 방식과 모델에 대한 체계적인 분석을 제시합니다. 다양한 구현 관점에서 텍스트 변환 작업의 구현 세부 사항, 장점 및 적응에 대해 논의합니다.

● 기대 및 향후 방향이 백서에서는 실제 환경에서의 견고성, 계산 효율성, 데이터 프라이버시, 확장성 등 LLM 기반 텍스트-SQL의 남은 과제와 한계에 대해 설명합니다. 향후 연구 방향과 개선 및 최적화를 위한 잠재적인 기회도 설명합니다.

개요

Text-to-SQL은 자연어 질문을 관계형 데이터베이스에서 실행할 수 있는 해당 SQL 쿼리로 변환하는 것을 목표로 하는 작업입니다. 공식적으로 사용자 질문 Q(사용자 쿼리, 자연어 질문 등)와 데이터베이스 스키마 S가 주어지면, 이 작업의 목표는 사용자 질문에 답하기 위해 데이터베이스에서 필요한 콘텐츠를 검색하는 SQL 쿼리 Y를 생성하는 것입니다. Text-to-SQL은 사용자가 SQL 프로그래밍 전문 지식 없이도 자연어를 사용하여 데이터베이스와 상호 작용할 수 있게 함으로써 데이터 액세스를 민주화할 수 있는 잠재력을 가지고 있습니다[75]. 숙련되지 않은 사용자도 데이터베이스에서 원하는 콘텐츠를 쉽게 검색하고 보다 효과적인 데이터 분석을 용이하게 함으로써 비즈니스 인텔리전스, 고객 지원, 과학 연구 등 다양한 분야에 도움이 될 수 있습니다.

A. Text-to-SQL의 과제

텍스트-SQL 구현의 기술적 과제는 다음과 같이 요약할 수 있습니다:

1)언어적 복잡성과 모호성자연어 문제는 중첩된 절, 공동 참조, 타원과 같은 복잡한 언어 표현을 포함하는 경우가 많기 때문에 SQL 쿼리의 해당 부분에 정확하게 매핑하기가 어렵습니다 [41]. 게다가 자연어는 본질적으로 모호하여 주어진 사용자 문제에 대해 여러 가지 가능한 표현이 존재합니다[76, 77]. 이러한 모호성을 해결하고 사용자 문제의 의도를 이해하려면 심층적인 자연어 이해와 문맥 및 도메인 지식을 통합하는 능력이 필요합니다[33].

2)패턴 이해 및 표현정확한 SQL 쿼리를 생성하기 위해서는 텍스트-SQL 시스템에서 테이블 이름, 열 이름, 개별 테이블 간의 관계 등 데이터베이스 스키마를 철저히 이해해야 합니다. 그러나 데이터베이스 스키마는 복잡하고 도메인마다 크게 다를 수 있습니다[13]. 텍스트-SQL 모델에서 효과적으로 활용할 수 있는 방식으로 스키마 정보를 표현하고 인코딩하는 것은 까다로운 작업입니다.

3)드물고 복잡한 SQL 작업일부 SQL 쿼리는 중첩된 하위 쿼리, 외부 조인, 창 함수 등 까다로운 시나리오에서 드물거나 복잡한 연산과 구문을 포함합니다. 이러한 연산은 학습 데이터에서 덜 일반적이며 텍스트-SQL 시스템의 정확한 생성에 문제를 일으킵니다. 드물고 복잡한 시나리오를 포함해 다양한 SQL 연산에 일반화할 수 있는 모델을 설계하는 것은 중요한 고려 사항입니다.

4)도메인 간 일반화텍스트에서 SQL 시스템으로의 변환은 다양한 데이터베이스 시나리오와 도메인에서 일반화하기 어려운 경우가 많습니다. 어휘, 데이터베이스 스키마 구조, 문제 패턴의 다양성으로 인해 특정 도메인에서 학습된 모델은 다른 도메인에서 제기되는 문제를 잘 처리하지 못할 수 있습니다. 최소한의 도메인별 학습 데이터 또는 미세 조정된 적응을 사용하여 새로운 도메인에 효과적으로 일반화할 수 있는 시스템을 개발하는 것은 주요 과제입니다[78].

B. 진화 과정

텍스트-SQL 연구 분야는 수년에 걸쳐 NLP 커뮤니티에서 큰 진전을 이루었으며, 규칙 기반에서 딥러닝 기반 접근 방식으로, 최근에는 사전 학습된 언어 모델(PLM)과 대규모 언어 모델(LLM)의 통합으로 발전해 왔으며, 그 진화 과정은 그림 2의 스케치에 나와 있습니다.

1) 규칙 기반 접근 방식초기 텍스트-SQL 시스템은 규칙 기반 접근 방식[11, 12, 26], 즉 수동으로 공식화된 규칙과 휴리스틱을 사용하여 자연어 문제를 SQL 쿼리에 매핑하는 방식에 크게 의존했습니다. 이러한 접근 방식에는 일반적으로 상당한 기능 엔지니어링과 도메인별 지식이 필요합니다. 규칙 기반 접근 방식은 특정 단순 도메인에서는 성공적이지만, 광범위한 복잡한 문제를 처리하는 데 필요한 유연성과 일반화 기능이 부족합니다.

2)딥러닝 기반 접근 방식딥 뉴럴 네트워크의 부상과 함께시퀀스 간 모델링 및 인코더-디코더 아키텍처(예: LSTM[79] 및 변환기[17])를 사용하여 자연어 입력에서 SQL 쿼리를 생성합니다[19 , 80 ]. 일반적으로 RYANSQL [19]은 복잡한 문제를 처리하고 도메인 간 일반성을 향상시키기 위해 중간 표현 및 스케치 기반 슬롯 채우기와 같은 기법을 도입합니다. 최근 연구자들은 스키마에 의존적인그래프는 데이터베이스 요소 간의 관계를 캡처합니다.첫 번째 단계는 새로운 텍스트-SQL 작업인그래프 신경망(GNN)[18,81].

3) PLM 기반 구현사전 학습된 언어 모델(PLM)은 사전 학습 중에 획득한 방대한 언어 지식과 의미 이해를 활용하여 텍스트-SQL을 위한 강력한 솔루션으로 부상했습니다.텍스트-SQL에 PLM을 적용한 초기에는 BERT [24] 및 RoBERTa [82] [13, 14]와 같은 표준 텍스트-SQL 데이터 세트에서 상용 PLM을 미세 조정하는 데 중점을 두었습니다. 이러한 PLM은 대규모 훈련 코퍼스에서 사전 학습되어 풍부한 의미적 표현과 언어 이해 기능을 캡처합니다. 연구자들은 텍스트-SQL 작업에서 이를 미세 조정함으로써 PLM의 의미론적 및 언어 이해 기능을 활용하여 정확한 SQL 쿼리를 생성하는 것을 목표로 합니다[20, 80, 83]. 또 다른 연구 방향은 사용자가 데이터베이스 구조를 이해하고 보다 실행 가능한 SQL 쿼리를 생성하는 데 도움이 되는 방식을 개선하기 위해 스키마 정보를 PLM에 통합하는 것입니다. 스키마 인식 PLM은 데이터베이스 구조에 존재하는 관계와 제약 조건을 캡처하도록 설계되었습니다[21].

4) LLM 기반 구현GPT 제품군[84 -86]과 같은 대규모 언어 모델(LLM)은 일관되고 유창한 텍스트를 생성하는 능력으로 최근 몇 년 동안 많은 주목을 받고 있습니다. 연구자들은 LLM의 광범위한 지식 기반과 우수한 생성 기능을 활용하여 텍스트-SQL의 잠재력을 탐구하기 시작했습니다[7, 9]. 이러한 접근 방식에는 일반적으로 SQL 생성 중에 독점 LLM의 힌트 엔지니어링을 지시하거나[47], 텍스트-to-SQL 데이터 세트에서 오픈 소스 LLM을 미세 조정하는 방식이 포함됩니다[9].

텍스트-to-SQL에 LLM을 통합하는 것은 여전히 새로운 연구 분야로, 더 많은 연구와 개선이 필요한 분야입니다. 연구자들은 LLM의 지식과 추론 능력을 더 잘 활용하고, 도메인별 지식을 통합하고[31, 33 ], 보다 효율적인 미세 조정 전략을 개발하는 방법을 연구하고 있습니다[10 ]. 이 분야가 계속 발전함에 따라 텍스트-SQL 성능과 일반화를 새로운 차원으로 끌어올릴 수 있는 더욱 발전되고 우수한 LLM 기반 구현이 개발될 것으로 예상됩니다.

벤치마크 및 평가

이 섹션에서는 잘 알려진 데이터 세트와 평가 메트릭을 포함한 텍스트-SQL 벤치마크를 제시합니다.

A. 데이터 세트

표 I에서 볼 수 있듯이, 데이터 세트는 "원본 데이터 세트"와 "주석 후 데이터 세트"로 분류됩니다. 데이터셋은 원본 데이터셋과 데이터베이스를 그대로 게시한 것인지, 아니면 기존 데이터셋과 데이터베이스에 특별한 설정을 적용하여 생성한 것인지에 따라 "원본 데이터셋"과 "주석 후 데이터셋"으로 분류됩니다. 원본 데이터셋의 경우 예제 수, 데이터베이스 수, 데이터베이스당 테이블 수, 데이터베이스당 행 수 등 자세한 분석이 제공됩니다. 주석이 달린 데이터 세트의 경우, 소스 데이터 세트가 식별되고 여기에 적용된 특정 설정이 설명됩니다. 각 데이터 세트의 잠재적 기회를 설명하기 위해 각 데이터 세트의 특성에 따라 주석을 달았습니다. 주석은 표 I의 맨 오른쪽에 나열되어 있습니다. 아래에서 더 자세히 설명합니다.

1) 교차 도메인 데이터 세트는 서로 다른 데이터베이스의 배경 정보가 서로 다른 도메인에서 나온 데이터셋을 의미합니다. 실제 텍스트-SQL 애플리케이션은 일반적으로 여러 도메인의 데이터베이스를 포함하므로, 대부분의 원본 텍스트-SQL 데이터세트[13,14,33 - 36]와 포스트 주석 데이터세트[37 - 43]는 크로스 도메인 설정으로 되어 있으며, 이는 크로스 도메인 애플리케이션에 적합합니다.

2) 지식이 강화된 데이터 세트최근 몇 년 동안, 도메인별 지식을 텍스트-SQL 작업에 통합하는 것에 대한 관심이 크게 증가했습니다. BIRD[33]는 인간 데이터베이스 전문가를 활용하여 숫자 추론 지식, 도메인 지식, 동의어 지식 및 가치 진술로 분류된 외부 지식으로 각 텍스트-SQL 샘플에 주석을 달 수 있습니다. 마찬가지로, Spider-DK[39]는 인간 편집자를 위해 SELECT 열이 생략되고, 간단한 추론이 필요하며, 셀 값이 있는 단어에서 동의어가 대체되고, 셀 값이 없는 단어가 조건을 생성하고, 다른 도메인과 충돌하기 쉬운 Spider 데이터 세트[13]의 버전을 수동으로 편집했습니다. 두 연구 모두 수동으로 주석을 단 지식이 외부 도메인 지식이 필요한 샘플의 SQL 생성 성능을 크게 향상시킨다는 사실을 발견했습니다. 또한 SQUALL [44]은 NL 문제의 단어와 SQL의 엔티티 간의 정렬을 수동으로 주석 처리하여 다른 데이터 세트보다 더 세밀한 감독을 제공합니다.

3) 상황에 맞는 데이터 세트SParC [43]와 CoSQL [35]은 세션 데이터베이스를 위한 쿼리 시스템을 구축하여 상황에 맞는 SQL 생성을 탐구합니다. 하나의 예제만 있는 단일 질문 SQL 쌍이 있는 기존의 텍스트-SQL 데이터 세트와 달리, SParC는 Spider 데이터 세트의 질문 SQL 예제를 여러 개의 하위 질문 SQL 쌍으로 분해하여 SQL 생성에 기여하는 상호 연관된 하위 질문과 데이터 다양성을 향상시키는 무관한 하위 질문을 포함하여 시뮬레이션되고 의미 있는 상호 작용을 구축합니다. 이와 대조적으로 CoSQL은 실제 시나리오를 시뮬레이션하여 복잡성과 다양성을 높이는 자연어 대화 상호 작용을 포함합니다. 또한 Spider-SS&CG[38]는 Spider 데이터 세트[13]의 NL 문제를 여러 하위 문제와 하위 SQL로 분할하여 이러한 하위 예제에 대한 훈련이 텍스트-SQL 시스템의 일반화 기능의 샘플 분포를 향상시킨다는 것을 입증했습니다.

4) 견고성 데이터 세트오염되거나 뒤섞인 데이터베이스 콘텐츠(예: 스키마 및 테이블)가 있는 경우 텍스트-SQL 시스템의 정확도를 평가하는 것은 견고성을 평가하는 데 매우 중요합니다.Spider-Realistic[41]은 NL 질문에서 명시적으로 스키마 관련 용어를 제거하는 반면 Spider-SYN[40]은 수동으로 선택한 동의어로 대체합니다.ADVETA [ 37 ]는 원래 열 이름을 오해의 소지가 있는 대체어로 바꾸고 의미적 관련성은 높지만 의미적 동등성이 낮은 새 열을 삽입하여 테이블을 교란하는 적대적 테이블 교란(ATP)을 도입했습니다. 이러한 교란은 NL 문제에서 토큰과 데이터베이스 엔티티 간의 잘못된 일치로 인해 덜 강력한 텍스트-SQL 시스템이 오해를 일으킬 수 있으므로 정확도를 크게 떨어뜨릴 수 있습니다.

5) 언어 간 데이터 세트SQL 키워드, 함수 이름, 테이블 이름 및 열 이름은 종종 영어로 작성되어 다른 언어로 된 애플리케이션에 문제가 됩니다.CSpider [42]는 Spider 데이터 세트를 중국어로 번역하여 중국어 질문과 영어 데이터베이스 콘텐츠 간의 단어 분할 및 교차 언어 일치에서 새로운 과제를 발견했습니다.DuSQL [34]은 실용적인 텍스트-to-SQL 데이터 세트를 소개합니다. 중국어 질문과 영어 및 중국어 데이터베이스 콘텐츠.

나. 평가 지표

텍스트-SQL 작업에 널리 사용되는 네 가지 평가 지표는 다음과 같습니다. SQL 콘텐츠 일치를 기반으로 하는 "구성 요소 일치" 및 "정확한 일치", 실행 결과를 기반으로 하는 "실행 정확도". " 및 "유효 효율성 점수".

1) 콘텐츠 매칭에 기반한 지표SQL 콘텐츠 일치 메트릭은 주로 예측된 SQL 쿼리와 기본 실제 SQL 쿼리의 구조적 및 구문적 유사성을 기반으로 합니다.

컴포넌트 매칭(CM)[13] 텍스트-SQL 시스템의 성능은 F1 점수를 사용하여 예측된 SQL 구성 요소(SELECT, WHERE, GROUP BY, ORDER BY 및 KEYWORDS)와 실제 SQL 구성 요소(GROUP BY, ORDER BY 및 KEYWORDS) 간의 정확한 일치도를 측정하여 평가합니다. 각 구성 요소는 하위 구성 요소의 집합으로 분해되어 순서 제약 없이 SQL 구성 요소를 고려하여 정확히 일치하는지 비교됩니다.

정확히 일치(EM))[13]은 예측된 SQL 쿼리가 기준값 SQL 쿼리와 정확히 일치하는 예의 비율을 측정합니다. 예측된 SQL 쿼리는 모든 구성 요소(CM에 설명된 대로)가 기준값 쿼리의 구성 요소와 정확히 일치하는 경우에만 올바른 것으로 간주됩니다.

2) 구현 기반 지표실행 결과 메트릭은 대상 데이터베이스에서 쿼리를 실행하여 얻은 결과를 예상 결과와 비교하여 생성된 SQL 쿼리의 정확성을 평가합니다.

실행 정확도(EX)[13] 예측된 SQL 쿼리의 정확성은 해당 데이터베이스에서 쿼리를 실행하고 그 결과를 기본 실제 쿼리에서 얻은 결과와 비교하여 측정합니다.

유효 효율성 점수(VES)33]의 정의는 효과적인 SQL 쿼리의 효율성을 측정하는 것입니다. 효과적인 SQL 쿼리는 실행 결과가 기본 실제 결과와 동일한 예측된 SQL 쿼리입니다. 구체적으로 VES는 다음을 동시에 평가합니다.SQL 쿼리의 효율성과 정확성 예측하기. N개의 예가 포함된 텍스트 데이터 집합의 경우 VES는 다음과 같이 계산됩니다:

R(Y_n, Y_n)은 실제 쿼리와 비교하여 예측된 SQL 쿼리의 상대적인 실행 효율을 나타냅니다.

가장 최근의 LLM 기반 텍스트-SQL 연구는 이 네 가지 데이터 세트인 Spider [13], Spider-Realistic [41], Spider-SYN [40], BIRD [33]와 다음 분석의 초점이 될 세 가지 평가 방법인 EM, EX, VES에 초점을 맞췄습니다.

방법론

강력한 독점적이고 잘 설계된 오픈 소스 모델이 대량으로 출시되면서 [45,86,92-95] 현재 LLM 기반 애플리케이션의 구현은 상황에 맞는 학습(ICL) [87-89] 및 미세 조정(FT) [90,91] 패러다임에 크게 의존하고 있습니다. LLM 기반 텍스트-SQL 시스템은 이러한 패러다임에 따라 구현됩니다. 이 설문조사에서는 그에 따라 논의될 것입니다.

A. 상황별 학습

광범위하고 잘 알려진 연구를 통해 힌트 엔지니어링은 LLM의 성능에 결정적인 역할을 하는 것으로 밝혀졌습니다[28 , 96 ]뿐만 아니라 다양한 힌트 스타일에 따라 SQL 생성에 영향을 미칩니다[9 , 46]. 따라서 문맥 학습(ICL) 패러다임에서 텍스트-SQL 방법의 개발은 유망한 개선을 달성하는 데 유용합니다. 실행 가능한 SQL 쿼리 Y를 생성하는 LLM 기반 텍스트-to-SQL 프로세스의 구현은 다음과 같이 공식화할 수 있습니다:

문맥 학습(ICL) 패러다임에서는 기성 텍스트-SQL 모델(즉, 모델의 파라미터 θ가 고정되어 있음)을 사용하여 예측된 SQL 쿼리를 생성합니다. LLM 기반 텍스트-SQL 작업은 ICL 패러다임에서 잘 설계된 다양한 방법을 사용합니다. 이러한 방법은 C0-단순 힌트, C1-분해, C2- 힌트 최적화, C3- 추론 강화 및 C4- 실행 세분화 등 5가지 카테고리로 분류됩니다. 표 II에는 각 카테고리의 대표자가 나와 있습니다.

C0- 사소한 프롬프트대규모 데이터로 훈련된 LLM은 제로 샘플과 적은 수의 단서[90 , 97, 98 ]로 다양한 다운스트림 작업에서 전반적으로 높은 숙련도를 보이며, 이는 실제 애플리케이션에서 널리 인정받고 적용됩니다. 설문조사에서 앞서 언급한 정교한 프레이밍이 없는 프롬프트 방식은 사소한 프롬프트(잘못된 프롬프트 엔지니어링)로 분류되었습니다. 위에서 언급했듯이 식 3은 LLM 기반 텍스트-SQL 프로세스를 설명하며, 이는 제로 샘플 프롬프트를 나타낼 수도 있습니다. 전체 입력 P0은 I, S, Q를 연결하여 얻을 수 있습니다:

프롬프트 프로세스를 표준화하기 위해 OpenAI 데모2는 텍스트에서 SQL로 변환하는 표준(간단한) 프롬프트로 설정되었습니다[30].

제로 샘플많은 연구[7,27,46]에서 제로 샘플 힌트를 활용하며, 힌트 구성 스타일과 다양한 LLM이 텍스트-to-SQL의 제로 샘플 성능에 미치는 영향에 초점을 맞추고 있습니다. 경험적 평가로서 [7]에서는 기본 텍스트-to-SQL 기능 및 다양한 힌트 스타일에 대해 초기에 개발된 다양한 LLM[85, 99, 100]의 성능을 평가했습니다. 그 결과, 온더플라이 설계가 성능에 매우 중요하며, 오류 분석을 통해 [7]은 더 많은 데이터베이스 콘텐츠가 전반적인 정확도를 해칠 수 있음을 시사했습니다. 따라서 ChatGPT 대화 시나리오 및 코드 생성에서 인상적인 기능을 갖춘 [101], [27]은 텍스트-SQL 성능을 평가했습니다. 제로 샘플 설정에서 ChatGPT의 텍스트-SQL 성능은 최첨단 PLM 기반 시스템과 비교했을 때 매우 고무적인 것으로 나타났습니다. 공정한 비교를 위해 [47]에서는 다양한 스타일의 프롬프트 구성을 조사하고 이를 바탕으로 제로 샘플 프롬프트 설계를 통해 LLM 기반 텍스트-to-SQL에 효과적인 프롬프트 구성을 밝혀냈습니다.

기본 키와 외래 키는 서로 다른 테이블에 대한 지속적인 지식을 전달합니다. [49]에서는 이러한 키를 다양한 데이터베이스 콘텐츠에 대한 다양한 힌트 스타일에 통합하고 제로 샘플 힌트 결과를 분석하여 그 영향을 연구했습니다. 벤치마크 평가[9]에서도 지시어, 규칙 의미, 외래 키의 순열로 간주할 수 있는 5가지 힌트 표현 스타일을 각각 포함시켜 외래 키의 영향력을 조사했습니다. 이 연구에서는 외부 키 외에도 간결한 결과를 수집하기 위해 제로 샘플 힌트와 "무해석" 규칙 함축의 조합도 살펴봤습니다. 인간 전문가의 외부 지식 주석의 지원을 받아 [33 ] 표준 힌트를 따르고 제공된 주석이 달린 오라클 지식을 결합하여 개선을 달성했습니다.

오픈 소스 LLM이 폭발적으로 증가함에 따라 이러한 모델도 유사한 평가[45, 46, 50], 특히 코드 생성 모델[46, 48]에 따라 제로 샘플 텍스트-SQL 작업을 수행할 수 있습니다. 제로 샘플 힌팅 최적화를 위해 [46]은 LLM에 효과적인 힌팅 템플릿을 설계해야 하는 과제를 제시했는데, 이전 힌팅 구성의 구조적 통일성이 부족하여 힌팅 구성 템플릿에서 LLM의 성능에 영향을 미치는 특정 요소를 식별하기 어려웠습니다. 이 문제를 해결하기 위해 다양한 접두사, 접미사, 접두사-접미사로 조정된 보다 통일된 일련의 힌트 템플릿을 조사했습니다.

몇 가지 팁소수의 힌트 기법은 실제 응용과 잘 설계된 연구 모두에서 널리 사용되어 왔으며, LLM의 성능을 향상시키는 데 효과적인 것으로 나타났습니다 [ 28 , 102 ]. 소수의 힌트를 위한 LLM 기반 텍스트-SQL 힌팅 방식의 전체 입력 힌팅은 식 3의 확장으로 공식화할 수 있습니다:

경험적 연구로서, 텍스트-to-SQL에 대한 원샷 트리거는 여러 데이터 세트와 다양한 LLM에 걸쳐 평가되었으며[8 , 32], 제로 샘플 트리거에 비해 우수한 성능을 보였습니다. [33]에서는 정확한 SQL을 생성하기 위한 텍스트-to-SQL 모델의 원샷 트리거에 대한 자세한 예를 제공합니다. [55]는 소수의 예제를 통해 그 영향을 조사합니다. [52]는 서로 다른 예제 간의 유사성과 다양성을 조사하고, 무작위 샘플링을 벤치마킹하고, 다양한 전략8과 그 조합을 비교 평가함으로써 샘플링 전략에 초점을 맞추고 있습니다. 또한, [9]에서는 유사성 기반 선택 외에도 마스킹 문제에 대한 유사성 선택의 상한과 샘플 예시 수가 적은 다양한 유사성 방법을 평가합니다. 난이도 수준에서의 표본 선택에 대한 연구[51]에서는 난이도 범주 데이터 세트[13, 41]에서 소량 표본 코덱스[100]의 성능을 무작위 및 난이도 기반 소량 표본 인스턴스 선택과 비교했습니다. 서로 다른 난이도에서 선택된 샘플의 수에 따라 세 가지 난이도 기반 선택 전략이 설계되었습니다. [49]는 적은 수의 단서에 대해 정적 예제와 유사도 기반 동적 예제를 결합한 하이브리드 전략을 사용하여 샘플을 선택했습니다. 이 연구에서는 다양한 입력 패턴 스타일과 다양한 정적 및 동적 샘플 크기의 효과도 평가했습니다.

도메인에 걸쳐 적은 수의 예제가 미치는 영향도 조사 중입니다[54 ]. 서로 다른 수의 도메인 내 예제와 도메인 외 예제를 포함했을 때 도메인 내 예제가 0차 및 도메인 외 예제보다 성능이 더 우수했습니다.예제 수가 증가함에 따라 도메인 내 예제의 성능이 향상됩니다.. 입력 힌트의 세부적인 구성을 살펴보기 위해 [53]에서는 간결한 힌트와 장황한 힌트의 설계 접근 방식을 비교했습니다. 전자는 스키마, 열 이름, 기본 키 및 외래 키를 항목별로 분할하는 반면, 후자는 자연어 설명으로 구성합니다.

C1-분해직관적인 해결책으로, 어려운 사용자 문제를 더 간단한 하위 문제로 분해하거나 여러 구성 요소를 사용하여 구현하면 전체 텍스트-SQL 작업의 복잡성을 줄일 수 있습니다 [8, 51]. 덜 복잡한 문제를 처리하는 LLM은 보다 정확한 SQL을 생성할 수 있는 잠재력을 가지고 있습니다.LLM 기반 텍스트-SQL 분해 방법은 크게 두 가지 패러다임으로 나뉩니다:(1) 하위 작업의 분류또한 전체 텍스트-SQL 작업을 보다 관리하기 쉽고 효율적인 하위 작업(예: 스키마 연결 [71], 도메인 분류 [54])으로 세분화하여 최종 SQL 생성을 지원하기 위한 추가 구문 분석이 제공됩니다.(2) 하위 문제 분해사용자 문제를 하위 문제로 분해하여 문제의 복잡성과 난이도를 낮추고, 이 문제들을 해결하여 최종 SQL 쿼리를 도출하여 하위 SQL을 생성합니다.

DIN-SQL[8]에서는 스키마 연결, 분류 및 분해, SQL 생성, 자가 수정의 네 가지 모듈로 구성된 분해형 컨텍스트 학습 방법을 제안했는데, 먼저 사용자 문제와 대상 데이터베이스 간의 스키마 링크를 생성하고, 후속 모듈에서 사용자 문제를 관련 하위 문제로 분해하고 난이도를 분류합니다. 위의 정보를 바탕으로 SQL 생성 모듈이 해당 SQL을 생성하고, 자가 수정 모듈이 예측된 SQL의 잠재적 오류를 식별하여 수정합니다. 이 접근 방식은 하위 문제 분해를 하위 과제 분해의 한 모듈로 취급하며, 코더-리뷰어[56] 프레임워크는 명령어 생성을 위한 코더 모델과 명령어의 가능성을 평가하는 리뷰어 모델을 결합한 재순서화 접근 방식을 제안합니다.

연쇄 사고[103] 및 최소값에서 최대값까지의 팁[104]을 참조하여QDecomp[51]은 문제 분해 큐를 도입하여 마지막에서 가장 마지막 큐에서 문제 축소 단계를 따르고 중간 추론 단계로 원래 복잡한 문제의 분해를 수행하도록 LLM에 지시합니다.

C3 [30 ]은 명확성 힌트, 보정 편향 힌트, 일관성의 세 가지 핵심 구성 요소로 구성되어 있으며, 이러한 구성 요소는 ChatGPT에 다양한 작업을 할당하여 구현됩니다. 먼저, 명확성 힌트 구성 요소는 스키마 링크와 정제된 질문 관련 스키마를 명확성 힌트로 생성합니다. 그런 다음, 텍스트-SQL 힌트에 대한 여러 차례의 대화가 보정 편향 힌트로 사용되며, 이 힌트는 명확성 힌트와 함께 SQL 생성을 안내합니다. 생성된 SQL 쿼리는 일관성 및 실행 기반 투표를 통해 필터링되어 최종 SQL을 얻습니다.

MAC-SQL[57]은 다중 에이전트 협업 프레임워크를 제안했는데, 텍스트-SQL 프로세스는 셀렉터, 분해기, 정제기와 같은 에이전트와의 협업을 통해 이루어집니다. 셀렉터는 사용자 문제에 대한 관련 테이블을 유지하고, 디코포저는 사용자 문제를 하위 문제로 나누고 해결책을 제공하며, 마지막으로 리파이너는 결함이 있는 SQL의 유효성을 검사하고 최적화합니다.

DEA- SQL [58]에서는 분해를 통해 LLM 기반 텍스트-to-SQL의 주의력과 문제 해결 범위를 개선하는 것을 목표로 하는 워크플로우 패러다임을 소개합니다. 이 접근 방식은 SQL 생성 모듈이 해당 전제 조건(정보 결정, 문제 분류) 및 후속(자가 수정, 능동 학습) 하위 작업을 갖도록 전체 작업을 분해합니다. 이 워크플로우 패러다임을 통해 LLM은 보다 정확한 SQL 쿼리를 생성할 수 있습니다.

SGU-SQL [32 ]는 내재된 구조 정보를 사용하여 SQL 생성을 지원하는 구조 대 SQL 프레임워크입니다. 구체적으로, 이 프레임워크는 사용자 질문과 해당 데이터베이스에 대한 그래프 구조를 각각 구축한 다음 인코딩된 그래프를 사용하여 구조적 링크를 구축합니다[105 , 106]. 메타 연산자는 구문 트리를 사용하여 사용자 문제를 분해하는 데 사용되며, 마지막으로 SQL의 메타 연산자는 입력 프롬프트를 설계하는 데 사용됩니다.

MetaSQL [59 ]에서는 SQL 생성에 대한 3단계 접근 방식인 분해, 생성, 정렬을 소개합니다. 분해 단계에서는 시맨틱 분해와 메타데이터의 조합을 사용하여 사용자 문제를 처리합니다. 이전에 처리된 데이터를 입력으로 사용하여 메타데이터 조건에서 생성된 텍스트-SQL 모델을 사용하여 일부 후보 SQL 쿼리를 생성합니다. 마지막으로 2단계 정렬 파이프라인을 적용하여 글로벌 최적 SQL 쿼리를 얻습니다.

PET-SQL [60 ]은 힌트로 강화된 2단계 프레임워크를 제시합니다. 먼저, 잘 설계된 힌트를 통해 LLM이 유사성을 기반으로 몇 가지 작은 데모를 선택하여 예비 SQL(PreSQL)을 생성하도록 지시합니다. 그런 다음, PreSQL을 기반으로 스키마 링크를 찾아 결합하여 LLM이 최종 SQL(FinSQL)을 생성하도록 지시합니다. 마지막으로, 실행 결과를 기반으로 일관성을 보장하기 위해 여러 LLM을 사용하여 FinSQL을 생성합니다.

C2-프롬프트 최적화앞서 설명한 바와 같이, LLM을 큐잉하기 위한 소수차 학습은 광범위하게 연구되어 왔습니다[85]. LLM 기반 텍스트-SQL(text-to-SQL) 및 컨텍스트 학습의 경우, 간단한 몇 분 단위 방법으로 유망한 결과를 얻었으며[8, 9, 33], 몇 분 단위 힌트를 더욱 최적화하면 성능을 개선할 수 있는 잠재력을 가지고 있습니다. 기성 LLM에서 SQL 생성의 정확도는 해당 입력 힌트의 품질에 크게 좌우되므로[107], 힌트의 품질에 영향을 미치는 많은 결정 요인들이 현재 연구의 초점이 되어 왔습니다[9](예: 올리고 힌트 구성의 질과 양, 사용자 9 문제와 올리고 힌트 인스턴스 간의 유사성, 외부 지식/힌트).

DESEM [62 ]는 의미 제거 및 스켈레톤 검색 기능을 갖춘 큐 엔지니어링 프레임워크입니다. 이 프레임워크는 먼저 도메인별 단어 마스킹 모듈을 사용하여 사용자 질문의 의도를 보존하는 의미 토큰을 제거합니다. 그런 다음 조정 가능한 힌트 모듈을 사용하여 질문과 동일한 의도를 가진 소수의 예시를 검색하고, 이를 패턴 관련성 필터링과 결합하여 LLM을 위한 SQL 생성을 안내합니다.

QDecomp [51 ] 이 프레임워크는 분해된 하위 문제와 연관된 테이블 및 열 이름을 점진적으로 결합하는 InterCOL 메커니즘을 도입합니다. 난이도 기반 선택을 통해 소수의 QDecomp 예제들이 난이도에 따라 샘플링됩니다. 유사도-다양성 샘플링 외에도 [52 ]는 SD+SA+투표(유사도-다양성+패턴 증강+투표) 샘플링 전략을 제안했습니다. 먼저 의미적 유사도와 k-평균 클러스터링 다양성을 사용하여 소수의 예제를 샘플링한 다음 패턴 지식(의미적 또는 구조적 증강)을 사용하여 단서를 보강했습니다.

C3 30 ] 프레임워크는 질문과 스키마를 LLM에 입력으로 받는 명확한 힌트 구성 요소와 사용자의 질문과 관련이 없는 중복 정보를 제거한 스키마와 스키마 링크를 포함하는 명확한 힌트를 생성하는 보정 구성 요소로 구성되며, LLM은 이러한 구성을 SQL 생성을 위한 문맥 강화 힌트로 활용합니다. 검색 향상 프레임워크는 샘플 인식 힌트[64]를 도입하여 원래 문제를 단순화하고 단순화된 문제에서 문제 골격을 추출한 다음 골격의 유사성을 기반으로 리포지토리에서 샘플 검색을 완료합니다. 검색된 샘플은 원래 문제와 결합하여 적은 수의 힌트를 얻습니다.

ODIS [54]에서는 도메인 외부 프레젠테이션과 도메인 내 합성 데이터를 사용한 샘플 선택을 도입하여 여러 소스에서 소수의 프레젠테이션을 검색하여 큐 특성화를 향상시킵니다.

DAIL- SQL[9]는 소수의 예제를 샘플링하고 구성하는 문제를 해결하여 소수의 예제의 질과 양 사이의 균형을 맞추는 새로운 접근 방식을 제안했습니다. DAIL Selection은 먼저 사용자의 도메인별 어휘와 소수의 예제 문제를 마스킹한 다음 내장된 유클리드 거리를 기반으로 후보 예제들의 순위를 매깁니다. 동시에 미리 예측된 SQL 쿼리 간의 유사도를 계산합니다. 마지막으로, 선택 메커니즘은 미리 정의된 기준에 따라 유사도별로 정렬된 후보 예제를 얻습니다. 이 접근 방식을 사용하면 소수의 예제가 문제와 SQL 쿼리 모두와 우수한 유사성을 갖도록 보장합니다.

ACT-SQL[49]에서는 유사성 점수를 기반으로 한 동적 선택의 예를 제시했습니다.

FUSED[65]는 수작업이 필요 없는 여러 번의 합성 반복을 통해 다양성이 높은 프레젠테이션 풀을 구축하여 소수 샷 프레젠테이션의 다양성을 향상시킬 것을 제안하며, FUSED의 파이프라인은 클러스터링을 통해 융합할 프레젠테이션을 샘플링한 후 샘플링된 프레젠테이션을 융합하여 프레젠테이션 풀을 구축함으로써 소수 샷 학습의 효과를 향상시킵니다.

Knowledge-to-SQL [31] 이 프레임워크는 SQL 생성을 위한 지식을 제공하기 위해 데이터 전문가 LLM(DELLM)을 구축하는 것을 목표로 합니다.

DELLM 은 인간 전문가 주석을 사용한 감독 미세 조정을 통해 학습되고[33] 데이터베이스의 피드백을 기반으로 선호도 학습을 통해 더욱 개선됩니다.DELLM은 네 가지 유형의 지식을 생성하고 잘 설계된 방법(예: DAIL-SQL[9], MAC-SQL[57 ])은 생성된 지식을 통합하여 상황 학습을 통해 LLM 기반 텍스트-to-SQL의 성능을 향상시킵니다.

C3-리소싱 향상:LLM은 상식 추론, 기호 추론, 산술 추론과 관련된 작업에서 좋은 능력을 보여주었습니다 [108]. 텍스트-SQL 작업에서 숫자 추론과 동의어 추론은 현실적인 시나리오에서 자주 등장합니다 [ 33 , 41 ].LLM을 사용한 추론에 대한 힌트 전략은 SQL 생성을 개선할 수 있는 잠재력을 가지고 있습니다. 최근의 연구는 텍스트-SQL 변환을 위해 잘 설계된 추론 향상 방법을 통합하고, 정교한 추론이 필요한 복잡한 문제의 과제에 대처하기 위해 LLM을 개선하고3 , SQL 생성의 자체 일관성을 높이는 데 중점을 두고 있습니다.

생각의 연쇄(CoT) 힌트 기법[103]은 LLM을 정확한 추론으로 안내하고 LLM의 추론 능력을 자극하는 종합적인 추론 과정으로 구성됩니다. LLM 텍스트-SQL 기반 연구에서는 CoT 힌트를 규칙 힌트로 활용하며[9], 힌트 구성에 "단계별로 생각해 보자"는 지침을 설정합니다[9, 32, 33, 51]. 그러나 텍스트-SQL 작업에 대한 간단한(원시적인) CoT 전략은 다른 추론 작업에 대한 잠재력을 보여주지 못했으며, CoT의 적용에 대한 연구는 여전히 진행 중입니다[51]. CoT 힌트는 항상 수동 주석이 있는 정적 예제를 사용하여 시연되기 때문에 수동 주석이 필수적인 소수의 예제를 효과적으로 선택하기 위해서는 경험적 판단이 필요합니다.

솔루션으로.ACT-SQL [49]에서는 CoT 예제를 자동으로 생성하는 방법을 제안합니다. 구체적으로, ACT-SQL은 문제가 주어지면 문제의 조각 집합을 잘라낸 다음 해당 SQL 쿼리에 나타나는 각 열을 열거합니다. 각 열은 유사성 함수를 통해 가장 관련성이 높은 슬라이스와 연결되고 CoT 힌트에 추가됩니다.

QDecomp [51] CoT 힌트와 함께 LLM의 SQL 생성을 향상시키는 체계적인 연구를 통해, CoT가 SQL 쿼리 예측을 위한 추론 단계를 어떻게 제안하는지에 대한 문제를 해결하기 위한 새로운 프레임워크가 제안되었습니다. 이 프레임워크는 SQL 쿼리의 각 조각을 사용하여 CoT 추론의 논리적 단계를 구성한 다음 자연어 템플릿을 사용하여 SQL 쿼리의 각 조각을 정교화하고 논리적 실행 순서로 정렬합니다.

최소에서 최대 [104 ]는 문제를 하위 문제로 나눈 다음 순차적으로 해결하는 또 다른 힌트 기법입니다. 반복적 힌트로서 파일럿 실험[51]에 따르면 이 접근 방식은 텍스트-SQL 구문 분석에 필요하지 않을 수 있습니다. 세부적인 추론 단계를 사용하면 오류 전파 문제가 더 많이 발생하는 경향이 있습니다.

CoT의 변형으로생각의 프로그램(POT)LLM의 산술적 추론을 향상시키기 위해 힌트 전략[109]이 제안되었습니다.

평가[55]를 통해, 특히 복잡한 데이터 세트[33]에서 SQL로 생성된 LLM을 개선합니다.

SQL-CRAFT [55 ]는 파이썬 증강 추론에 PoT 힌트를 통합하여 LLM 기반 SQL 생성을 강화하기 위해 제안되었으며, PoT 전략은 모델이 파이썬 코드와 SQL 쿼리를 모두 생성하도록 요구하여 모델이 추론 프로세스에 파이썬 코드를 통합하도록 강제합니다.

자체 일관성[110]은 복잡한 추론 문제에서 일반적으로 여러 가지 사고 방식을 통해 고유한 정답에 도달할 수 있다는 직관을 활용하는 LLM 추론을 개선하기 위한 힌트 전략입니다. 텍스트-SQL 작업에서 자체 일관성은 서로 다른 SQL 집합을 샘플링하고 실행 피드백을 통해 일관된 SQL에 투표하는 데 적용됩니다[30 , 53 ].

마찬가지로.SD+SA+투표 [52] 이 프레임워크는 결정론적 데이터베이스 관리 시스템(DBMS)에서 식별한 실행 오류를 거부하고 과반수 이상의 표를 얻은 예측을 선택합니다.

또한, LLM의 기능을 확장하기 위한 도구 사용에 대한 최근 연구에 힘입어FUXI [66]은 잘 설계된 도구를 효율적으로 호출하여 LLM을 위한 SQL 생성을 향상시키기 위해 제안되었습니다.

C4-실행 개선정확한 SQL 생성을 위한 표준을 설계할 때는 항상 생성된 SQL이 성공적으로 실행되어 사용자의 질문에 대한 정확한 답을 얻을 수 있는지 여부가 우선시됩니다[13]. 복잡한 프로그래밍 작업인 만큼 한 번에 정확한 SQL을 생성하는 것은 매우 어려운 일입니다. 직관적으로, SQL 생성 시 실행 피드백/결과를 고려하면 해당 데이터베이스 환경에 맞게 조정하는 데 도움이 되며, 이를 통해 LLM은 잠재적인 실행 오류와 결과를 수집하여 생성된 SQL을 수정하거나 다수결 투표를 할 수 있습니다[30]. 텍스트-SQL 실행 인식 접근 방식은 크게 두 가지 방식으로 실행 피드백을 통합합니다:

1) 두 번째 프롬프트를 통해 피드백 다시 생성하기초기 응답에서 생성된 각 SQL 쿼리에 대해 적절한 데이터베이스에서 실행되어 데이터베이스에서 피드백을 받습니다. 이 피드백은 두 번째 프롬프트에 추가될 오류 또는 결과일 수 있습니다. 이 피드백을 맥락에서 학습함으로써 LLM은 정확도를 개선하기 위해 원본 SQL을 수정하거나 다시 생성할 수 있습니다.

2) 생성된 SQL에 실행 기반 선택 정책 사용에서 생성된 여러 SQL 쿼리를 샘플링하고 데이터베이스에서 각 쿼리를 실행합니다. 각 SQL 쿼리의 실행 결과를 기반으로 선택 전략(예: 자체 일관성, 다수결 투표[60])을 사용하여 조건을 만족하는 SQL 세트의 SQL 쿼리를 최종 예측 SQL로 정의합니다.

MRC-EXEC [67 ]은 샘플링된 각 SQL 쿼리의 순위를 매기고 베이즈 위험에 따라 실행 결과가 가장 작은 예제를 선택하는 실행을 통해 자연어에서 코드로(NL2Code) 번역 프레임워크를 제안했습니다[111].레버 [68]에서는 생성 및 실행 모듈을 사용하여 각각 SQL 집합과 그 실행 결과의 샘플을 수집한 다음 학습 검증기를 사용하여 정확성 확률을 출력하는 실행을 통해 NL2Code를 검증하는 방법을 제안합니다.

비슷한 맥락입니다.셀프 디버깅 [48] 이 프레임워크는 또한 몇 가지 데모를 통해 LLM이 예측된 SQL을 디버그하도록 가르칩니다. 이 모델은 실행 결과를 조사하고 생성된 SQL을 자연어로 해석하여 사람의 개입 없이 오류를 수정할 수 있습니다.

앞서 언급했듯이, 잘 설계된 프레임워크와 구현 피드백을 결합하기 위해 2단계 함축이 광범위하게 사용되었습니다:1. SQL 쿼리 집합 샘플링. 2. 다수결 투표(자체 일관성).구체적으로C3[30] 이 프레임워크는 오류를 제거하고 가장 일관된 SQL을 식별합니다;검색 개선 프레임워크[64]는 동적 리비전 체인을 도입합니다.SQL 라이브러리는 세분화된 실행 메시지를 데이터베이스 콘텐츠와 결합하여 생성된 SQL 쿼리를 자연어 해석으로 변환하도록 LLM을 유도하는 자체 수정 모듈로 설계되었으며, LLM은 의미적 차이를 식별하고 자체 생성된 SQL을 수정하도록 요청받았다.스키마 필터링 방법은 SQL 생성을 향상시키지만 생성된 SQL은 실행 불가능할 수 있다.DESEM [62]은 이 문제를 해결하기 위해 폴백 개정을 병합했다. 다양한 유형의 오류에 따라 SQL 라이브러리를 수정 및 재생성하고 루프를 방지하기 위해 종료 조건을 설정합니다.DIN-SQL [8]은 자체 수정 모듈에 일반 힌트와 부드러운 힌트를 고안했습니다. 일반 힌트는 LLM이 오류를 식별하고 수정하도록 요구하고 부드러운 힌트는 모델이 잠재적 문제를 확인하도록 요구합니다.

멀티 에이전트 프레임워크MAC-SQL[57]에는 SQL 오류를 감지하고 자동으로 수정하는 개선 에이전트가 포함되어 있으며, 문제마다 다른 수정 횟수가 필요할 수 있으므로 SQLite 오류 및 예외 클래스를 사용하여 수정된 SQL을 다시 생성합니다.SQL-CRAFT [55] 이 프레임워크는 과잉 보정 또는 과소 보정을 방지하기 위해 대화형 보정 및 결정 과정의 자동 제어를 도입합니다. FUXI [66]에서는 SQL 생성을 위한 도구 기반 추론에서 오류 피드백을 고려합니다. Knowledge-to-SQL [31]에서는 데이터베이스 실행 피드백과 직접 선호도 최적화를 결합한 선호도 학습 프레임워크[112]를 도입하여 제안된 DELLM을 개선했습니다.PET-SQL[60]에서는 두 가지 변형으로 구성된 교차 일관성을 제안했습니다. 1) 일반 투표: 여러 LLM에 SQL 쿼리를 생성하도록 지시한 다음 서로 다른 실행 결과를 바탕으로 최종 SQL을 결정하기 위해 다수결 투표를 활용하고 2) 세분화된 투표: 투표 편향성을 완화하기 위해 난이도에 따라 일반 투표를 세분화합니다.

B. 미세 조정

지도 미세 조정(SFT)은 오픈 소스 LLM(예: LLaMA-2 [94 ], Gemma [113])의 경우 LLM을 훈련하는 데 지배적인 접근 방식이므로 특정 도메인에 모델을 빠르게 적용하는 가장 간단한 방법은 수집된 도메인 레이블을 사용하여 모델에 SFT를 수행하는 것입니다.SFT 단계는 일반적으로 잘 설계된 훈련 프레임워크[112, 114] 및 텍스트-SQL 미세 조정 단계의 초기 단계입니다. 114], 텍스트-SQL 미세 조정 단계로 구성되며, SQL 쿼리 Y에 대한 자동 회귀 생성 프로세스는 다음과 같이 공식화할 수 있습니다:

SFT 접근 방식은 텍스트-to-SQL을 위한 가상의 미세 조정 방법이기도 하며, 텍스트-to-SQL 연구에서 다양한 오픈 소스 LLM에 의해 널리 채택되었습니다 [9, 10 , 46 ]. 미세 조정 패러다임은 문맥 학습(ICL) 접근 방식보다 LLM 기반 텍스트-to-SQL 시작점을 선호합니다. 더 나은 미세 조정 방법을 모색하는 여러 연구가 발표되었습니다. 잘 설계된 미세 조정 방법은 표 IV에 나와 있는 것처럼 메커니즘에 따라 여러 그룹으로 분류됩니다:

향상된 아키텍처널리 사용되는 생성형 사전 훈련 트랜스포머(GPT) 프레임워크는 디코더 전용 트랜스포머 아키텍처와 기존의 자동 회귀 디인코딩을 사용하여 텍스트를 생성합니다. LLM의 효율성에 대한 최근 연구에 따르면 자동 회귀 패턴을 사용하여 긴 시퀀스를 생성할 때 주의 메커니즘을 통합해야 하기 때문에 LLM의 지연 시간이 길다는 공통적인 문제가 드러났습니다[115 , 116 ]. LLM 기반 텍스트-to-SQL에서 SQL 쿼리 생성은 전통적인 언어 모델링에 비해 상당히 느리며[21 , 28 ], 이는 효율적인 로컬 NLIDB를 구축하는 데 있어 문제가 됩니다. 이에 대한 해결책 중 하나로 CLLM[69 ]은 향상된 모델 아키텍처를 통해 위의 문제를 해결하고 SQL 생성 속도를 높이는 것을 목표로 합니다.

데이터 향상미세 조정 과정에서 모델 성능에 가장 직접적인 영향을 미치는 요소는 학습 레이블의 품질입니다[117]. 품질이 낮거나 학습 레이블이 부족한 상태에서 미세 조정은 "당연한 일"이며, 고품질 또는 증강 데이터를 사용한 미세 조정은 품질이 낮거나 원시 데이터에 대해 잘 설계된 미세 조정 방법보다 항상 성능이 뛰어납니다[29, 74]. SFT 프로세스에서 데이터 품질 개선에 초점을 맞춘 텍스트에서 SQL로의 데이터 강화 미세 조정은 상당한 진전을 이루었습니다.

[117] "심층 신경망으로 잡음이 많은 레이블에서 학습하기: 설문 조사".

[74] 최근 텍스트-SQL의 발전: 우리가 가진 것과 기대하는 것에 대한 설문 조사

[29] "대규모 언어 모델에 대한 설문 조사"

DAIL-SQL[9]은 더 적은 수의 샘플 인스턴스를 얻기 위해 샘플링 전략을 활용하는 상황별 학습 프레임워크로 설계되었습니다. 샘플링된 인스턴스를 SFT 프로세스에 통합하면 오픈 소스 LLM의 성능이 향상됩니다. Symbol-LLM [50]은 주입 및 주입 단계에 맞게 조정된 데이터 증강 지침을 제안하고, CodeS [10]는 ChatGPT의 도움을 받아 양방향 생성으로 학습 데이터를 향상시킵니다. StructLM [70]은 여러 구조 지식 작업에 대해 학습하여 전반적인 기능을 향상시킵니다.

사전 교육사전 학습은 전체 미세 조정 과정의 기본 단계로, 대량의 데이터에 대한 자동 회귀 학습을 통해 텍스트 생성 기능을 확보하는 것을 목표로 합니다[118]. 전통적으로 현재 강력한 독점 LLM(예: ChatGPT [119], GPT-4 [86], Claude [120])은 주로 텍스트 생성 기능을 보여주는 대화 시나리오를 통해 하이브리드 코퍼스에 대해 사전 훈련됩니다[85]. 코드 전용 LLM(예: CodeLLaMA [121 ], StarCoder [122 ])은 코드 데이터에 대해 사전 학습되며[100 ], 다양한 프로그래밍 언어의 혼합을 통해 LLM이 사용자 지침에 부합하는 코드를 생성할 수 있습니다[123 ]. 코드 생성의 하위 작업으로 SQL을 대상으로 하는 사전 학습 기법의 주요 과제는 SQL/데이터베이스 관련 콘텐츠가 사전 학습된 전체 말뭉치의 일부에 불과하다는 것입니다.

그 결과, 상대적으로 합성 기능이 제한적인 오픈 소스 LLM(ChatGPT, GPT-4에 비해)은 사전 훈련 중에 NL 문제를 SQL로 변환하는 방법을 잘 이해하지 못합니다.CodeS [10] 모델의 사전 훈련 단계는 세 단계의 점진적 사전 훈련으로 구성됩니다. 기본 코드 전용 LLM[122 ]에서 시작하여 CodeS는 혼합 훈련 코퍼스(SQL 관련 데이터, NL-to-Code 데이터, NL 관련 데이터 포함)에 대해 점진적 사전 학습을 수행합니다. 텍스트-SQL 이해도와 성능이 크게 향상됩니다.

분해작업을 여러 단계로 분해하거나 여러 모델을 사용하여 작업을 해결하는 것은 앞서 4장-A의 ICL 패러다임에서 설명한 것처럼 복잡한 시나리오를 해결하기 위한 직관적인 솔루션입니다. ICL 기반 접근 방식에 사용되는 독점 모델은 미세 조정 접근 방식에 사용되는 오픈 소스 모델과는 다른 파라미터 수준에 있는 많은 수의 파라미터를 가지고 있습니다. 이러한 모델은 본질적으로 (더 적은 샘플로 학습하는 등의 메커니즘을 통해) 할당된 하위 작업을 잘 수행할 수 있습니다[30, 57]. 따라서 이 패러다임의 성공을 ICL 접근 방식에서 재현하려면 특정 하위 작업에 맞게 미세 조정하기 위해 오픈 소스 모델에 적절한 하위 작업(예: 외부 지식 생성, 스키마 연결 및 스키마 정제)을 합리적으로 할당하고 최종 SQL 생성을 지원하기 위해 미세 조정에 사용할 적절한 데이터를 구성하는 것이 중요합니다.

DTS-SQL [71]은 2단계로 분해된 텍스트-SQL 미세 조정 프레임워크를 제안하고 최종 SQL 생성에 앞서 스키마 링크 12 사전 생성 작업을 설계합니다.

계산

텍스트-SQL 연구 분야에서 상당한 진전이 있었음에도 불구하고 여전히 해결해야 할 몇 가지 과제가 남아 있습니다. 이 섹션에서는 향후 작업에서 극복해야 할 것으로 예상되는 나머지 과제에 대해 설명합니다.

A. 실제 적용에서의 견고성

LLM으로 구현된 텍스트-SQL 변환은 실제 복잡한 애플리케이션 시나리오에서 일반성과 견고성을 약속합니다. 최근 견고성 관련 데이터 세트의 상당한 발전에도 불구하고[37 , 41], 그 성능은 실제 애플리케이션에는 여전히 충분하지 않습니다[33]. 향후 연구에서 극복해야 할 몇 가지 과제가 남아 있습니다. 사용자 측면에서는 사용자가 항상 명시적인 질문 제기자가 아니기 때문에 사용자의 질문에 정확한 데이터베이스 값이 없거나 동의어, 철자 오류, 퍼지 표현이 포함될 수 있는 표준 데이터셋과 다를 수 있는 현상이 있습니다[40].

예를 들어, 미세 조정 패러다임에서 모델은 구체적인 표현을 통해 명시적으로 나타내는 문제에 대해 훈련됩니다. 이 모델은 실제 문제와 해당 데이터베이스의 매핑을 학습하지 않기 때문에 실제 시나리오에 적용할 때 지식 격차가 존재합니다[33]. 동의어와 불완전한 명령어가 있는 데이터 세트에 대한 해당 평가에서 보고된 바와 같이[7 , 51], ChatGPT에서 생성된 SQL 쿼리는 약 40%의 잘못된 실행을 포함하며 이는 원래 평가 [51]보다 10% 낮은 수치입니다. 동시에 네이티브 텍스트를 사용하여 SQL 데이터 세트에 대한 미세 조정에는 표준화되지 않은 샘플과 레이블이 포함될 수 있습니다. 예를 들어, 테이블이나 열의 이름이 항상 내용을 정확하게 표현하는 것은 아니므로 학습 데이터의 구성에 불일치가 발생할 수 있습니다.

B. 계산 효율성

계산 효율성은 추론 속도와 계산 리소스 비용에 의해 결정되며, 이는 애플리케이션과 연구 노력 모두에서 고려할 가치가 있습니다 [49, 69]. 최신 텍스트-SQL 벤치마크[15, 33]에서 데이터베이스의 복잡성이 증가함에 따라 데이터베이스는 더 많은 정보(더 많은 테이블과 열 포함)를 담고 데이터베이스 스키마의 토큰 길이도 그에 따라 증가하여 여러 가지 과제를 제시하게 됩니다. 매우 복잡한 데이터베이스를 다룰 때 해당 스키마를 입력으로 사용하면 특히 컨텍스트 길이가 짧은 오픈 소스 모델을 구현할 때 독점 LLM을 호출하는 비용이 크게 증가하여 모델의 최대 토큰 길이를 초과할 수 있다는 문제에 직면할 수 있습니다.

한편, 대부분의 연구에서 완전한 패턴을 모델 입력으로 사용하기 때문에 많은 양의 중복성이 발생한다는 점도 문제입니다[57]. 비용과 중복을 줄이기 위해 사용자 측에서 직접 문제와 관련된 정확한 필터링된 패턴을 LLM에 제공하는 것은 계산 효율성을 개선할 수 있는 잠재적인 해결책입니다[30]. 정확한 패턴 필터링 방법을 설계하는 것은 앞으로의 과제로 남아 있습니다. 컨텍스트 학습 패러다임이 유망한 정확도를 달성했지만, 잘 설계된 다단계 프레임워크 또는 확장된 컨텍스트 메서드는 API 호출 수를 증가시켜 계산 효율성 관점에서 성능을 향상시키지만 비용도 크게 증가합니다[8].

관련 접근 방식[49]에서는 성능과 계산 효율성 간의 균형을 신중하게 고려해야 하며, 애플리케이션 프로그래밍 인터페이스 비용이 더 낮은 비슷한(또는 더 나은) 컨텍스트 학습 접근 방식을 설계하는 것이 실용적인 구현 방안이 될 수 있으며, 이는 여전히 모색 중입니다. PLM 기반 접근 방식에 비해 LLM 기반 접근 방식은 추론 속도가 상당히 느립니다[21, 28]. 입력 길이를 단축하고 구현 과정의 단계 수를 줄임으로써 추론 속도를 높이는 것은 문맥 학습 패러다임에 직관적입니다. 로컬 LLM의 경우, 시작점[69]에서 향후 탐색에서 모델의 아키텍처를 향상시키기 위해 더 많은 속도 향상 전략을 조사할 수 있습니다.

이 문제를 해결하기 위해 LLM을 의도적인 편향으로 조정하고 노이즈가 많은 시나리오에 대한 훈련 전략을 설계하면 최근의 발전에 도움이 될 것입니다. 한편, 실제 애플리케이션의 데이터 양은 연구 기반 벤치마크에 비해 상대적으로 적습니다. 수동 주석을 통해 대량의 데이터를 확장하면 인건비가 많이 들기 때문에, 더 많은 질문-SQL 쌍을 얻기 위한 데이터 확장 방법을 설계하면 데이터가 부족할 때 LLM을 지원할 수 있습니다. 또한 소규모 데이터 세트에 대한 현지 적응 연구를 위해 오픈 소스 LLM을 미세 조정하는 것도 잠재적으로 유용할 수 있습니다. 또한, 향후 연구에서는 다국어[42 , 124 ] 및 다중 모드 시나리오[125 ] 확장을 종합적으로 조사하여 더 많은 언어 커뮤니티에 혜택을 주고 보다 일반적인 데이터베이스 인터페이스를 구축하는 데 도움이 될 수 있도록 해야 합니다.

C. 데이터 프라이버시 및 해석 가능성

LLM 연구의 일부로서, LLM 기반 텍스트-SQL은 LLM 연구에 존재하는 몇 가지 일반적인 문제에 직면해 있습니다[4 , 126 , 127 ]. 텍스트-SQL 관점에서 볼 때, 이러한 과제들은 LLM 연구에 큰 도움이 될 수 있는 잠재적인 개선 사항으로 이어집니다. 앞서 4장-A에서 언급했듯이, 문맥 학습 패러다임은 양과 성능 측면에서 최근 연구를 지배해 왔으며, 대부분의 작업이 독점 모델을 사용하여 구현되었습니다 [8, 9]. 로컬 데이터베이스의 기밀성을 처리하기 위해 독점 API를 호출하면 데이터 유출의 위험이 발생할 수 있으므로 데이터 프라이버시 측면에서 즉각적인 문제가 제기됩니다. 로컬 미세 조정 패러다임을 사용하면 이 문제를 부분적으로 해결할 수 있습니다.

그럼에도 불구하고 바닐라 미세 조정의 성능은 현재 최적이 아니며[9], 고급 미세 조정 프레임워크는 데이터 증강을 위해 독점적인 LLM에 의존할 수 있습니다[10]. 현재 상황을 고려할 때, 텍스트-SQL 로컬 미세 조정 패러다임에서 보다 맞춤화된 프레임워크에 많은 관심을 기울일 필요가 있습니다. 전반적으로 딥러닝의 발전은 해석 가능성 측면에서 항상 도전에 직면해 왔습니다[127 , 128 ].

오랜 과제인 이 문제를 해결하기 위해 많은 연구가 진행되어 왔습니다 [ 129 , 130 ]. 그러나 문맥 학습이나 미세 조정 패러다임에서 텍스트-to-SQL 연구에서 LLM 기반 구현의 해석 가능성은 여전히 논의되지 않고 있습니다. 분해 단계가 있는 접근 방식은 단계적 생성 관점에서 텍스트-to-SQL 구현을 설명합니다[8, 51]. 이를 바탕으로 해석 가능성에 대한 고급 연구[131, 132]를 결합하여 텍스트-to-SQL의 성능을 개선하고 데이터베이스 지식의 관점에서 로컬 모델 아키텍처를 설명하는 것이 앞으로의 방향입니다.

D. 확장

LLM 및 자연어 이해 연구의 하위 분야로서, 이 분야의 많은 연구는 텍스트-SQL 작업의 사용으로 인해 촉진되었습니다 [103 , 110 ]. 그러나 텍스트-SQL 연구는 이러한 분야의 더 광범위한 연구로 확장될 수도 있습니다. 예를 들어, SQL 생성은 코드 생성의 일부입니다. 잘 설계된 코드 생성 방법은 텍스트-SQL에서도 좋은 성능을 얻을 수 있으며[48, 68], 다양한 프로그래밍 언어에 일반화할 수 있습니다. 일부 맞춤형 텍스트-to-SQL 프레임워크를 NL-to-code 연구로 확장할 가능성도 논의할 수 있습니다.

예를 들어, NL-to-code에서 실행 출력을 통합하는 프레임워크는 SQL 생성에서도 뛰어난 성능을 달성합니다[8]. 텍스트-to-SQL의 실행 인식 접근 방식을 다른 발전된 모듈[30, 31]과 함께 코드 생성으로 확장하려는 시도는 논의해 볼 가치가 있습니다. 또 다른 관점에서, 텍스트 변환이 사실 정보를 제공함으로써 LLM 기반 질문 답변(QA)을 향상시킬 수 있다고 이전에 논의한 바 있습니다. 데이터베이스는 관계형 지식을 구조적 정보로 저장할 수 있으며, 구조 기반 QA는 텍스트-투-SQL의 이점을 누릴 수 있습니다(예: 지식 기반 질문 답변, KBQA [133 , 134 ]). 데이터베이스 구조를 활용하여 사실적 지식을 구성한 다음 이를 텍스트-SQL 시스템과 결합하여 정보 검색을 가능하게 하는 것은 더 정확한 사실적 지식을 얻는 데 있어 QA를 지원할 수 있는 잠재력을 가지고 있습니다 [ 135 ]. 향후 연구에서는 보다 확장된 텍스트-SQL 연구가 진행될 것으로 예상됩니다.

올라챗 디지털 인텔리전스 어시스턴트 제품 소개

올라챗 디지털 인텔리전스 어시스턴트는 텐센트 PCG 빅데이터 플랫폼 부서에서 실무 데이터 분석 분야의 빅데이터 모델을 활용해 출시한 새로운 지능형 데이터 분석 제품으로, 데이터톡, 올라이드 등 텐센트 내부 주류 데이터 플랫폼에 통합되어 데이터 분석 시나리오의 전 과정을 지능적으로 지원합니다. 텍스트2sql, 지표 분석, SQL 지능형 최적화 등 일련의 기능이 포함되어 있습니다. 데이터 분석(드래그 앤 드롭 분석, SQL 쿼리), 데이터 시각화, 결과 해석 및 어트리뷰션에 이르기까지 OlaChat은 데이터 분석 작업을 더 간단하고 효율적으로 할 수 있도록 종합적으로 지원합니다!