대규모 언어 모델의 창의성 평가: 객관식 LoTbench 패러다임 그 이상

50.7K 00

대규모 언어 모델( LLM ) 연구 영역을 모델링하여 Leap-of-Thought 능력, 즉 창의력은 다음과 같은 능력만큼이나 중요합니다. Chain-of-Thought 를 통해 논리적 추론 능력을 평가합니다. 그러나 현재 다음과 같은 목표를 가진 학생의 수가 크게 증가하고 있습니다. LLM 창의성과 효과적인 평가 방법에 대한 심도 있는 논의는 여전히 상대적으로 부족하여 어느 정도 제약이 있습니다. LLM 크리에이티브 애플리케이션의 개발 잠재력.

그 주된 이유는 '창의성'이라는 추상적인 개념에 대한 객관적이고 자동화된 신뢰할 수 있는 평가 프로세스를 구축하는 것이 매우 어렵기 때문입니다.

과거에는 다음과 같은 질문에 대한 응답이 많았습니다. LLM 그림 1과 같이 창의성을 측정하려는 시도는 논리적 사고 능력을 평가하는 데 일반적으로 사용되는 객관식 및 순서 나열형 질문을 계속 사용하고 있습니다. 이러한 방법은 모델이 미리 정해진 '최선의' 또는 '가장 논리적인' 옵션을 식별할 수 있는지 여부를 검사하는 데는 효과적이지만 새롭고 독창적인 콘텐츠를 생성하는 능력인 진정한 창의성을 평가하는 데는 그다지 효과적이지 않습니다. 그러나 진정한 창의성, 즉 새롭고 독특한 콘텐츠를 생성하는 능력을 평가하는 데는 그다지 효과적이지 않습니다.

예를 들어 그림 2의 과제를 생각해 보세요. 그림과 기존 텍스트를 바탕으로 '? 콘텐츠는 창의적이고 유머러스해야 합니다.

객관식 질문인 경우 "A. 나를 도와줄 수 있습니까?" 및 "B. 내 수갑을 풀어줄 수 있습니까?" 옵션을 제공합니다. "B. 수갑을 풀어줄 수 있나요?" 및 "B. 수갑을 풀어줄 수 있나요?" 옵션을 제공합니다. LLM B가 선택될 가능성이 높은 것은 창의성을 보여주기 때문이 아니라 단순히 옵션 B가 옵션 A보다 더 '특별'하거나 '특이'하기 때문이며, 모델은 창의적 사고가 아닌 패턴 인식을 통해 선택을 할 수 있기 때문입니다.

가치 평가 LLM 창의성의 핵심이 무엇인지 살펴봐야 합니다.생성콘텐츠 혁신 능력보다는judge콘텐츠의 혁신성 여부. 객관식과 같은 기존의 평가 방법은 후자에 더 초점을 맞추고 있기 때문에 한계가 있습니다. 현재 생성 역량을 직접 평가할 수 있는 주요 방법은 수작업 평가와 다음과 같습니다. LLM-as-a-judge (사용 LLM (검토용으로). 수동 평가는 정확하고 사람의 가치와 일치하지만 비용이 많이 들고 확장하기가 어렵습니다. 반면 LLM-as-a-judge 창의성 평가 과제에 대한 이 방법의 성능은 아직 미숙하며 결과의 안정성을 개선할 필요가 있습니다.

이러한 문제에 직면하여 쑨원대학교, 하버드대학교, 펑청연구소, 싱가포르 경영대학교의 연구원들은 새로운 사고 방식을 고안해냈습니다. 이들은 생성된 콘텐츠의 '선함'을 직접 판단하는 대신 다음을 연구하여 콘텐츠의 '선함'을 살펴보고 있습니다. LLM 고품질의 인간 혁신 콘텐츠에 필적하는 응답을 생성하는 데 드는 '비용'(필요한 노력 또는 상호 작용 비용으로 해석할 수 있음)라는 시스템을 구축했습니다. LoTbench 다각적인 대화형 자동 창의성 평가 패러다임을 도입했습니다. 이 방법은 보다 신뢰할 수 있고 확장 가능한 창의성 측정 방법을 제공하는 것을 목표로 합니다. 관련 연구 결과는 다음에 게재되었습니다. IEEE TPAMI 저널.

논문 제목: 멀티모달 대규모 언어 모델의 창의성을 평가하기 위한 인과관계 인식 패러다임
논문 링크: https://arxiv.org/abs/2501.15147
프로젝트 홈페이지: https://lotbench.github.io

미션 장면: 일본인의 감기 침

LoTbench 이 연구는 다음을 기반으로 합니다. CVPR'24 상자 밖에서 생각하자: 창의적 유머 생성을 통한 대규모 언어 모델에서의 사고의 도약 탐색) 컨퍼런스에서 발표된 작업의 저널 확장판입니다. 세대). 연구진은 그림 2와 같이 중국 인터넷에서 '일본식 콜드 트롤링'으로 알려진 일본의 전통 게임인 오기리에서 파생된 과제 형태를 선택했습니다.

이 유형의 과제는 참가자가 그림을 보고 텍스트를 완성하여 그림과 텍스트의 조합이 혁신적이고 유머러스한 효과를 낼 수 있도록 해야 합니다. 이 과제는 다음과 같은 고려 사항을 바탕으로 평가의 기준으로 선정되었습니다:

높은 창의력 요구 사항: 이 과제는 전형적인 창의성 과제인 창의적인 유머러스한 콘텐츠를 제작하라는 직접적인 요청이었습니다.
멀티모달 모델에 맞추기: 입력은 그래픽, 출력은 텍스트 완성, 최신 멀티모달을 완벽하게 준수합니다. LLM 의 권한 범위는
풍부한 데이터 리소스: 온라인 커뮤니티에서 '일본식 콜드 트롤링'이 인기를 끌면서 평가 정보가 담긴 양질의 사례와 데이터가 대량으로 축적되어 평가 데이터셋을 쉽게 구축할 수 있게 되었습니다.

따라서 '일본식 감기 침'은 멀티모달을 평가하는 데 유용한 도구를 제공합니다. LLM 이상적이고 독창적인 플랫폼을 제공합니다.

LoT벤치 평가 방법론

기존의 평가 패러다임(예: 선발, 순위)과 달리 LoTbench 핵심 아이디어는 다음과 같습니다:측정 LLM 사전 설정과 일치하는 휴먼 품질 혁신 응답을 생성하는 데 필요한 상호작용 횟수( HHCR 대답은 "동일"입니다. 이 필수 '라운드 수'는 다음을 반영합니다. LLM 특정 크리에이티브 목표를 달성하기 위한 '거리' 또는 '비용'을 의미합니다.

그림 3의 오른쪽에 표시된 것처럼, 주어진 HHCR (수학.) 속 LoTbench 필수 사항이 아닙니다. LLM 정확하게 복제하되, 그보다는 LLM 여러 번의 시도를 통해 표현은 다르지만 창의적인 핵심과 효과는 비슷한 아이디어를 생성할 수 있나요? DAESO - 접근 방식은 다르지만 결과는 똑같이 만족스럽다) 응답이 나왔습니다.

LoTbench 프로세스의 구체적인 흐름은 그림 4에 나와 있습니다:

작업 구성: '일본어 콜드 트윗' 데이터에서 선택되었습니다. HHCR 샘플. 각 라운드마다 테스트할 샘플이 필요합니다. LLM 그래픽 정보를 기반으로 응답 생성하기 Rt 를 사용하여 텍스트 공백을 채울 수 있습니다.
DAESO의 판단: 생성된 Rt 목표와의 관련성 HHCR (다음과 같이 표시됨) R )에 도달했습니다. DAESO . 예인 경우 후속 점수 계산을 위해 현재 라운드 수를 기록하고, 그렇지 않은 경우 3단계로 이동합니다.
대화형 질문: 그렇지 않은 경우 DAESO 동일한 선박에서 테스트를 수행해야 하는 경우 다음을 수행해야 합니다. LLM 상호작용의 현재 기록을 기반으로 한 일반적인 질문입니다. Qt (예: 목표 크리에이티브 방향에 대한 단서 요청).
시스템 피드백: 평가 시스템은 다음을 기반으로 합니다. HHCR 의 내부 로직은 LLM 제기된 문제 Qt "예" 또는 "아니요"로 응답합니다.
정보 통합 및 반복: 이 라운드의 모든 상호작용 정보( LLM 생성, 질문 및 시스템으로부터의 피드백) 및 시스템에서 제공하는 프롬프트의 통합을 통해 다음 라운드의 history prompt 확실하지 않은 경우 1단계로 돌아가서 새로운 시도를 시작하세요.

이 프로세스는 다음까지 계속됩니다. LLM 생성됨 DAESO 응답을 보내거나 미리 설정된 최대 라운드 제한에 도달했습니다.

최종 창의성 점수 Sc 에 대한 검토를 기반으로 n 개별 사물 또는 사람에 대한 분류기, 일반, 포괄적 분류기 HHCR 샘플, 수행 m 결과는 실험을 여러 번 반복한 결과에서 계산되었습니다. 계산은 대략 다음과 같습니다(HTML 수식):

S_c = ( 1 / n ) ∑_i=1ⁿ [ ( 1 / m ) ∑_j=1^m ( 1 / ( 1 + k_ij ) ) ]

그중에서도.k_ij 은 첫 번째 j 첫 번째 실험을 두 번째로 반복합니다. i 개별 사물 또는 사람에 대한 분류기, 일반, 포괄적 분류기 HHCR 샘플을 성공적으로 생성하여 DAESO 응답에 사용된 라운드 수입니다.

이 창의성 점수 Sc 다음과 같은 특징이 있습니다:

역관계: 점수 및 필요한 라운드 수 k 반비례합니다. 라운드 수가 적을수록 LLM 목표한 창의력 수준에 더 빨리 도달할수록 점수가 높아지고 창의력이 더 뛰어나다는 뜻입니다.
0점 하한: 다음과 같은 경우 LLM 최대 라운드 수 제한 내에서 지속적으로 생성에 실패합니다. DAESO 응답(무한대에 가까워지는 라운드 수에 해당)에 대한 이 샘플의 점수는 0이 되는 경향이 있어 이 작업에 대한 창의성이 부족함을 나타냅니다.
견고함: 이는 여러 HHCR 샘플은 실험을 여러 번 반복하여 평균을 냈으며, 아이디어의 다양성과 난이도를 고려하여 점수를 매겨 단일 실험의 무작위 배정 효과를 줄였습니다.

'유사점 및 차이점'을 결정하는 방법( `DAESO` )?

DAESO 결정은 LoTbench 방법론의 핵심적인 어려움 중 하나입니다.

필요한 이유 DAESO 판단력? 창의성 과제의 주요 특징 중 하나는 개방성과 다양성입니다. 사람들은 같은 '일본식 콜드 트롤' 시나리오에 대해 다양하지만 똑같이 창의적이고 유머러스한 답을 생각해낼 수 있습니다. 그림 5에서 볼 수 있듯이 '생동감 있는 알람 시계'와 '생동감 있는 휴대폰'은 모두 "물체가 생동감으로 인해 박동하고 소리를 낸다"는 핵심 아이디어를 중심으로 비슷한 유머러스한 효과를 얻을 수 있습니다. 유머러스한 효과도 비슷합니다.

이러한 깊은 창작적 유사성은 단순한 텍스트 표면 일치나 기존의 의미적 유사성 계산으로는 정확하게 포착할 수 없습니다. 예를 들어, "활기찬 벼룩"에는 "활기찬"이라는 단어도 있지만 "알람 시계" 또는 "휴대폰"이 암시하는 "소리 알림"이라는 기능적 연관성이 부족합니다. '알람 시계' 또는 '휴대폰'이 암시하는 '소리 알림'의 기능적 연관성이 결여되어 있습니다. 따라서 '유사점과 차이점'을 판단하는 메커니즘을 도입하는 것이 중요합니다.

실현 방법 DAESO 판단력?

이 논문에서 연구원은 다음 두 가지를 만족시키는 두 가지 응답을 제안합니다. DAESO 를 사용하려면 두 가지 조건을 동시에 충족해야 합니다:

동일한 핵심 혁신에 대해 설명합니다: 두 답변의 창의적인 논리나 유머는 본질적으로 동일합니다.
기능적 유사성이 동일합니다: 두 응답은 유머를 유발하는 '기능' 또는 '장면 역할'이라는 측면에서 유사합니다.

기능적 유사성은 순수한 의미적 유사성과는 다릅니다. 그림 6(a)의 예에서 볼 수 있듯이 "호두 부수기"라는 특정 기능 시나리오에서 "노키아 휴대폰"과 "망치"의 기능적 유사성은 "삼성 휴대폰"과 "삼성 휴대폰"의 의미적 유사성보다 더 높을 수 있습니다. "노키아 휴대폰"과 "망치"의 의미적 유사성은 "삼성 휴대폰"과 "삼성 휴대폰"의 의미적 유사성보다 높을 수 있습니다.

핵심 혁신에 대한 해석만 같으면 주제에서 벗어난 답변이 나올 수 있고(예: 그림 5의 예시에서 '활기찬 벼룩'은 '소리 알림'이라는 기능이 부족함), 기능적 유사성만 같으면 아이디어의 핵심을 포착하지 못할 수 있습니다(예: 그림 5의 예시에서 '활기찬 북'은 소리 나는 대상이지만 자체의 '생동감'으로 인해 박동하는 느낌이 부족함). 그림 5의 예시에서 '활기찬 드럼'도 청각적 객체이지만 자체의 '활기'로 인해 박동감이 부족합니다).

구체적으로 DAESO 판단 실현에서 연구원은 먼저 다음과 같은 새로운 기준 세트를 제공합니다. HHCR 샘플에는 유머와 창의성의 원천에 대한 자세한 설명과 함께 라벨을 붙였습니다. 그런 다음 이미지의 제목(캡션) 정보를 결합하여 LLM 자체를 텍스트 공간에서 사용할 수 있습니다. HHCR (그림 6(c)와 같이) 인과 사슬을 구성하여 창의적인 구성을 파싱합니다. 마지막으로, 다른 요소에 대한 구체적인 지침(명령어)을 설계합니다. LLM (예 GPT-4o mini ) 이 정보를 기반으로 측정할 응답이 텍스트 공간에서 판단됩니다. Rt 대상과의 협업 HHCR 위의 두 가지 모두 해당되는지 여부 DAESO 조건.

연구에 따르면 GPT-4o mini 계속 진행 DAESO 판단에 따르면 80%-90%의 정확도는 더 낮은 계산 비용으로 달성할 수 있습니다. 고려할 때 LoTbench 실험을 여러 번 반복하여 하나의 DAESO 작은 판정 오류가 최종 평균 점수에 미치는 영향이 더욱 감소하여 전체 평가의 신뢰성을 보장합니다.

평가 결과

연구팀은 다음을 사용했습니다. LoTbench 현재 주류 멀티모달의 일부에 대한 검토 LLM 평가가 수행되었습니다. 그림 7에서 볼 수 있듯이 평가 결과는 LoTbench 기존 LLM 의 창의성은 일반적으로 인간의 높은 수준의 창의적 반응에 비해 강하지 않은 것으로 간주됩니다( HHCR )에 비해서는 여전히 부족합니다. 그러나 일반 인간 수준(그림에 명시적으로 표시되지는 않았지만 추론된 수준)이나 주요 인간 수준과 비교하면 상위 몇 명은 LLM (예 Gemini 1.5 Pro 노래로 응답 Qwen-VL-max )는 어느 정도 경쟁력을 보여줬고, 또한 LLM 창의성 측면에서 인류를 초월할 수 있는 잠재력을 가지고 있습니다.

그림 8은 목록에서 상위 두 개를 시각화한 것입니다. Gemini 1.5 Pro 노래로 응답 Qwen-VL-max 모델별 구성 요소 HHCR (빨간색으로 강조 표시됨) 생성됨 DAESO 응답(파란색으로 표시됨).

최근 큰 화제를 모았던 DeepSeek-VL2 노래로 응답 Janus-Pro-7B 시리즈 모델도 평가했습니다. 그 결과 다음과 같은 분야에서 창의성이 뛰어난 것으로 나타났습니다. LoTbench 프레임워크는 대략 인간 기본 수준입니다. 이는 멀티모달을 개선하는 데 있어 LLM 깊은 창의성 측면에서는 여전히 상당한 탐색의 여지가 있습니다.