스노우플레이크, 고품질 중국어 검색을 위한 Arctic Embed 2.0 다국어 벡터 모델 출시

39.7K 00

스노우플레이크는 다음과 같이 출시 소식을 알려드립니다. Arctic Embed L 2.0 노래로 응답 Arctic Embed M 2.0 최신 임베딩 모델의 다음 버전인 Arctic Embed 2.0은 이제 다국어 검색을 지원합니다. 이전 버전은 고객, 파트너, 오픈 소스 커뮤니티로부터 호평을 받았고 수백만 건의 다운로드를 달성했지만, 이 모델을 다국어로 지원할 수 없느냐는 한 가지 요청이 있었습니다. Arctic Embed 2.0은 이전 버전의 강력한 기반을 바탕으로 영어 성능이나 확장성을 희생하지 않고 다국어 지원을 추가하여 광범위한 사용자 다양한 언어와 애플리케이션을 아우르는 광범위한 사용자 커뮤니티의 요구 사항을 충족합니다.

Snowflake 发布 Arctic Embed 2.0 多语言向量模型，实现高质量中文检索

그림 1. 10억 개 미만의 파라미터를 사용하는 오픈 소스 다국어 임베딩 모델의 단방향 볼륨 집약적 검색 성능. 점수는 MTEB입니다. 검색 와 CLEF(ELRA, 2006) 하위 집합(영어, 프랑스어, 스페인어, 이탈리아어 및 독일어 포함)의 평균 nDCG@10입니다.

타협 없는 다국어 지원

이번 Arctic Embed 2.0 릴리스에서는 추론 효율성에 중점을 둔 중간 버전과 Alibaba의 [...]를 기반으로 구축된 두 가지 변형을 출시합니다. GTE-다국어 또한 3억 5,000만 개의 매개변수(이 중 1억 1,300만 개는 임베디드되지 않은 매개변수)로 검색 품질에 중점을 둔 또 다른 대규모 변형은 Facebook의 XMLR-Large 5억 6,800만 개의 매개변수(이 중 3억 3,000만 개는 임베드되지 않은 매개변수)가 포함된 긴 컨텍스트 변형에 기반합니다. 두 크기 모두 최대 8,192개까지 지원합니다. 토큰 문맥 길이. Arctic Embed 2.0을 구축하면서 기존의 많은 다국어 모델이 직면한 문제, 즉 다국어에 최적화하면 영어 검색 품질이 저하되는 경우가 많다는 점을 인식했습니다. 이 때문에 현장의 많은 모델이 영어와 다국어 두 가지 버전으로 나뉘어져 있었는데, Arctic Embed 2.0 모델은 다릅니다. 독일어, 스페인어, 프랑스어와 같은 비영어권 언어에서 최고의 성능을 제공하는 동시에 영어 검색에서도 영어 전용 이전 모델보다 뛰어난 성능을 발휘합니다. Arctic Embed M 1.5.

다국어 지원의 필요성과 영어 검색의 우수성에 대한 Snowflake의 노력의 균형을 신중하게 조정하여, Arctic Embed 2.0을 광범위한 글로벌 사용 사례를 위한 범용 모델로 구축했습니다. 이 문서 전체에서 모든 정성적 평가는 달리 명시되지 않는 한 작업 전반의 평균 NDCG@10 점수를 참조합니다.

표 1. 당사의 Arctic Embed L v2.0 모델은 널리 사용되는 영어 MTEB 검색 벤치마크에서 높은 점수를 획득했을 뿐만 아니라 여러 다국어 벤치마크에서도 높은 검색 품질을 달성했습니다. 이전 버전의 Arctic Embed는 영어에서는 성능이 좋았지만 다국어에서는 성능이 좋지 않은 반면, 인기있는 오픈 소스 다국어 모델은 다음과 같습니다. 영어 성능이 저하되었습니다. 모든 모델 및 데이터 세트 점수는 평균 NDCG@10을 반영합니다. CLEF 및 MIRACL 점수는 독일어(DE), 영어(EN), 스페인어(ES), 프랑스어(FR) 및 이탈리아어(IT)의 평균을 반영합니다.

Arctic Embed 2.0의 다양하고 강력한 기능 세트

엔터프라이즈급 처리량과 효율성: Arctic Embed 2.0 모델은 대규모 기업의 요구에 맞게 제작되었습니다. '대규모' 모델도 10억 개 미만의 매개변수를 가지고 있으며 빠르고 높은 처리량의 임베딩을 제공합니다. 내부 테스트 결과, NVIDIA A10 GPU에서 초당 100개 이상의 문서를 평균적으로 쉽게 처리하고 10밀리초 미만의 쿼리 임베딩 지연 시간을 달성하여 경제적인 하드웨어에서 실제 배포가 가능합니다.
영어 및 비영어권 검색 품질은 타협하지 않습니다: 두 모델 모두 작은 크기에도 불구하고 다양한 영어 및 비영어권 벤치마크 데이터 세트에서 인상적인 NDCG@10 점수를 획득하여 학습 솔루션에 포함되지 않은 언어에 대해서도 우수한 일반화 능력을 입증했습니다. 이러한 인상적인 벤치마크 점수를 통해 Arctic Embed L 2.0은 최첨단 검색 모델 중 선두주자로 자리매김했습니다.
마트료시카 표현 학습(MRL)을 통한 확장 가능한 검색: Arctic Embed 버전 2.0에는 Arctic Embed 1.5에 도입된 것과 동일한 양자화 친화적인 MRL 기능이 포함되어 있어, 사용자는 대규모 데이터 세트에서 검색을 수행할 때 비용을 절감하고 크기를 최적화할 수 있습니다. 두 가지 모델 크기를 통해 사용자는 벡터당 128바이트만 사용하여 고품질 검색을 수행할 수 있습니다(OpenAI의 인기 있는 텍스트 임베딩 3-대형 모델 ^1^의 비압축 임베딩보다 96배 더 작음). Arctic Embed 1.5와 마찬가지로, Arctic Embed 2.0 모델은 압축 상태에서도 품질 저하가 현저히 낮고 벤치마크 점수가 더 높은 여러 MRL 지원 동종 제품보다 뛰어난 성능을 발휘합니다.
진정한 오픈 소스: Arctic Embed 2.0 모델은 관대한 Apache 2.0 라이선스에 따라 출시됩니다.

오픈 소스 유연성과 엔터프라이즈급 안정성의 만남

이전 버전과 마찬가지로 Arctic Embed 2.0 모델은 관대한 Apache 2.0 라이선스로 출시되어 조직이 익숙한 라이선스로 수정, 배포 및 확장할 수 있습니다. 이 모델은 즉시 작동하고 안정적인 다국어 임베딩을 통해 다양한 업종에 걸쳐 애플리케이션을 지원하며 일반화 기능이 뛰어납니다.

클레망 들랑그(Clément Delangue) 허깅 페이스 CEO는 "다국어 임베딩 모델은 영어 사용자뿐만 아니라 전 세계 사람들이 AI 빌더가 될 수 있도록 하는 데 매우 중요합니다. 이러한 최첨단 모델을 허깅 페이스에서 오픈 소스로 공개함으로써 스노우플레이크는 AI와 전 세계에 큰 기여를 하고 있습니다."라고 말했습니다.

실제로 오픈 소스 옵션 중에서도 특히 다국어 검색 벤치마크에서 관찰된 일반화 기능으로 인해 Arctic Embed 2.0 제품군에 특별한 관심을 기울일 필요가 있습니다. 라이선스별 크로스 언어 평가 포럼(CLEF) 테스트 스위트 2000-2003우리 팀은 다양한 오픈 소스 모델의 도메인 외부 검색 품질을 측정할 수 있었고, 인도메인에서 안타까운 추세를 발견했습니다. 미라클 평가 세트에서 얻은 점수에 비해 성능이 좋지 않습니다. 초기 오픈 소스 모델 개발자 중 일부가 실수로 미라클 성능을 개선하기 위해 훈련 시나리오를 과도하게 조정하여 미라클 훈련 데이터를 과도하게 맞췄을 수 있다는 가설을 세우고 있습니다. Arctic Embed 2.0 모델의 훈련 방법과 훈련 과정에서 학습한 내용에 대한 기술 보고서를 곧 발표할 예정이니 기대해 주세요.

표 2. 도메인 외부 CLEF 벤치마킹을 통해 여러 데이터 세트에 대한 다국어 검색 모델 비교.

표 3. 도메인 내 MIRACL 벤치마킹에서 여러 오픈 소스 다국어 검색 모델을 비교한 결과.

표 2와 3에서 볼 수 있듯이, 도메인 내 미라클 평가를 위한 몇 가지 인기 있는 오픈 소스 모델과 Arctic Embed L 2.0 점수는 비슷하지만 도메인 외 CLEF 평가에서는 저조한 성능을 보였습니다. 또한 인기 있는 비공개 소스 모델(예: OpenAI의 텍스트 임베딩-3 대형 모델)을 벤치마킹한 결과, Arctic L 2.0의 성능이 주요 독점 모델과 비슷한 수준임을 확인했습니다.

표 4에서 볼 수 있듯이 기존 오픈 소스 다국어 모델은 널리 사용되는 영어 MTEB 검색 벤치마크 테스트에서도 더 나은 성능을 보였습니다. Arctic Embed L 2.0 의 점수는 더욱 낮아져 여러 언어를 지원하고자 하는 사용자들은 영어 검색 품질을 낮추거나 영어 전용 검색을 위해 두 번째 모델을 사용하는 운영 복잡성 증가 사이에서 선택해야 했습니다. 이제 Arctic Embed 2.0의 출시로 실무자들은 영어 검색 품질을 유지하면서 단일 오픈 소스 모델로 전환할 수 있게 되었습니다.

표 4. 도메인 내 MTEB 검색 벤치마킹에서 상위 오픈 소스 및 비공개 소스 다국어 검색 모델 비교.

트레이드오프 없는 압축 및 효율성

스노우플레이크는 임베디드 모델 설계에서 효율성과 확장성을 지속적으로 우선시하고 있습니다. 다음의 도움으로 Arctic Embed L 2.0이를 통해 사용자는 대용량 모델의 품질 기능을 벡터당 128바이트의 저장 공간만 필요로 하는 컴팩트한 임베딩으로 압축할 수 있습니다. 이를 통해 저사양 하드웨어에서 저렴한 비용으로 수백만 개의 문서에 대한 검색 서비스를 제공할 수 있습니다. 또한, 임베드 2.0의 인상적인 검색 품질을 두 가지 크기(중형 및 대형)에 대해 각각 1억 개와 3억 개의 비임베드 파라미터로 압축함으로써 임베딩 처리량의 효율성을 달성했는데, 이는 이전 영어 전용 버전보다 약간 증가한 것에 불과합니다.

실제로 규모에 초점을 맞춘 메커니즘은 다음과 같습니다. Arctic Embed L 2.0 이 기능이 정말 빛을 발하는 부분은 다른 MRL 학습 모델(예: OpenAI의 텍스트 임베딩-3-large)에 비해 압축 시 더 나은 품질을 얻을 수 있다는 점입니다.

표 5.는 영어 전용(MTEB 검색) 및 다국어(CLEF) 임베딩에 대해 OpenAI의 텍스트 임베딩 3 대형 성능과 Arctic Embed L 2.0의 잘린 임베딩을 비교한 것입니다.

결론: 다국어, 효율적인 검색을 위한 새로운 표준

Arctic Embed 2.0을 통해 Snowflake는 효율적인 다국어 임베딩 모델의 새로운 표준을 세웠습니다. 또한 텍스트 임베딩 품질에 있어 효율성은 물론, 오픈 소스까지 확보했습니다. 다국어 사용자에게 도달 범위를 확장하거나, 저장 비용을 줄이거나, 접근 가능한 하드웨어에 문서를 임베드하는 것이 목표라면 Arctic Embed 2.0은 사용자의 요구를 충족시킬 수 있는 기능과 유연성을 제공합니다.

곧 발표될 기술 보고서에서 Arctic Embed 2.0의 혁신에 대해 자세히 살펴볼 예정입니다. 그 동안에는 지금 바로 스노우플레이크로 임베딩을 시작해 보세요.

~~^1^~~ 이 계산은 비압축 기준선, 즉 32비트씩 3,072개의 숫자, 즉 벡터당 총 98,304비트에 대해 float32 형식을 사용하며, 이는 Arctic Embed 2.0 모델에서 MRL로 잘린 256차원 벡터를 int4 형식으로 저장할 때 사용되는 벡터당 1,024비트(벡터당 128바이트에 해당)보다 정확히 96배 큰 값입니다.