바이촨 인텔리전스, 여러 측정에서 GPT-4o 미니를 능가하는 바이촨-옴니-1.5 옴니모달 대형 모델 출시

49.1K 00

연말을 맞아 국내 대형 모델 분야에서 또다시 희소식이 전해졌다. 비씨링크스 인텔리전스가 최근 대형 모델 제품을 잇따라 출시한 것입니다.전체 장면 심층 추론 모델 바이촨-M1-프리뷰노래로 응답의료 향상 오픈 소스 모델 바이촨-M1-14B이어서전체 모달 모델 바이촨-옴니-1.5.

바이촨-옴니-1.5는 "빅 모델 제너럴리스트"로 알려져 있으며, 이는 멀티 모드 융합 기술에서 국내 빅 모델의 중요한 발전을 의미하며, 바이촨-옴니-1.5는 우수한 옴니 모드 이해 및 생성 능력을 갖추고 있으며, 동시에 처리 할 수있을뿐만 아니라텍스트, 이미지, 오디오, 비디오및 기타 멀티모달 정보, 그리고 더 많은 지원텍스트 및 오디오바이모달 콘텐츠 생성.

동시에 바이촨 인텔리전스는 오픈소스인OpenMM-Medical노래로 응답오픈오디오벤치두 가지 고품질 평가 데이터 세트는 국내 올모달 모델 기술 생태계의 번영을 촉진하는 것을 목표로 합니다. 공개된 종합 평가 결과에 따르면, 바이촨-옴니-1.5는 여러 가지 멀티모달 기능에서 다음과 같은 점수를 받았습니다.전반적인 성능은 GPT-4o Mini를 능가합니다.특히 비씨링크스 인텔리전스는 의료 분야에서 더욱 깊이 있는 연구를 지속하고 있습니다.의료 이미지 검토 점수는 중요한 리드입니다.이는 대형 모델 분야의 리더로서 바이촨 인텔리전스의 강력한 힘과 결단력을 충분히 보여줍니다. 이는 대형 모델 분야의 국내 리더로서 바이촨 인텔리전스가 기술 혁신과 산업 응용 프로그램 착륙에 대한 강력한 힘과 확고한 의지를 충분히 보여줍니다.

모델 무게 주소:

바이촨-오미니-1.5: https://huggingface.co/baichuan-inc/Baichuan-Omni-1d5 https://modelers.cn/models/Baichuan/Baichuan-Omni-1d5

바이촨-오미니-1.5-베이스: https://huggingface.co/baichuan-inc/Baichuan-Omni-1d5-Base https://modelers.cn/models/Baichuan/Baichuan- Omni-1d5-Base

GitHub 주소: https://github.com/baichuan-inc/Baichuan-Omni-1.5

기술 보고서: https://github.com/baichuan-inc/Baichuan-Omni-1.5/blob/main/baichuan_omni_1_5.pdf

01 . 멀티모달 기능의 포괄적인 혁신: 텍스트, 그래픽, 오디오 및 비디오 처리 평가에서 뛰어난 성능 제공

바이촨-옴니-1.5의 성능 하이라이트는 다음과 같이 요약할 수 있습니다.포괄적인 기능 및 고성능". 이 모델의 가장 주목할 만한 특징은 다음과 같습니다.포괄적으로멀티모달 이해 및 생성 기능, 특히 텍스트, 이미지, 비디오, 오디오 등 멀티모달 콘텐츠를 이해할 뿐만 아니라 텍스트와 오디오의 바이모달 생성도 지원합니다.

이미지 이해도 측면에서 MMBench-dev, TextVQA val 등과 같은 일반적인 이미지 평가 벤치마크의 테스트 결과에 따르면 Baichuan-Omni-1.5의 성능은 다음과 같습니다.GPT-4o Mini보다 우수. 특히 흥미로운 점은 일반적인 기능 외에도 바이촨 인텔리전스의 올모달 모델이 의료 분야에서 특히 강하다는 사실입니다. In의료 이미지 검토 데이터 세트 GMAI-MMBench 및 Openmm-Medical에 대한 리뷰에 따르면 의료 영상 이해에 있어 Baichuan-Omni-1.5의 기능은 다음과 같습니다.GPT-4o Mini보다 훨씬 뛰어난 성능.

百川智能发布Baichuan-Omni-1.5全模态大模型，多项测评超越GPT-4o Mini

오디오 처리 측면에서 Baichuan-Omni-1.5는 다음과 같은 기능을 지원할 뿐만 아니라다국어 대화또한 엔드 투 엔드 오디오 합성 기능을 사용하여 다음과 같은 기능을 통합합니다. ASR(자동 음성 인식) 노래로 응답 TTS(텍스트 음성 변환) 함수를 지원합니다. 또한, 이 모델은 다음과 같은오디오-비디오 실시간 상호작용. 구체적인 성능 메트릭 측면에서, 람마 질문 및 AlpacaEval과 같은 데이터 세트에 대한 Baichuan-Omni-1.5의 전반적인 성능은 다음과 같습니다.보다 훨씬 낫습니다. Qwen2-VL-2B-Instruct, VITA-1.5 및 MiniCPM-o 2.6은 유사한 모델입니다.

비디오 이해력바이촨-옴니-1.5 수준에서 바이촨 인텔리전스는 인코더 아키텍처, 학습 데이터 품질, 학습 방법 전략 등 몇 가지 주요 측면에서 심층적인 최적화를 수행했습니다. 평가 결과에 따르면 비디오 이해도는 다음과 같습니다.전반적인 성능도 GPT-4o-mini보다 훨씬 앞서 있습니다..

요약하면, 바이촨-옴니-1.5는 전체적으로 범용 기능 측면에서 GPT4o-mini를 능가할 뿐만 아니라, 더 중요한 것은 다음을 실현한다는 것입니다.완전한 모달 이해 및 생성의 통합보다 일반화된 AI 시스템을 구축할 수 있는 기반을 마련합니다.

바이촨 인텔리전스는 멀티모달 모델링 연구를 더욱 발전시키기 위해 두 가지 전문 리뷰 데이터 세트를 오픈소스화했습니다:OpenMM-Medical 및 OpenAudioBench. 그중에서도 OpenMM-Medical 데이터 집합의료용 멀티모달 작업에서 모델 성능을 평가하도록 설계되었습니다.ACRIMA(안저 이미지), BioMediTech(현미경 이미지), CoronaHack(엑스레이) 등 42개의 공개 의료 이미지 데이터 세트의 데이터를 통합하여 총 88,996개의 이미지를 제공합니다.

주소 다운로드:

https://huggingface.co/datasets/baichuan-inc/OpenMM_Medical

오픈오디오벤치 이면모델 오디오 이해 능력을 효율적으로 평가할 수 있는 종합 평가 플랫폼오디오 엔드투엔드 이해를 위한 5개의 하위 평가 세트가 포함되어 있으며, 이 중 4개는 공개 평가 데이터 세트(Llama Question, WEB QA, TriviaQA, AlpacaEval)에서 파생된 것이고 나머지 하나는 2,701개의 데이터가 포함된 Baichuan Intelligence의 자체 구축 음성 논리적 추론 평가 세트입니다.

주소 다운로드:

https://huggingface.co/datasets/baichuan-inc/OpenAudioBench

비씨링크스 인텔리전스는 국내 오픈소스 생태계의 구축과 번영을 위해 적극적으로 참여하고 홍보해 왔습니다. 오픈소스 평가 데이터 세트는 연구자와 개발자에게 통일되고 표준화된 평가 도구를 제공하여 다양한 멀티모달 모델의 성능을 객관적이고 공정하게 비교 분석함으로써 차세대 언어 이해 알고리즘과 모델 아키텍처의 혁신적인 개발을 촉진합니다.

02 . 종합적인 기술 최적화: 데이터, 아키텍처 및 프로세스 시너지 효과로 멀티모달 모델의 병목 현상 해결

초기 유니모달 모델 개발부터 멀티모달 융합, 그리고 오늘날의 올모달 모델에 이르기까지, 이러한 기술 발전의 여정은 다양한 산업 분야에서 AI 기술의 현장 적용을 위한 더 넓은 공간을 확장했습니다. 그러나 AI 기술의 심도 있는 발전과 함께멀티모달 모델에서 이해와 생성의 통합을 효과적으로 달성하는 방법은 현재 멀티모달 현장 연구에서 핵심 핫스팟이자 기술적 난제가 되었습니다..

한편으로 이해와 생성의 통합은 자연스러운 인간 상호작용을 시뮬레이션하고 보다 자연스럽고 효율적인 인간과 컴퓨터 간의 커뮤니케이션을 달성하기 위한 핵심이자 일반 인공 지능(AGI)과의 중요한 연결고리이며, 다른 한편으로 특징 표현, 데이터 구조, 의미적 의미 등의 측면에서 다양한 모달 데이터 간에 상당한 차이가 있기 때문에 어떻게 효과적으로 멀티 모달 특징을 추출하고 크로스 모달 정보의 효과적인 상호작용 및 융합을 달성하는지는 올모달 모델 학습이 직면한 가장 큰 과제 중 하나로 인식되고 있습니다.

바이촨-옴니-1.5의 출시는 바이촨 인텔리전스가 위의 기술 문제를 해결하고 효과적인 기술 경로를 모색하는 데 상당한 진전을 이루었음을 보여줍니다. 바이촨의 연구팀은 옴니모달 모델 학습에서 흔히 발생하는 '지적 저하'라는 문제를 극복하기 위해 모델 구조 설계부터 학습 전략 최적화, 학습 데이터 구축에 이르는 전 과정을 심층적으로 최적화하여 마침내 이해와 생성의 효과적인 통합을 달성했습니다.

첫 번째모델링바이촨 옴니-1.5의 입력 계층은 다양한 모달 데이터를 지원하며, 해당 인코더/토큰라이저를 통해 처리하기 위해 대규모 언어 모델에 공급되고, 출력 계층에서 모델은 텍스트 토큰라이저와 오디오 디코더를 통해 텍스트와 오디오 콘텐츠를 동시에 생성할 수 있는 텍스트-오디오 인터리브 출력 설계를 채택하고 있습니다. 출력 레이어에서 모델은 텍스트 토큰화기와 오디오 디코더를 통해 텍스트와 오디오 모달리티를 동시에 생성할 수 있는 텍스트-오디오 인터리브 출력 설계를 채택합니다. 오디오 토큰화기는 OpenAI 오픈 소스 음성 인식 및 번역 모델을 기반으로 합니다. Whisper 이 모델은 고급 시맨틱 추출과 고음질 오디오 재구성을 제공하기 위해 점진적으로 학습됩니다. 모델이 다양한 해상도의 이미지를 처리할 수 있도록 바이촨 옴니-1.5는 최대 4K 해상도의 이미지 입력과 다중 이미지 추론을 지원하는 NaViT 모델을 도입하여 모델이 이미지 정보를 완전히 캡처하고 이미지 콘텐츠를 정확하게 이해할 수 있도록 합니다.

두 번째로데이터 수준BCI는 3억 4천만 개의 고품질 이미지/비디오/텍스트 데이터와 약 100만 시간의 오디오 데이터를 포함하는 방대한 데이터베이스를 구축했으며, 이 중에서 모델의 SFT(감독 미세 조정) 단계를 위해 1,700만 개의 풀모달 데이터를 선택했습니다. 기존 모델의 데이터 구성과 달리 옴니모달 모델의 학습에는 방대한 데이터 크기뿐만 아니라 다양한 데이터 유형과 모달 간 데이터도 필요합니다. 실제 세계에서 정보는 일반적으로 여러 모달리티의 융합으로 제공되며, 서로 다른 모달리티의 데이터에는 보완적인 정보가 포함되어 있으며, 멀티모달 데이터를 효과적으로 융합하면 모델이 보다 일반적인 패턴과 법칙을 학습하여 모델의 일반화 능력을 향상시키는 데 도움이 됩니다. 이는 고성능 올모달 모델을 구축하는 데 있어 핵심 요소 중 하나입니다.

바이촨 인텔리전스는 모델의 교차 모드 이해 능력을 향상시키기 위해 1,600만 개의 그래픽 데이터, 30만 개의 일반 텍스트 데이터, 40만 개의 오디오 데이터 및 위의 교차 모드 데이터를 사용하여 고품질 시각-청각-텍스트 인터리브 데이터를 구축하고 모델을 학습시켰습니다. 또한 연구팀은 모델이 ASR, TTS, 음색 전환, 오디오 엔드투엔드 Q&A 등 다양한 오디오 작업을 동시에 수행할 수 있도록 하기 위해 정렬된 데이터에 이러한 작업과 관련된 데이터 샘플도 구축했습니다.

세 번째 핵심 기술 포인트는교육 과정모델의 최적 설계는 고품질 데이터가 모델의 성능을 효과적으로 향상시킬 수 있도록 하는 핵심 연결고리입니다. 비씨링크스 인텔리전스는 모델의 효과를 종합적으로 개선하기 위해 사전 훈련과 SFT 단계에서 다단계 훈련 방식을 채택하고 있습니다. 첫 번째 단계는 그래픽 데이터 학습, 두 번째 단계는 사전 학습을 위한 오디오 데이터 추가, 세 번째 단계는 학습을 위한 비디오 데이터 도입, 마지막 단계는 궁극적으로 모델이 모든 모달 콘텐츠를 종합적으로 이해할 수 있도록 하는 멀티모달 정렬 단계로 나뉩니다.

위의 전방위적인 기술 최적화를 바탕으로 Baichuan-Omni-1.5의 전반적인 기능은 기존의 단일 모드 대형 언어 모델 또는 다중 모드 모델에 비해 크게 향상되었으며, Baichuan-Omni-1.5의 출시는 바이촨지능의 기술 연구 개발에서 또 하나의 중요한 이정표일 뿐만 아니라 AI 개발의 중심이 모델의 기본 기능 향상에서 실제 응용으로 가속화되고 있음을 의미합니다. 바이촨 옴니-1.5의 출시는 바이촨 인텔리전스의 기술 개발에서 또 하나의 중요한 이정표일 뿐만 아니라 AI 개발의 초점이 모델의 기본 기능 향상에서 실용적인 응용으로 가속화되고 있다는 신호이기도 합니다.

이전에는 빅모델의 기능 강화가 주로 언어 이해와 이미지 인식과 같은 기본 기능에 중점을 두었다면, 바이촨-옴니-1.5의 강력한 멀티모달 융합 기능은 이 기술이 실제 응용 시나리오와 더욱 긴밀하게 통합될 수 있도록 도울 것입니다. 언어, 시각, 오디오 등 멀티모달 정보 처리에서 모델의 포괄적인 기능을 강화함으로써 Baichuan-Omni-1.5는 더욱 복잡하고 다양한 실제 적용 작업에 효과적으로 대응할 수 있습니다. 예를 들어 의료 산업에서 옴니모달 모델의 강력한 이해 및 생성 기능은 의사의 질병 진단을 지원하여 진단의 정확성과 효율성을 향상시킬 수 있으며, 이는 의료 분야에서 AI 기술의 심층적인 응용을 촉진하는 데 큰 탐색 가치가 있습니다. 앞으로 바이촨-옴니-1.5의 출시는 AGI 시대 의료 및 헬스케어 분야에서 AI 기술 적용의 시작이 될 수 있으며, 가까운 미래에 AI가 의료 및 기타 분야에서 더 큰 역할을 수행하여 우리 삶을 크게 변화시킬 것으로 기대할 수 있는 이유가 있습니다.