바이두, 웬신 빅 모델 4.5 및 X1 출시: 멀티모달 기능과 딥씽킹의 이중 진화

47.5K 00

3월 16일, 바이두는 두 가지 새로운 대형 모델인 웬신 빅 모델 4.5와 웬신 빅 모델 X1을 공식 출시했습니다.한마디로공식 웹사이트는 온라인에 있으며 사용자는 무료로 체험할 수 있습니다. 동시에 기업 사용자와 개발자가 API를 통해 호출할 수 있는 바이두 인텔리전트 클라우드 치안판 빅모델 플랫폼에 웬신 빅모델 4.5가 출시되었습니다. 웬신 빅모델 X1도 곧 치판 플랫폼에서 사용할 수 있게 될 예정입니다. 또한, 바이두 검색, 웬신 이인 앱 및 기타 제품도 이 두 가지 새로운 모델에 연결되어 사용자에게 더욱 다양한 경험을 제공할 예정입니다.

웬신 빅 모델 4.5: 네이티브 멀티모달, 더욱 포괄적인 기능

웬신 빅 모델 4.5는 바이두가 개발한 차세대 네이티브 멀티모달 기본 빅 모델입니다. 이 모델은 공동 멀티모달 모델링을 통해 협업 최적화를 달성하고 멀티모달 이해 능력이 뛰어납니다. 이전 버전에 비해 웬신 빅모델 4.5는 언어 능력, 이해력, 생성, 논리 및 메모리뿐만 아니라 오류 메시지 감소, 논리적 추론 및 코드 기능도 크게 향상되었습니다.

멀티모달 기능

텍스트 역량

웬신 빅 모델 4.5는 텍스트, 사진, 오디오, 비디오 및 기타 형태의 콘텐츠를 포괄적으로 이해할 수 있습니다. 예를 들어 다이어그램이 포함된 복잡한 문제를 다룰 때 다이어그램의 핵심 정보를 정확하게 추출하고 문제를 해결하기 위한 자세한 단계와 분석을 제공하여 최종적으로 정답에 도달할 수 있습니다.

웬신 빅모델 4.5는 '높은 IQ'와 더불어 인터넷의 간결한 그림과 풍자 만화를 이해하는 데 있어서도 '높은 EQ'를 보여줍니다. 이러한 콘텐츠에 숨겨진 메시지와 유머 요소를 정확하게 포착하고 자세히 설명할 수 있습니다. 예를 들어, "연속성이 반드시 연속성으로 이어지는 것은 아니며, 연속성이 반드시 연속성으로 이어진다"는 수학적 개념을 담고 있는 일부 "테리어 그림"의 수학적 개념과 논리를 명확하게 설명할 수 있습니다.

웬신 빅 모델 4.5의 향상된 기능은 몇 가지 핵심 기술 덕분입니다:

플래시마스크 다이나믹 어텐션 마스크: 이 기술은 대규모 모델의 주의 마스크 계산을 가속화하고, 긴 시퀀스 모델링 기능과 학습 효율성을 개선하여 긴 텍스트와 다중 라운드 대화를 처리할 수 있도록 모델의 성능을 최적화합니다.
멀티모달 이기종 전문가 확장 기술: 다양한 모달 특성에 대한 이기종 전문가를 구성하고 적응형 모달 인식 손실 기능을 결합하여 서로 다른 모달 경사도의 불균형 문제를 해결하고 멀티 모달 융합 기능을 향상시킵니다.
시공간적 차원 표현 압축 기술: 이 기술은 시공간적 차원에서 이미지와 비디오의 의미적 표현을 효율적으로 압축하고, 멀티모달 데이터 학습의 효율성을 획기적으로 개선하며, 긴 비디오에서 지식을 학습하는 모델의 능력을 향상시킬 수 있습니다.
지식 포인트를 기반으로 한 대규모 데이터 구축 기법: 지식 계층적 샘플링, 데이터 압축 및 융합, 부족한 지식 포인트의 표적 합성 기술을 통해 높은 지식 밀도의 사전 학습 데이터를 구축하여 모델 학습 효율성을 개선하고 모델이 잘못된 정보를 생성할 확률을 줄입니다.
셀프 피드백 기반 교육 후 기술: 여러 평가 양식을 통합한 자가 피드백 반복 학습 기법은 강화 학습의 안정성과 견고성을 종합적으로 개선하여 사전 학습된 모델이 사람의 의도에 더 잘 부합할 수 있도록 합니다.

리터럴 마인드 빅 모델 X1: 더 깊은 사고, 더 포괄적인 기능

리터럴 마인드 빅 모델 X1은 이해, 계획, 성찰, 진화 기능이 향상되었으며 멀티 모달리티를 지원합니다. 스스로 도구를 사용할 수 있는 최초의 심층 사고 모델입니다. 문심 빅모델 X1은 중국어 지식 퀴즈, 문학 창작, 원고 작성, 일상 대화, 논리적 추론, 복잡한 계산, 도구 호출에서 특히 뛰어난 성능을 발휘합니다.

웬신 빅모델 X1은 이미 고급 검색, 문서 퀴즈, 이미지 이해, AI 그리기, 코드 인터프리터, 웹 페이지 링크 읽기, 트리마인드 트리맵, 바이두 학술 검색, 비즈니스 정보 쿼리, 가입 정보 쿼리 등 다양한 도구를 지원하고 있습니다.

예를 들어, '차가운 가마 푸가'의 개작 버전을 생성할 때 웬신 빅모델 X1은 먼저 원문과 유사한 역사적 인물에 대한 암시를 찾고, 문체와 구문에 주의를 기울인 다음 암시의 적절성을 확인하고, 마지막으로 텍스트의 매끄러운 구조를 유지하여 의도와 문체 및 구문 측면에서 원문과 기본적으로 동일한 텍스트를 생성하는 명확한 사고의 사슬을 보여줍니다.

웬신 빅 모델 X1의 향상된 기능은 몇 가지 핵심 기술 덕분입니다:

점진적이고 집중적인 학습 및 교육 방법: 이 혁신적인 접근 방식은 저작, 검색, 도구 호출 및 추론과 같은 시나리오에서 전반적으로 모델의 포괄적인 적용을 개선합니다.
생각과 행동의 연쇄를 기반으로 한 엔드투엔드 교육: 심층 검색, 도구 호출 및 기타 시나리오의 경우 결과 피드백을 기반으로 엔드투엔드 모델 학습이 수행되므로 학습 효과가 크게 향상됩니다.
다양하고 균일한 보상 시스템: 여러 유형의 보상 메커니즘을 통합하는 통합 보상 시스템을 구축하여 모델 학습에 대한 보다 강력한 피드백을 제공합니다.

가격 및 전망

현재 사용자는 무신 빅모델 4.5와 무신 빅모델 X1을 무신이인 공식 웹사이트에서 무료로 체험할 수 있으며, 바이두 지능형 클라우드 첸판 빅모델 플랫폼에서 무신 빅모델 4.5 API의 입력 가격은 0.004위안/천 단어, 출력 가격은 0.016위안/천 단어로 낮습니다. 우신 빅모델 X1은 곧 치판 플랫폼에서 출시될 예정이며, 입력 가격은 0.002위안/천 단어, 출력 가격은 0.008위안/천 단어로 낮습니다.

바이두는 2024년을 빅 모델 기술의 완전한 반복의 해로 삼고 더 나은 스마트한 차세대 모델을 구축하기 위해 AI, 데이터 센터, 클라우드 인프라에 더 과감하게 투자할 것이라고 밝혔습니다.