Em 16 de março, a Baidu lançou oficialmente dois novos modelos grandes: Wenshin Big Model 4.5 e Wenshin Big Model X1. Ambos os modelos foram lançados emem uma palavraO site oficial está on-line e os usuários podem experimentá-lo gratuitamente. Ao mesmo tempo, o Wenshin Big Model 4.5 foi lançado na Baidu Intelligent Cloud Qianfan Big Model Platform, que pode ser acessada por usuários corporativos e desenvolvedores por meio da API. O Wenshin Big Model X1 também estará disponível na plataforma Chifan em breve. Além disso, o Baidu Search, o Wenshin Yiyin APP e outros produtos também serão conectados a esses dois novos modelos, proporcionando experiências mais diversificadas aos usuários.
Wenshin Big Model 4.5: Multimodal nativo, recursos mais abrangentes
O Wenshin Big Model 4.5 é uma nova geração de big model de base multimodal nativa desenvolvida pela Baidu. Ele alcança a otimização colaborativa por meio de modelagem multimodal conjunta e se destaca em recursos de compreensão multimodal. Em comparação com a versão anterior, o Wenshin Big Model 4.5 apresentou melhorias significativas na capacidade de linguagem, compreensão, geração, lógica e memória, bem como na redução de mensagens de erro, raciocínio lógico e capacidade de código.
capacidade multimodal
Competência textual
O Wenxin Big Model 4.5 é capaz de compreender de forma abrangente texto, imagens, áudio, vídeo e outras formas de conteúdo. Por exemplo, ao lidar com problemas complexos que contêm diagramas, ele é capaz de extrair com precisão as principais informações dos diagramas e fornecer etapas e análises detalhadas para resolver os problemas e, finalmente, chegar à resposta correta.
Além de seu "alto QI", o Wenshin Big Model 4.5 também demonstra um "alto QE" quando se trata de compreender imagens concisas e desenhos satíricos da Internet. Ele consegue captar com precisão as mensagens ocultas e os elementos humorísticos desses conteúdos e explicá-los detalhadamente. Por exemplo, ele pode explicar claramente os conceitos matemáticos e a lógica de algumas "imagens de terrier", que contêm o conceito matemático de que "a continuidade não leva necessariamente à continuidade, e a possibilidade de liderança leva necessariamente à continuidade".
Os recursos aprimorados do Wenshin Big Model 4.5 se devem a várias tecnologias importantes:
- Máscara de atenção dinâmica FlashMask: Essa técnica acelera o cálculo das máscaras de atenção para modelos grandes, melhora os recursos de modelagem de sequências longas e a eficiência do treinamento e, portanto, otimiza o desempenho do modelo para o processamento de textos longos e conversas com várias rodadas.
- Técnicas de extensão de especialistas heterogêneos multimodais: Ao criar especialistas heterogêneos para diferentes características modais e combinar a função de perda de percepção modal adaptável, resolvemos o problema de desequilíbrio de diferentes gradientes modais e melhoramos a capacidade de fusão multimodal.
- Técnicas de compressão de representação dimensional espaço-temporal: Essa técnica pode comprimir com eficiência as representações semânticas de imagens e vídeos na dimensão espaço-temporal, melhorar consideravelmente a eficiência do treinamento de dados multimodais e aprimorar a capacidade dos modelos de aprender conhecimento com vídeos longos.
- Técnicas de construção de dados em larga escala baseadas em pontos de conhecimento: Por meio das técnicas de amostragem hierárquica de conhecimento, compactação e fusão de dados e síntese direcionada de pontos de conhecimento escassos, são construídos dados de pré-treinamento com alta densidade de conhecimento para melhorar a eficiência do aprendizado do modelo e reduzir a probabilidade de o modelo gerar informações errôneas.
- Técnicas pós-treinamento baseadas em autofeedback: Uma técnica pós-treinamento iterativa de autofeedback que incorpora várias modalidades de avaliação melhora de forma abrangente a estabilidade e a robustez do aprendizado por reforço, permitindo que os modelos pré-treinados se alinhem melhor às intenções humanas.
Literary Mind Big Model X1: Pensamento mais profundo, recursos mais abrangentes
O Literary Mind Big Model X1 tem recursos aprimorados de compreensão, planejamento, reflexão e evolução, e suporta multimodalidade. É o primeiro modelo de pensamento profundo que pode usar ferramentas por conta própria. O Wenshin Big Model X1 tem um desempenho particularmente bom em testes de conhecimento de chinês, criação literária, redação de manuscritos, diálogo diário, raciocínio lógico, computação complexa e invocação de ferramentas.
O Wenxin Big Model X1 já suporta uma variedade de ferramentas, incluindo pesquisa avançada, teste de documentos, compreensão de imagens, desenho de IA, intérprete de código, leitura de links de páginas da Web, mapa de árvore TreeMind, Baidu Academic Search, consulta de informações comerciais, consulta de informações de junção e assim por diante.
Por exemplo, ao gerar uma versão reescrita de "Cold Kiln Fugue", o Wenshin Big Model X1 mostra uma clara cadeia de raciocínio: primeiro, encontre alusões a figuras históricas semelhantes ao texto original, depois preste atenção ao estilo e à sintaxe, depois verifique a adequação das alusões e, por fim, mantenha a estrutura do texto suave para gerar um texto que seja basicamente igual ao texto original em termos de intenção, estilo e sintaxe.
Os recursos aprimorados do Wenshin Big Model X1 se devem a várias tecnologias importantes:
- Métodos de aprendizado e treinamento progressivos e intensivos: Essa abordagem inovadora aprimora a aplicação abrangente de modelos em todos os cenários, como criação, pesquisa, invocação de ferramentas e raciocínio.
- Treinamento de ponta a ponta baseado na cadeia de pensamento e ação: Para pesquisa profunda, invocação de ferramentas e outros cenários, o treinamento de modelos de ponta a ponta é realizado com base no feedback do resultado, o que melhora significativamente o efeito do treinamento.
- Sistema de recompensas diversificado e uniforme: Estabelecer um sistema de recompensa unificado que incorpore vários tipos de mecanismos de recompensa para fornecer feedback mais robusto para o treinamento de modelos.
Preços e perspectivas
Atualmente, os usuários podem experimentar o Wuxin Big Model 4.5 e o Wuxin Big Model X1 gratuitamente no site oficial do WuxinYiYin, e na plataforma Baidu Intelligent Cloud Qianfan Big Model, o preço de entrada da API do Wuxin Big Model 4.5 é tão baixo quanto 0,004 yuan/mil palavras, e o preço de saída é tão baixo quanto 0,016 yuan/mil palavras. O Wenshin Big Model X1 será lançado em breve na plataforma Chifan, com preço de entrada tão baixo quanto 0,002 yuan/mil palavras e preço de saída tão baixo quanto 0,008 yuan/mil palavras.
A Baidu disse que 2024 é o ano da iteração completa da tecnologia de modelos grandes e que fará investimentos mais ousados em IA, data centers e infraestrutura de nuvem para criar modelos de próxima geração melhores e mais inteligentes.