Baidu lança Wenxin Big Model 4.5 e X1: evolução dupla de capacidades multimodais e pensamento profundo

Notícias sobre IAAtualizado há 6 meses Círculo de compartilhamento de IA

15.5K 00

Em 16 de março, a Baidu lançou oficialmente dois novos modelos grandes: Wenshin Big Model 4.5 e Wenshin Big Model X1. Ambos os modelos foram lançados emem uma palavraO site oficial está on-line e os usuários podem experimentá-lo gratuitamente. Ao mesmo tempo, o Wenshin Big Model 4.5 foi lançado na Baidu Intelligent Cloud Qianfan Big Model Platform, que pode ser acessada por usuários corporativos e desenvolvedores por meio da API. O Wenshin Big Model X1 também estará disponível na plataforma Chifan em breve. Além disso, o Baidu Search, o Wenshin Yiyin APP e outros produtos também serão conectados a esses dois novos modelos, proporcionando experiências mais diversificadas aos usuários.

Wenshin Big Model 4.5: Multimodal nativo, recursos mais abrangentes

O Wenshin Big Model 4.5 é uma nova geração de big model de base multimodal nativa desenvolvida pela Baidu. Ele alcança a otimização colaborativa por meio de modelagem multimodal conjunta e se destaca em recursos de compreensão multimodal. Em comparação com a versão anterior, o Wenshin Big Model 4.5 apresentou melhorias significativas na capacidade de linguagem, compreensão, geração, lógica e memória, bem como na redução de mensagens de erro, raciocínio lógico e capacidade de código.

capacidade multimodal

Competência textual

O Wenxin Big Model 4.5 é capaz de compreender de forma abrangente texto, imagens, áudio, vídeo e outras formas de conteúdo. Por exemplo, ao lidar com problemas complexos que contêm diagramas, ele é capaz de extrair com precisão as principais informações dos diagramas e fornecer etapas e análises detalhadas para resolver os problemas e, finalmente, chegar à resposta correta.

Além de seu "alto QI", o Wenshin Big Model 4.5 também demonstra um "alto QE" quando se trata de compreender imagens concisas e desenhos satíricos da Internet. Ele consegue captar com precisão as mensagens ocultas e os elementos humorísticos desses conteúdos e explicá-los detalhadamente. Por exemplo, ele pode explicar claramente os conceitos matemáticos e a lógica de algumas "imagens de terrier", que contêm o conceito matemático de que "a continuidade não leva necessariamente à continuidade, e a possibilidade de liderança leva necessariamente à continuidade".

Os recursos aprimorados do Wenshin Big Model 4.5 se devem a várias tecnologias importantes:

Máscara de atenção dinâmica FlashMask: Essa técnica acelera o cálculo das máscaras de atenção para modelos grandes, melhora os recursos de modelagem de sequências longas e a eficiência do treinamento e, portanto, otimiza o desempenho do modelo para o processamento de textos longos e conversas com várias rodadas.
Técnicas de extensão de especialistas heterogêneos multimodais: Ao criar especialistas heterogêneos para diferentes características modais e combinar a função de perda de percepção modal adaptável, resolvemos o problema de desequilíbrio de diferentes gradientes modais e melhoramos a capacidade de fusão multimodal.
Técnicas de compressão de representação dimensional espaço-temporal: Essa técnica pode comprimir com eficiência as representações semânticas de imagens e vídeos na dimensão espaço-temporal, melhorar consideravelmente a eficiência do treinamento de dados multimodais e aprimorar a capacidade dos modelos de aprender conhecimento com vídeos longos.
Técnicas de construção de dados em larga escala baseadas em pontos de conhecimento: Por meio das técnicas de amostragem hierárquica de conhecimento, compactação e fusão de dados e síntese direcionada de pontos de conhecimento escassos, são construídos dados de pré-treinamento com alta densidade de conhecimento para melhorar a eficiência do aprendizado do modelo e reduzir a probabilidade de o modelo gerar informações errôneas.
Técnicas pós-treinamento baseadas em autofeedback: Uma técnica pós-treinamento iterativa de autofeedback que incorpora várias modalidades de avaliação melhora de forma abrangente a estabilidade e a robustez do aprendizado por reforço, permitindo que os modelos pré-treinados se alinhem melhor às intenções humanas.

Literary Mind Big Model X1: Pensamento mais profundo, recursos mais abrangentes

O Literary Mind Big Model X1 tem recursos aprimorados de compreensão, planejamento, reflexão e evolução, e suporta multimodalidade. É o primeiro modelo de pensamento profundo que pode usar ferramentas por conta própria. O Wenshin Big Model X1 tem um desempenho particularmente bom em testes de conhecimento de chinês, criação literária, redação de manuscritos, diálogo diário, raciocínio lógico, computação complexa e invocação de ferramentas.

O Wenxin Big Model X1 já suporta uma variedade de ferramentas, incluindo pesquisa avançada, teste de documentos, compreensão de imagens, desenho de IA, intérprete de código, leitura de links de páginas da Web, mapa de árvore TreeMind, Baidu Academic Search, consulta de informações comerciais, consulta de informações de junção e assim por diante.

Por exemplo, ao gerar uma versão reescrita de "Cold Kiln Fugue", o Wenshin Big Model X1 mostra uma clara cadeia de raciocínio: primeiro, encontre alusões a figuras históricas semelhantes ao texto original, depois preste atenção ao estilo e à sintaxe, depois verifique a adequação das alusões e, por fim, mantenha a estrutura do texto suave para gerar um texto que seja basicamente igual ao texto original em termos de intenção, estilo e sintaxe.

Os recursos aprimorados do Wenshin Big Model X1 se devem a várias tecnologias importantes:

Métodos de aprendizado e treinamento progressivos e intensivos: Essa abordagem inovadora aprimora a aplicação abrangente de modelos em todos os cenários, como criação, pesquisa, invocação de ferramentas e raciocínio.
Treinamento de ponta a ponta baseado na cadeia de pensamento e ação: Para pesquisa profunda, invocação de ferramentas e outros cenários, o treinamento de modelos de ponta a ponta é realizado com base no feedback do resultado, o que melhora significativamente o efeito do treinamento.
Sistema de recompensas diversificado e uniforme: Estabelecer um sistema de recompensa unificado que incorpore vários tipos de mecanismos de recompensa para fornecer feedback mais robusto para o treinamento de modelos.

Preços e perspectivas

Atualmente, os usuários podem experimentar o Wuxin Big Model 4.5 e o Wuxin Big Model X1 gratuitamente no site oficial do WuxinYiYin, e na plataforma Baidu Intelligent Cloud Qianfan Big Model, o preço de entrada da API do Wuxin Big Model 4.5 é tão baixo quanto 0,004 yuan/mil palavras, e o preço de saída é tão baixo quanto 0,016 yuan/mil palavras. O Wenshin Big Model X1 será lançado em breve na plataforma Chifan, com preço de entrada tão baixo quanto 0,002 yuan/mil palavras e preço de saída tão baixo quanto 0,008 yuan/mil palavras.

A Baidu disse que 2024 é o ano da iteração completa da tecnologia de modelos grandes e que fará investimentos mais ousados em IA, data centers e infraestrutura de nuvem para criar modelos de próxima geração melhores e mais inteligentes.

Notícias sobre IA

Direitos autorais do artigo Círculo de compartilhamento de IA A todos, favor não reproduzir sem permissão.

O grande modelo de voz em tempo real de ponta a ponta do Beanbag está on-line! O QI e o QE estão on-line, e o diálogo de voz em chinês está saindo do precipício!

Notícias sobre IA

8 meses atrás

017K

Baidu coração amargo... ...O Wenxin Yiyin será totalmente gratuito a partir de 1º de abril, e a função de pesquisa aprofundada on-line

Notícias sobre IA

7 meses atrás

012.6K

Aplicação em larga escala da API DeepSeek da tecnologia de cache de disco rígido: uma etapa fundamental na civilização de modelos grandes

Notícias sobre IA

7 meses atrás

017.2K

突发！微软宣布2024年10月21日停止国内个人提供Azure OpenAI服务

Quebrando! A Microsoft anuncia a interrupção dos serviços Azure OpenAI para indivíduos domésticos em 21 de outubro de 2024

Notícias sobre IA

11 meses atrás

014.8K

Sem comentários

Você precisa estar conectado para participar dos comentários!

Faça login agora

Nenhum comentário...

Baidu lança Wenxin Big Model 4.5 e X1: evolução dupla de capacidades multimodais e pensamento profundo

Wenshin Big Model 4.5: Multimodal nativo, recursos mais abrangentes

Literary Mind Big Model X1: Pensamento mais profundo, recursos mais abrangentes

Preços e perspectivas

Os "cientistas" de IA vencem a primeira batalha: artigo revisado por pares do ICLR, status de pesquisa humana contestado?

O Google Gemini lança o recurso de pesquisa personalizada com integração profunda do histórico de pesquisa

Artigos relacionados

O grande modelo de voz em tempo real de ponta a ponta do Beanbag está on-line! O QI e o QE estão on-line, e o diálogo de voz em chinês está saindo do precipício!

Baidu coração amargo... ...O Wenxin Yiyin será totalmente gratuito a partir de 1º de abril, e a função de pesquisa aprofundada on-line

Aplicação em larga escala da API DeepSeek da tecnologia de cache de disco rígido: uma etapa fundamental na civilização de modelos grandes

Quebrando! A Microsoft anuncia a interrupção dos serviços Azure OpenAI para indivíduos domésticos em 21 de outubro de 2024

Sem comentários

Últimas coleções

Artigos mais recentes

Baidu lança Wenxin Big Model 4.5 e X1: evolução dupla de capacidades multimodais e pensamento profundo

Wenshin Big Model 4.5: Multimodal nativo, recursos mais abrangentes

Literary Mind Big Model X1: Pensamento mais profundo, recursos mais abrangentes

Preços e perspectivas

Os "cientistas" de IA vencem a primeira batalha: artigo revisado por pares do ICLR, status de pesquisa humana contestado?

O Google Gemini lança o recurso de pesquisa personalizada com integração profunda do histórico de pesquisa

Artigos relacionados

O grande modelo de voz em tempo real de ponta a ponta do Beanbag está on-line! O QI e o QE estão on-line, e o diálogo de voz em chinês está saindo do precipício!

Baidu coração amargo... ...O Wenxin Yiyin será totalmente gratuito a partir de 1º de abril, e a função de pesquisa aprofundada on-line

Aplicação em larga escala da API DeepSeek da tecnologia de cache de disco rígido: uma etapa fundamental na civilização de modelos grandes

Quebrando! A Microsoft anuncia a interrupção dos serviços Azure OpenAI para indivíduos domésticos em 21 de outubro de 2024

Sem comentários

Ferramentas de IA selecionadas

Últimas coleções

Artigos mais recentes