O desenvolvimento de modelos de IA está se tornando cada vez mais diversificado. Além dos modelos de linguagem em grande escala e dos modelos de linguagem em pequena escala, os "modelos de mundo", chamados de simuladores de mundo, estão sendo considerados uma das próximas direções de desenvolvimento importantes da IA.
Em 2024, a World Labs, startup de inteligência espacial do cientista da computação e pioneiro da IA Feifei Li, concluiu duas rodadas de financiamento com o objetivo de criar um "modelo de mundo grande" e atualmente está avaliada em US$ 1 bilhão, enquanto a Google DeepMind roubou o modelo de geração de imagens da OpenAI Sora Uma das pessoas responsáveis pela criação do World Simulator; a OpenAI também descreve Sora como um modelo do mundo.
Dar à IA uma compreensão do mundo real
O modelo de mundo da IA é inspirado no modelo da mente humana - o cérebro humano recebe informações dos sentidos para desenvolver uma compreensão mais concreta do mundo ao seu redor.
Em um artigo, os pesquisadores de IA David Ha e Jürgen Schmidhuber citam o exemplo de rebatedores de beisebol que conseguem acertar bolas rápidas de 100 mph porque conseguem prever "instintivamente" a direção da bola, o que é fundamentado e acontece subconscientemente - seus músculos seus músculos balançam o taco instintivamente na hora e no lugar certos com base nas previsões do modelo cerebral. Tem-se argumentado que a modelagem mental é um pré-requisito para a inteligência humana.
Como um sistema de IA, um modelo de mundo de IA segue o mesmo caminho. De acordo com a pista da startup de IA, um modelo de mundo de IA pode construir pistas internas para o ambiente externo e simular eventos ambientais futuros com base nessas pistas; o objetivo do modelo de mundo é simular uma situação exatamente igual à do mundo real.
Por que os modelos mundiais estão no centro das atenções?
De fato, o conceito de modelagem mundial existe há mais de uma década, mas o Um dos motivos desse interesse crescente é o aumento dos vídeos gerados por IA .
O TechCrunch observa que a maior parte do conteúdo de vídeo gerado por IA atualmente ainda sofre com o fenômeno do Vale do Horror, como mostrar membros torcidos ou fundidos uns aos outros. Além disso, embora os modelos de IA generativa possam prever com precisão fenômenos físicos, como a direção do quique de uma bola de basquete, apesar de anos de treinamento de imagens, eles não sabem realmente por que a bola de basquete está quicando.
Por outro lado, um modelo de mundo com percepção de mundo em 3D pode mostrar melhor os efeitos de um quique de bola de basquete. Para que a IA obtenha essa percepção, o modelo do mundo precisa ser treinado em uma variedade de dados, incluindo fotos, áudio, vídeo e texto.
O potencial do modelo mundial não se limita à geração de vídeos. Pesquisadores como Likun Yang, cientista-chefe de IA da Meta, disseram que Os modelos mundiais podem ser usados no futuro para previsões e planejamentos complexos nos domínios digital e físico Por sua vez, Justin Johnson, cofundador da World Labs, disse que, no futuro, os modelos mundiais poderão Gerar mundos virtuais em 3D para jogos, fotografia virtual, etc. .
Para os desenvolvedores, com um modelo poderoso do mundo, não há necessidade de definir como cada objeto se move um a um - geralmente uma tarefa chata, incômoda e demorada. Alex Mashrabov, ex-diretor de IA da Snap e CEO da Higgsfield, disse à imprensa que, com um modelo avançado do mundo, a IA é capaz de desenvolver uma autocompreensão de qualquer cenário em que se encontre e começar a raciocinar sobre possíveis soluções.
3 muros a serem transpostos para a modelagem mundial
Embora o conceito de um modelo mundial seja tentador, ainda há muitos desafios técnicos. Em uma palestra em 2024, Li-Kun Yang admitiu que seriam necessários pelo menos mais 10 anos para realizar o modelo mundial que ele tinha em mente.
De acordo com a análise da mídia estrangeira, os obstáculos enfrentados pelo modelo mundial também são um microcosmo do desenvolvimento atual dos modelos de IA. Em primeiro lugar. O treinamento e a execução de modelos mundiais exigem muito poder aritmético -Milhares de GPUs são necessárias apenas para o Sora, que é considerado um modelo inicial do mundo.
Além disso. O modelo mundial também produz alucinações e pode internalizar vieses nos dados de treinamento. Por exemplo, um modelo visual treinado com base em um vídeo de um dia ensolarado em uma cidade europeia pode ter dificuldade para entender ou representar uma cidade coreana com neve, ou até mesmo gerar conteúdo incorreto.
Para resolver esse problema. Os dados de treinamento para o modelo mundial devem ser amplos o suficiente para abranger não apenas diferentes cenários, mas também específicos o suficiente para que a IA compreenda as nuances dos diferentes cenários. No entanto, o desenvolvimento de IA também está enfrentando uma crise de escassez de dados. No entanto, o desenvolvimento de IA também está enfrentando uma crise de escassez de dados, com a previsão da Epoch AI de que os desenvolvedores ficarão sem dados para treinar modelos de IA generativos entre 2026 e 2032.
No entanto, o modelo de mundo ainda é muito atraente, e Mashrabov diz que, se os obstáculos forem superados, o modelo de mundo poderá ser uma conexão "muito mais forte" entre a IA e o mundo real - um avanço não apenas na geração de mundos virtuais, mas também grandes avanços nas áreas de robótica e tomada de decisões de IA.
Itens relacionados
Skybox AI: geração de imagens panorâmicas de 360° para criar mundos virtuais com facilidade