Uma carta do CEO do Google e da Alphabet, Sundar Pichai:
A informação está no centro do progresso humano. É por isso que estamos trabalhando há 26 anos para organizar as informações do mundo e torná-las acessíveis e úteis. É também por isso que estamos constantemente ampliando as fronteiras da IA para organizar as informações por meio de uma variedade de entradas e torná-las mais úteis por meio de quaisquer saídas que realmente o ajudem.
Foi isso que lançamos em dezembro passado. Gêmeos A visão na versão 1.0. O Gemini 1.0 é o primeiro modelo multimodal nativo que permite a compreensão total de texto, vídeo, imagens, áudio e código com multimodalidade e contextos longos, além de lidar com mais informações.
Hoje, milhões de desenvolvedores estão criando produtos usando o Gemini. Ele nos ajudou a reimaginar todos os nossos produtos - incluindo nossos sete produtos principais com 2 bilhões de usuários - e a criar novos produtos. O notebookLM é um ótimo exemplo de recursos multimodais e de contexto longo, e é por isso que ele é tão popular. O notebookLM é um ótimo exemplo de recursos multimodais e de contexto longo, e é por isso que é tão popular.
No último ano, trabalhamos no desenvolvimento de modelos mais agênticos - modelos que podem entender o mundo ao seu redor mais profundamente, pensar vários passos à frente e agir sob sua supervisão.
Hoje, temos o prazer de revelar a próxima geração de modelos criados para essa nova era de agentes: o Gemini 2.0, nosso modelo mais avançado até o momento. Com novos avanços em domínios multimodais (como saída nativa de imagem e áudio) e recursos de uso de ferramentas nativas, ele nos permitirá criar novos agentes de IA que estão um passo mais perto de concretizar nossa visão de um assistente universal.
Hoje estamos disponibilizando a versão 2.0 para desenvolvedores e testadores de confiança. Estamos acelerando sua integração em nossos produtos, começando com o Gemini e o Search. A partir de hoje, nosso modelo experimental Gemini 2.0 Flash estará disponível para todos os usuários do Gemini. Ao mesmo tempo, estamos lançando um novo serviço chamado Pesquisa profunda um novo recurso que usa raciocínio avançado e recursos de contexto longo como um assistente de pesquisa para ajudar a explorar tópicos complexos e agregar relatórios em seu nome. Ele já está disponível no Gemini Advanced.
Nenhum produto foi mais afetado pela IA do que a pesquisa. Nossa Visão Geral de IA agora atinge 1 bilhão de usuários e é capaz de responder a um conjunto totalmente novo de tipos de perguntas, tornando-se rapidamente um dos recursos de pesquisa mais populares. Em seguida, estamos trazendo os recursos de raciocínio avançado do Gemini 2.0 para o AI Overview para lidar com tópicos mais complexos e perguntas de várias etapas, incluindo equações matemáticas avançadas, consultas multimodais e codificação. Iniciamos testes limitados nesta semana, com uma implementação mais ampla no início do próximo ano. Durante o próximo ano, continuaremos a introduzir o AI Overview em mais países e idiomas.
Os avanços do Gemini 2.0 foram possíveis graças ao nosso investimento em abordagens inovadoras de pilha completa para IA por mais de uma década. Ela se baseia em hardware personalizado, como a Trillium, nossa TPU de sexta geração. A TPU é compatível com o treinamento e a inferência do Gemini 2.0 no 100%, e hoje a Trillium está totalmente disponível para os clientes criarem produtos com ela.
Se o Gemini 1.0 tratava de organizar e dar sentido às informações, o Gemini 2.0 trata de tornar as informações mais úteis. Mal posso esperar para ver o que essa nova era trará.
Anunciando o Gemini 2.0: um novo modelo de IA desenvolvido para a era dos agentes
Por Demis Hassabis, CEO do Google DeepMind, e Koray Kavukcuoglu, CTO do Google DeepMind, em nome da equipe Gemini
No último ano, continuamos a fazer progressos incríveis no campo da inteligência artificial. Hoje, lançamos o primeiro modelo da família Gemini 2.0: uma versão experimental do Gemini 2.0 Flash. Esse é um modelo eficiente na vanguarda de nossa tecnologia, com baixa latência e desempenho aprimorado.
Também apresentamos um protótipo das fronteiras da pesquisa de agentes com o suporte dos recursos multimodais nativos do Gemini 2.0.
Flash Gemini 2.0
O Gemini 2.0 Flash se baseia no sucesso do 1.5 Flash, de longe o modelo mais popular entre os desenvolvedores, oferecendo os mesmos tempos de resposta rápidos e desempenho aprimorado. Notavelmente, o Flash 2.0 supera até mesmo o 1.5 Pro nos principais benchmarks, sendo duas vezes mais rápido. O Flash 2.0 também traz novos recursos. Além de oferecer suporte a entradas multimodais, como imagens, vídeo e áudio, o Flash 2.0 agora oferece suporte a saídas multimodais, como mixagem de texto e imagem gerada nativamente e áudio multilíngue controlado de texto para fala (TTS). Ele também pode invocar nativamente ferramentas como a pesquisa do Google, execução de código e recursos definidos pelo usuário de terceiros.
Nosso objetivo é permitir que os usuários trabalhem com nossos modelos de forma segura e rápida. No último mês, compartilhamos uma versão experimental inicial do Gemini 2.0 e recebemos feedback valioso dos desenvolvedores.
O Gemini 2.0 Flash já está disponível como um modelo experimental por meio do Estúdio de IA do Google responder cantando IA de vértice (usado em uma expressão nominal) API Gemini Disponível para os desenvolvedores. A entrada multimodal e a saída de texto estão disponíveis para todos os desenvolvedores, enquanto os recursos de conversão de texto em fala e geração de imagens nativas estão disponíveis para os parceiros de acesso antecipado. A disponibilidade geral será lançada em janeiro com mais tamanhos de modelos.
Para ajudar os desenvolvedores a criar aplicativos dinâmicos e interativos, também lançamos uma nova API multimodal em tempo real que suporta entradas de streaming de áudio e vídeo em tempo real, bem como o uso de várias ferramentas combinadas. Para obter mais informações sobre o Flash 2.0 e a API multimodal em tempo real, consulte nosso Blog do desenvolvedor.
O Gemini 2.0 está disponível no aplicativo Gemini, nosso assistente de IA.
A partir de hoje, os usuários do Gemini em todo o mundo podem acessar uma versão otimizada para bate-papo do 2.0 Flash Experiment por meio do menu suspenso do modelo no desktop e na web móvel, que em breve estará disponível no aplicativo móvel Gemini. Com esse novo modelo, os usuários poderão experimentar o Gemini Assistant de uma forma ainda mais útil.
No início do próximo ano, estenderemos o Gemini 2.0 para mais produtos do Google.
Desbloqueando a experiência do agente com o Gemini 2.0
Os recursos de ação da interface de usuário nativa do Gemini 2.0 Flash, juntamente com outros aprimoramentos, como raciocínio multimodal, compreensão de contextos longos, acompanhamento e planejamento de instruções complexas, chamadas de funções combinatórias, uso de ferramentas nativas e latência aprimorada, combinam-se para possibilitar uma classe totalmente nova de experiência de agente.
A aplicação prática de agentes de IA é uma área de pesquisa repleta de possibilidades interessantes. Estamos explorando essa nova área com uma série de protótipos que ajudam as pessoas a concluir tarefas e resolver problemas. Esses protótipos incluem uma versão atualizada do Projeto Astra, um protótipo de pesquisa que explora os recursos futuros de assistentes de IA de uso geral; o recém-lançado Projeto Mariner, que explora o futuro da interação homem-agente, começando pelo navegador; e o Jules, um agente de código com tecnologia de IA que ajuda os desenvolvedores.
Ainda estamos nos estágios iniciais de desenvolvimento, mas estamos animados para ver como os testadores de confiança usam esses novos recursos e o que podemos aprender com eles para disponibilizá-los para mais produtos no futuro.
Projeto Astra: agentes de compreensão multimodal no mundo real
Desde nossa conferência de I/O Lançamento do Projeto Astra Desde então, temos aprendido com testadores confiáveis que usam telefones Android. Seu inestimável feedback nos ajudou a entender melhor como os assistentes de IA de uso geral funcionam na prática, incluindo as implicações éticas e de segurança:
- Melhor capacidade de diálogoO Projeto Astra agora pode ter conversas em vários idiomas e misturas de idiomas, com melhor compreensão de sotaques e vocabulário raro.
- Nova capacidade de uso da ferramentaGemini 2.0: Com o Gemini 2.0, o Project Astra tem acesso à Pesquisa Google, ao Lens e ao Maps, o que o torna ainda mais útil na vida cotidiana.
- Melhores habilidades de memóriaMelhoramos os recursos de memória do Project Astra, mantendo você no controle. Ele agora suporta até 10 minutos de memória durante a sessão e lembra mais de suas conversas anteriores, tornando-o mais pessoal.
- Latência aprimoradaCom os novos recursos de streaming e a compreensão de áudio nativa, os agentes podem entender a linguagem com uma latência próxima à do diálogo humano.
Estamos trabalhando para levar esses recursos aos produtos do Google, como Gêmeos aplicativos (nossos assistentes de IA) e em outras formas, como óculos. Ao mesmo tempo, estamos expandindo nosso programa Trusted Tester para mais pessoas, incluindo um grupo que em breve começará a testar o Project Astra em protótipos de óculos.
Projeto Mariner: agentes inteligentes para ajudar em tarefas complexas
O Project Mariner é um protótipo de pesquisa inicial desenvolvido no Gemini 2.0 para explorar o futuro da interação homem-computador, começando pelo seu navegador. Como um protótipo de pesquisa, ele entende e raciocina sobre as informações na tela do navegador, incluindo pixels e elementos de páginas da Web, como texto, código, imagens e formulários, e usa essas informações para concluir tarefas para você por meio de um plug-in experimental do Chrome.
existir Benchmarking do WebVoyagerNesse teste, que avalia o desempenho de agentes inteligentes em tarefas da Web do mundo real de ponta a ponta, o Project Mariner implementou uma configuração de agente único com um 83,51 Atualização do TP3T.
Embora ainda esteja em seus estágios iniciais, o Project Mariner mostra a viabilidade técnica da navegação em um navegador, mas a precisão e a velocidade de conclusão das tarefas são baixas no momento e melhorarão rapidamente no futuro.
Para construir esse projeto de forma segura e responsável, estamos pesquisando ativamente novos tipos de riscos e seus métodos de mitigação, mantendo o envolvimento humano. Por exemplo, o Project Mariner só pode digitar, rolar ou clicar na guia ativa de um navegador e solicitar a confirmação final do usuário antes de executar determinadas ações confidenciais, como fazer uma compra.
Testadores confiáveis começaram a testar o Project Mariner com um plug-in experimental do Chrome enquanto discutimos o assunto com o ecossistema da Web.
Jules: agentes inteligentes para desenvolvedores
Em seguida, estamos explorando como podemos ajudar os desenvolvedores com o Jules, um agente experimental de inteligência de código alimentado por IA integrado diretamente aos fluxos de trabalho do GitHub que resolve problemas, cria planos e os executa, tudo sob a orientação e a supervisão do desenvolvedor. Esse trabalho faz parte de nossa meta de longo prazo de criar agentes de IA que possam ajudar em todas as áreas, inclusive na codificação.
Para obter mais informações sobre esse experimento em andamento, consulte nosso Publicações no blog do desenvolvedor.
Agentes inteligentes para jogos e outros domínios
O Google DeepMind tem um longo histórico de uso de jogos para ajudar os modelos de IA a melhorar o cumprimento de regras, o planejamento e a lógica. Por exemplo, na semana passada, lançamos o Gênio 2O Gemini 2.0 é um modelo de IA capaz de gerar uma variedade infinita de mundos 3D jogáveis a partir de uma única imagem. Com base nesse legado, usamos o Gemini 2.0 para criar um agente inteligente que o ajuda a navegar no mundo virtual de um videogame. Ele pode raciocinar com base apenas nas ações na tela e fornecer sugestões para as próximas etapas por meio de diálogo em tempo real.
Estamos trabalhando com os principais desenvolvedores de jogos, como a Supercell, para testar a capacidade desses agentes de interpretar regras e desafios em uma ampla gama de jogos, desde jogos de estratégia, como Clash of Clans, até simulações de fazendas, como Hay Day.
Além de servirem como companheiros virtuais de jogos, esses agentes podem se conectar à riqueza de conhecimentos sobre jogos na Web usando a pesquisa do Google.
Além de explorar os recursos de agentes inteligentes em mundos virtuais, também estamos experimentando maneiras de aplicar os recursos de raciocínio espacial do Gemini 2.0 ao campo da robótica. Embora ainda estejamos nos estágios iniciais, estamos entusiasmados com o potencial dos agentes inteligentes em ambientes físicos.
Você pode saber mais sobre esses protótipos e experimentos de pesquisa em labs.google.
Construindo com responsabilidade na era dos agentes inteligentes
O Gemini 2.0 Flash e nossos protótipos de pesquisa nos permitem testar e iterar novos recursos em pesquisas de IA de ponta que, em última análise, tornarão os produtos do Google mais úteis.
Ao desenvolver essas novas tecnologias, reconhecemos suas responsabilidades e nos preocupamos com as diversas questões que os agentes de IA levantam em termos de segurança e proteção. Como resultado, adotamos uma abordagem exploratória e incremental para o desenvolvimento, trabalhando em vários protótipos, implementando iterativamente o treinamento de segurança, colaborando com testadores confiáveis e especialistas externos e realizando extensas avaliações de risco e avaliações de segurança e proteção.
Exemplo:
- Como parte de nosso processo de segurança, trabalhamos com nosso Comitê de Responsabilidade e Segurança (RSC), um grupo de análise interna permanente, para identificar e entender os riscos potenciais.
- Os recursos de inferência do Gemini 2.0 permitem avanços significativos em nossa metodologia de teste de equipe vermelha assistida por IA, incluindo a evolução da detecção de riscos para a capacidade de gerar automaticamente dados de avaliação e treinamento para reduzir os riscos. Isso significa que podemos otimizar com mais eficiência a segurança de nossos modelos em escala.
- Como a natureza multimodal do Gemini 2.0 aumenta a complexidade dos possíveis resultados, continuaremos a avaliar e treinar modelos para processar entradas e saídas de imagem e áudio para ajudar a melhorar a segurança.
- No Projeto Astra, estamos explorando possíveis atenuações contra usuários que compartilham inadvertidamente informações confidenciais com agentes, e criamos controles de privacidade para que os usuários possam excluir facilmente as sessões. Também continuamos a procurar maneiras de garantir que os agentes de IA atuem como fontes confiáveis de informações e não realizem ações não intencionais em nome dos usuários.
- No Project Mariner, estamos trabalhando para garantir que o modelo priorize seguir as instruções do usuário em vez de tentativas de injeção de dicas de terceiros, permitindo que ele identifique instruções potencialmente mal-intencionadas de fontes externas e evite abusos. Isso evita que os usuários sejam expostos a ataques de fraude e phishing devido a instruções maliciosas ocultas em e-mails, documentos ou sites.
Acreditamos firmemente que a única maneira de criar IA é ser responsável desde o início, e continuaremos a priorizar a segurança e a responsabilidade como elementos-chave do processo de desenvolvimento de modelos à medida que avançamos com modelos e agentes inteligentes.
Gemini 2.0, agentes inteligentes e o futuro
O lançamento de hoje marca um novo capítulo em nossa modelagem do Gemini. Com o lançamento do Gemini 2.0 Flash e o lançamento de uma série de protótipos de pesquisa que exploram as possibilidades do agente, alcançamos um marco empolgante na era Gemini. Esperamos continuar a explorar com segurança todas as novas possibilidades à medida que construímos nossa inteligência artificial (AGI) de propósito geral.