Esta é uma história que passou despercebida: nesta semana, a Nvidia ultrapassou a Amazon e a empresa controladora do Google, a Alphabet, para se tornar a terceira empresa mais valorizada do mundo, com uma impressionante capitalização de mercado de US$ 1,83 trilhão. Um fato curioso: a última vez que a Nvidia ultrapassou a Amazon em capitalização de mercado foi em 2002. Que aumento chocante da IA!
Agora, vamos dar uma olhada em alguns dos mais importantes.
A OpenAI revoluciona o mundo da produção de vídeo
Há pouco menos de um ano, a tecnologia de vídeo gerada por texto com base em IA era excepcionalmente ruim (lembra-se daquele vídeo do Will Smith?). . Mas ontem mesmo, a OpenAI lançou o Sora, seu primeiro modelo de geração de vídeo, e em apenas um dia mudou a percepção do público em relação ao vídeo com IA.
Resumindo: Sora é um modelo de IA que pode produzir até 60 segundos de vídeo com base em dicas textuais e é um modelo de difusão que se baseia na pesquisa anterior da OpenAI sobre os modelos DALL-E e GPT.
A particularidade do Sora é que ele cria cenas extremamente realistas e de alta qualidade com mais de dez vezes a duração do vídeo dos geradores de vídeo existentes. Ele é capaz de levar em conta com precisão todos os tipos de detalhes e entender como eles existem no mundo real.
Mas há mais: ele também pode gerar imagens (cuidado com o Midjourney), gerar vídeos com base em imagens, editar vídeos com prompts de texto, mesclar dois vídeos e até mesmo criar loops infinitos.
Quais são as deficiências? A OpenAI liberou o modelo para "fins de pesquisa" (ou para gerar buzz), mas ainda está esperando que uma equipe de avaliação de segurança conclua a avaliação de risco.
A OpenAI também admite que o modelo tem deficiências: o Sora às vezes tem problemas para capturar detalhes espaciais e leis físicas. Às vezes, ele produz resultados completamente ilógicos, como a geração de um vídeo de um corredor correndo de costas em uma esteira.
Experimente: embora não tenhamos uma maneira de experimentar o Sora diretamente no momento, você pode experimentar o simulador de geração de vídeo no artigo de pesquisa da OpenAI. Ou você pode se juntar à multidão de pessoas que estão constantemente enviando solicitações de prompt a Sam Altman na Plataforma X e tentar brincar com a tecnologia (aqui está um exemplo pessoal favorito).
Dos detalhes ao todo: as descobertas da OpenAI em vídeo com IA são impressionantes e, com esses avanços feitos em apenas um ano, quem poderia imaginar as alturas que a tecnologia de geração de vídeo alcançaria até 2025?
Google lança Gemini 1.5 atualizado
Gêmeos 1.5 O profissional demonstra raciocínio ao analisar 402 páginas de transcrições
Uma semana depois que a Google lançou o Gemini Ultra, mais potente, a empresa lançou o Gemini 1.5 multimodelo, que estabelece um novo padrão.
Como funciona? O Gemini 1.5 é tão eficiente graças à sua arquitetura híbrida especializada: para cada consulta, ele ativa apenas uma parte específica do modelo em vez de todo o modelo.
Por que isso é tão importante? O Gemini 1.5 é capaz de processar uma enorme quantidade de informações de uma só vez - ele tem uma janela de contexto de até 1 milhão de tokens, para ser exato. Isso significa que ele pode processar 750.000 palavras de entrada, 11 horas de áudio, 1 hora de vídeo e dezenas de milhares de linhas de código.
Desempenho na prática: foi demonstrado que o Gemini 1.5 compreende e raciocina sobre as 402 páginas de transcrições da missão Apollo 11 à Lua, analisa com precisão os vários enredos e eventos de um filme mudo de 44 minutos e modifica e interpreta até 100.000 linhas de código.
Isenção de responsabilidade: ainda não está disponível para o público, mas o Google apresentará em breve o 1.5 Pro com uma janela de contexto padrão de 128.000 tokens e, eventualmente, aumentará a capacidade de processamento para 1 milhão de tokens.
ChatGPT pode finalmente se lembrar
Já teve a experiência de conversar com o ChatGPT e sempre parecer estar preso em um loop infinito de "Espere, quem é você?"? e o loop infinito de "Espere, quem é você?". Agora, a OpenAI tem uma solução: o ChatGPT tem uma função de memória.
Inovação da OpenAI: o acréscimo do recurso Memória (ainda em versão beta) permite que o ChatGPT armazene e recupere informações compartilhadas em bate-papos anteriores, para que você não precise mais recomeçar todas as conversas.
Como funciona: você pode solicitar explicitamente ao ChatGPT que se lembre de um determinado detalhe ou fazer com que ele capture e se lembre automaticamente das informações. Exemplo:
Você informa ao ChatGPT sobre sua padaria sem trigo e, quando pedir receitas de brownie, ele recomendará apenas receitas sem trigo para você.
Você diz ao ChatGPT que deseja que as atas apareçam como pontos de coluna com marcadores e títulos em negrito, e ele aplicará esse formato a todos os resumos de reuniões futuras.
E quanto às questões de privacidade? A OpenAI oferece uma série de opções para dar aos usuários controle sobre o armazenamento de suas memórias:
Os usuários podem visualizar o conteúdo das memórias armazenadas no ChatGPT e excluir seletivamente algumas das informações.
Usando o modo furtivo, os usuários podem iniciar consultas sem depender de memórias anteriores.
Dos detalhes ao todo: o novo recurso de memória do ChatGPT reduz o incômodo de digitar a mesma coisa várias vezes, economizando o tempo dos usuários e evitando a frustração. No entanto, esse novo recurso é muito mais do que conveniência - é um grande avanço da IA em direção à interação humanizada.
Lucrando com o som com a ElevenLabs
A ElevenLabs acaba de lançar o Voice Actor Payment Plan, uma nova oportunidade para qualquer pessoa ganhar dinheiro com IA.
Detalhes: o Sound Actor Payment Plan permite que os profissionais de som (qualquer pessoa, na verdade) gerem e compartilhem versões clonadas digitalmente de suas próprias vozes.
Os usuários simplesmente carregam uma amostra de voz de 30 minutos e fornecem detalhes descritivos (como sotaque e gênero).
Depois de carregada na biblioteca de sons da ElevenLab, sua voz pode ser usada em todo o mundo para projetos de narração e locução.
Para evitar abusos, os administradores da ElevenLabs acompanham os projetos que usam sua voz e sinalizam qualquer uso inadequado. Você também pode ativar filtros automáticos para proteção adicional.
Do micro ao macro: há muito medo de que a IA acabe com os empregos criativos. Mas a ElevenLabs é um exemplo do potencial da IA para apresentar oportunidades novas e financeiramente lucrativas para criativos e criadores.
- A Meta apresentou o V-JEPA, uma forma de ajudar a treinar modelos de IA sobre o mundo real por meio de vídeo.
- Sam Altman está procurando US$ 7 trilhões (sim, com um "t") para um novo projeto de chip de IA.
- Um candidato político paquistanês usou IA para gerenciar sua campanha - da prisão.
- A Nvidia lançou um chatbot personalizado que é executado localmente em seu PC.
- A Apple acaba de lançar uma nova ferramenta de animação de imagens chamada Keyframer.
- A IA teve seu momento de destaque no Super Bowl deste ano
- Os pesquisadores da Amazon desenvolveram o maior modelo de conversão de texto em fala até hoje, com resultados promissores.
- A Microsoft delineou três grandes tendências de IA a serem observadas em 2024.