Resumen de la semana: principios de 2024 es una semana bastante impactante para el inicio del campo de la IA

Esta semana, Nvidia ha superado a la empresa matriz de Amazon y Google, Alphabet, y se ha convertido en la tercera empresa más valorada del mundo, con una asombrosa capitalización bursátil de 1,83 billones de dólares. Un dato curioso: la última vez que Nvidia superó a Amazon en capitalización bursátil fue en 2002. 🤯 ¡Qué impactante ascenso de la IA!

 

Echemos ahora un vistazo a algunos de los pesos pesados.

 

 

OpenAI revoluciona el mundo de la producción de vídeo

 

Hace poco menos de un año, la tecnología de vídeo generado por texto basado en IA era excepcionalmente mala (¿recuerdas el vídeo de Will Smith?). . Pero ayer mismo, OpenAI lanzó Sora, su primer modelo de generación de vídeo, y en un solo día ha dado la vuelta a la percepción que el público tenía del vídeo con IA.

En resumen: Sora es un modelo de IA que puede producir hasta 60 segundos de vídeo basándose en pistas textuales, y es un modelo de difusión que se basa en la investigación previa de OpenAI sobre los modelos DALL-E y GPT.

Lo especial de Sora es que crea escenas extremadamente realistas y de gran calidad con una duración diez veces superior a la de los generadores de vídeo existentes. Es capaz de tener en cuenta con precisión todo tipo de detalles y comprender cómo existen en el mundo real.

Pero hay más: también puede generar imágenes (cuidado con Midjourney), generar vídeos basados en imágenes, editar vídeos con indicaciones de texto, fusionar dos vídeos e incluso crear bucles infinitos.

¿Cuáles son las deficiencias? OpenAI ha publicado el modelo con "fines de investigación" (o para generar expectación), pero aún está a la espera de que un equipo de evaluación de la seguridad complete la evaluación de riesgos.

OpenAI también admite que el modelo tiene defectos: Sora a veces tiene problemas para captar detalles espaciales y leyes físicas. A veces produce resultados completamente ilógicos, como generar un vídeo de un corredor corriendo hacia atrás en una cinta.

Pruébalo: aunque ahora mismo no tenemos forma de experimentar Sora directamente, puedes probar el simulador de generación de vídeo en el documento de investigación de OpenAI. O puedes unirte a la multitud de personas que envían constantemente peticiones de ayuda a Sam Altman en la Plataforma X e intentar jugar con la tecnología (aquí tienes un ejemplo personal favorito).

Desde los detalles hasta el conjunto: los avances de OpenAI en la IA de vídeo son nada menos que alucinantes, y con semejantes avances logrados en tan solo un año, ¿quién podría haber imaginado las cotas que alcanzaría la tecnología de generación de vídeo en 2025?

 

 

Google lanza la versión mejorada Gemini 1.5

 

Géminis 1.5 Pro demuestra su razonamiento analizando 402 páginas de transcripciones

 

Una semana después de que Google lanzara el Gemini Ultra, más potente, la empresa siguió con el Gemini 1.5 multimodelo, que establece un nuevo estándar.

¿Cómo funciona? Gemini 1.5 es tan eficaz gracias a su arquitectura híbrida experta: para cada consulta, activa sólo una parte específica del modelo en lugar de todo el modelo.

¿Por qué es tan importante? Gemini 1.5 es capaz de procesar una enorme cantidad de información a la vez: tiene una ventana contextual de hasta 1 millón de tokens para ser exactos. Esto significa que puede procesar 750.000 palabras, 11 horas de audio, 1 hora de vídeo y decenas de miles de líneas de código.

Rendimiento en la práctica: Gemini 1.5 ha demostrado ser capaz de comprender y razonar sobre las 402 páginas de transcripciones de la misión Apolo 11 a la Luna, de analizar con precisión las numerosas tramas y acontecimientos de una película muda de 44 minutos, y de modificar e interpretar hasta 100.000 líneas de código.

Descargo de responsabilidad: aún no está disponible para el público, pero Google introducirá pronto 1.5 Pro con una ventana de contexto estándar de 128.000 tokens, y con el tiempo escalará hasta 1 millón de tokens de potencia de procesamiento.

 

 

ChatGPT por fin puede recordar

Alguna vez te ha pasado que al chatear con ChatGPT te quedas atrapado en un bucle infinito de "Espera, ¿quién eres? ¿Quién eres tú?". Ahora, OpenAI tiene una solución: ChatGPT tiene una función de memoria.

Innovación de OpenAI: la incorporación de la función Memoria (aún en fase beta) permite a ChatGPT almacenar y recuperar información compartida en chats anteriores, por lo que ya no es necesario volver a empezar en cada conversación.

Cómo funciona: puedes pedir explícitamente a ChatGPT que recuerde un determinado detalle, o hacer que capture y recuerde automáticamente la información. Por ejemplo:

Le dices a ChatGPT sobre tu panadería sin trigo, y cuando pidas recetas de brownies, sólo te recomendará recetas sin trigo.

Indique a ChatGPT que desea que las actas aparezcan con viñetas en las columnas y títulos en negrita, y se aplicará este formato a todos los resúmenes de reuniones futuras.

OpenAI ofrece diversas opciones para que los usuarios puedan controlar el almacenamiento de sus recuerdos:

Los usuarios pueden ver el contenido de las memorias almacenadas en ChatGPT y eliminar selectivamente parte de la información.

Mediante el modo oculto, los usuarios pueden iniciar consultas sin depender de memorias anteriores.

De los detalles al todo: la nueva función de memoria de ChatGPT reduce la molestia de escribir lo mismo una y otra vez, ahorrando tiempo a los usuarios y evitando frustraciones. Sin embargo, esta nueva función es mucho más que comodidad: es un gran salto de la IA hacia la interacción humanizada.

 

 

Aprovechar el sonido con ElevenLabs

ElevenLabs acaba de lanzar el Plan de Pago para Actor de Voz, una nueva oportunidad para que cualquiera pueda ganar dinero con la IA.

Detalles: el plan de pago Sound Actor permite a los profesionales del sonido (a cualquiera, en realidad) generar y compartir versiones clonadas digitalmente de sus propias voces.

Los usuarios sólo tienen que subir una muestra de voz de 30 minutos y proporcionar detalles descriptivos (como el acento y el sexo).

Una vez cargada en la biblioteca de sonidos de ElevenLab, tu voz podrá utilizarse en todo el mundo para proyectos de locución y narración.

Para evitar abusos, los administradores de ElevenLabs realizan un seguimiento de los proyectos que utilizan tu voz y marcan cualquier uso inapropiado. También puedes activar filtros automáticos para una mayor protección.

De lo micro a lo macro: hay mucho miedo a que la IA acabe con los empleos creativos. Pero ElevenLabs es un ejemplo del potencial de la IA para ofrecer nuevas oportunidades económicamente lucrativas a creativos y creadores.

 

  • Meta presentó V-JEPA, una forma de ayudar a entrenar modelos de IA sobre el mundo real a través del vídeo.
  • Sam Altman busca 7 billones de dólares (sí, con "t") para un nuevo proyecto de chip de IA.
  • Un candidato político pakistaní utilizó la IA para gestionar su campaña desde la cárcel.
  • Nvidia ha lanzado un chatbot personalizado que se ejecuta localmente en tu PC.
  • Apple acaba de lanzar una nueva herramienta de animación de imágenes llamada Keyframer.
  • La inteligencia artificial tuvo su momento en la Super Bowl de este año
  • Los investigadores de Amazon han desarrollado el mayor modelo de conversión de texto en voz hasta la fecha, con resultados prometedores.
  • Microsoft esbozó tres grandes tendencias de la IA a las que habrá que prestar atención en 2024.
© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...