Entrevista de 10.000 palabras al Director de Producto de OpenAI: Cómo pueden los jefes de producto crear productos superiores en la era de la IA

Z Destacados

  • La intuición funciona en aproximadamente la mitad de los trabajos. La intuición es útil cuando, por ejemplo, hay una dirección clara del producto y sólo se trata de hacer los últimos ajustes e intentar comprender a los usuarios objetivo y el problema exacto que hay que resolver, ya que esta situación se acerca más al proceso tradicional de lanzamiento de un producto.Pero en las primeras fases de un proyecto, no es así en absoluto. A veces simplemente desconocemos algunas capacidades.
  • Pero aquí, cada dos meses, los ordenadores son capaces de hacer cosas nuevas que nunca se han conseguido en la historia, y la Tiene que entender cómo afectarán estos cambios tecnológicos a su producto, y la respuesta puede ser que tendrán bastante impacto Así que es muy interesante ver cómo evoluciona la IA desde dentro.
  • Hemos descubierto que a Claude se le da bien escribir evaluaciones y puntuarlas. Así que podemos automatizar gran parte de ese proceso para ti, pero solo si nos dices qué es lo que da buenos resultados, y entonces podremos ir introduciendo mejoras graduales.
  • Los modelos se harán más inteligentes a un ritmo acelerado, y eso es parte de lo que hace posible todo esto. Otra cosa muy emocionante es ver que los modelos son capaces de interactuar como lo hacemos los humanos.
OpenAI首席产品官万字访谈:产品经理如何在AI时代打造卓越产品

 

Nuevas funciones y retos en la IA: diálogo y exploración

Sarah: Hola a todos.

Kevin: Sarah, eres la reina de la inversión en IA.

Sarah: Es una frase que no volveremos a usar, pero es estupendo estar aquí con vosotros dos. Tengo dos ideas diferentes para nuestra discusión final. La primera es el duelo de lanzamiento de productos, porque ambos tienen acceso a sólo pulsar el botón "publicar", y yo soy como, vamos, vamos a publicar todo lo que vamos a lanzar en los próximos 6 a 12 meses, y completamente ignorar todas las directrices internas.

La segunda es que estamos rediseñando Instagram juntos, porque ambos dirigían Instagram, pero esos planes se han cancelado por completo. Así que vamos a compartir nuestros puntos de vista como amigos. Esto va a sonar un poco aburrido, pero estoy deseando escuchar lo que ustedes tienen que compartir. Kevin, has hecho muchas cosas diferentes e interesantes antes, ¿cuál fue la reacción de tus amigos y de tu equipo cuando asumiste el cargo?

Kevin: En general, es emocionante, es uno de los puestos más interesantes y de mayor impacto que existen y hay mucho que explorar. Nunca he tenido un puesto de producto tan desafiante, interesante y que me quite el sueño. Abarca todos los retos de un puesto de producto común, como averiguar quiénes son tus usuarios, qué problemas puedes resolver, etc. Pero normalmente, cuando desarrollas un producto, trabajas a partir de una base técnica relativamente fija. Pero normalmente, cuando se desarrolla un producto, se parte de una base técnica relativamente fija, se conocen los recursos disponibles y se desarrolla el mejor producto posible.

Pero aquí, cada dos meses, los ordenadores son capaces de hacer cosas nuevas que nunca se han hecho realidad en la historia, y tienes que entender cómo estos cambios tecnológicos van a afectar a tu producto, y la respuesta probablemente va a ser un impacto bastante grande, así que es realmente interesante observar el proceso de la IA desde dentro, y lo estoy disfrutando.

Sarah: Mike, ¿y tú? Recuerdo oír la noticia y pensar para mis adentros que era sorprendente conseguir que el fundador de Instagram trabajara en un proyecto que ya existía.

Mike: Sí, mis tres reacciones favoritas son: la gente que me conoce dirá que tiene sentido y que te divertirás allí. Luego hay gente que dice: no necesitas trabajar, ¿por qué te molestas en esto? Si me conocen de verdad sabrán que no puedo parar, simplemente no puedo evitarlo. La tercera reacción es que es interesante tener al fundador de Instagram. Es cierto que no muchas empresas pueden hacer lo que hace falta para interesarme, pero probablemente haya tres que me interesarían. Así que, dependiendo de lo bien que me conozcas, la reacción varía, sobre todo si me has visto en ese estado de semi-retiro, que duró unas seis semanas, y luego estaba como, ¿qué hago ahora?

Kevin: Hace poco estuvimos cenando con un grupo de amigos y destilabas una ilusión infantil, y me llamó la atención que dijeras que estabas aprendiendo todos estos aspectos corporativos. Es diferente del tipo de base de usuarios que solemos hacer con Instagram, y ahora se trata de dar servicio a otros clientes, o de trabajar en una organización orientada a la investigación. ¿Cuál ha sido la mayor sorpresa hasta ahora?

Mike: Estos son realmente dos aspectos muy gratificantes de este trabajo, y experiencias completamente nuevas para mí. a los 18 años hice un voto muy acorde con la naturaleza dieciochesca de mi corazón, que cada año sería diferente, y que no quería tener el mismo año una y otra vez. Por eso, a veces pienso: "¿Quieres hacer otro producto social? Me parece demasiado repetitivo y, en primer lugar, tus estándares se desdibujan y, en segundo lugar, también me parece un poco repetir lo mismo una y otra vez. Así que el contenido empresarial es realmente refrescante. Tengo curiosidad por saber cuál es tu experiencia al respecto. Recibirás feedback en tiempo real, y en realidad imagino que es más como una inversión: el ciclo es mucho más largo. Tendrás la comunicación inicial, y entonces dirás: "Parece que les gusto", y luego te enterarás de que el proyecto está en proceso de aprobación, y pasarán unos seis meses antes de que llegues a la fase de despliegue real, y entonces sabrás si encaja bien o no.Así que hay que acostumbrarse a una línea de tiempo diferente.

Pregunto por qué no se ha avanzado todavía y me dicen: Mike, sólo llevas aquí dos meses y esto ya está en marcha y acabará encajando. Hay que acostumbrarse a este ritmo diferente. Pero lo interesante es que, una vez que el producto está en marcha, puedes ponerte en contacto directo con el cliente, que puede venir a hablarte de su experiencia y confirmar los resultados. Mientras que con los usuarios, solo puedes analizarlos en general a través de la ciencia de datos y, por supuesto, puedes invitar a uno o dos para que vengan a hablar contigo, pero no estarán lo suficientemente motivados económicamente como para darte un feedback detallado sobre tus puntos fuertes y débiles. Así que este enfoque es diferente, pero también muy satisfactorio.

Sarah: Kevin, ya has participado en muchos tipos de desarrollo de productos, ¿hasta qué punto influye tu intuición en estos proyectos?

Kevin: Sí, también me gustaría añadir algo sobre el lado empresarial de las cosas antes de responder a su pregunta. En el espacio empresarial, la atención no se centra necesariamente en el producto en sí. También hay un comprador que tiene sus propios objetivos. Se puede crear el mejor producto del mundo y todos los miembros de la empresa estarán encantados de utilizarlo, pero eso no tiene por qué importar. Hace poco tuve una reunión con un gran cliente corporativo y me dijeron: "Esto es genial, estamos contentos con ello, etc. Pero tenemos una necesidad. Pero tenemos un requisito que queremos saber 60 días antes de que cualquier nuevo producto se ponga en marcha". Pensé: "A mí también me gustaría saberlo 60 días antes".

Es muy diferente, y es interesante porque en OpenAI tenemos productos para consumidores, empresas y desarrolladores al mismo tiempo, así que estamos experimentando en casi todos los frentes. En cuanto a la intuición, aproximadamente la mitad de los trabajos en los que funciona la intuición. Por ejemplo, cuando se tiene una dirección de producto clara, como cuando se está a punto de lanzar Advanced Speech Patterns o Canvas, y se están haciendo los últimos ajustes, intentando comprender al usuario objetivo y el problema exacto que hay que resolver, es cuando la intuición resulta útil, porque la situación se acerca más al proceso tradicional de lanzamiento de un producto.

todavía En las primeras fases de un proyecto, no es así en absoluto. A veces simplemente desconocemos algunas capacidades. Por ejemplo, puedes estar entrenando un nuevo modelo y pensar que tiene cierta capacidad, pero no estás seguro, el equipo de investigación no está seguro, nadie está seguro. Puede que funcione, como una estatua que emerge lentamente de la niebla, pero esa capacidad es una propiedad emergente del modelo. Así que no sabes si realmente va a funcionar, o si es 60% eficaz, 90% eficaz, o 99% eficaz. Y para un modelo que es 60% válido, 90% o 99% válido, el formulario de producto correspondiente es completamente diferente. Tienes un poco de lista de espera, y no sé si alguna vez has tenido la sensación de que de vez en cuando vas a hablar con el equipo de investigación y les preguntas cómo va, cómo va el entrenamiento del modelo, si hay alguna novedad, y te dicen que es investigación, que todavía estamos trabajando en ello, que no estamos seguros, que es un proceso exploratorio. Pero también es divertido porque todos estamos descubriendo cosas nuevas juntos, pero también con una cierta dosis de aleatoriedad.

 

Incertidumbre y adaptación en el desarrollo de productos de IA: de los prototipos a la opinión de los usuarios

Mike: Me recuerda mucho a los días de Instagram, como los anuncios de Apple en la WWDC, donde piensas que esto podría ser muy bueno para nosotros o podría ser perjudicial para nosotros. Y ahora es algo similar, pero tu propia empresa te está perturbando internamente, lo que parece genial, pero al mismo tiempo parece que la hoja de ruta del producto está completamente perturbada.

Sarah: ¿Qué aspecto tiene para usted este ciclo? Lo describes como "mirar a través de la niebla" para encontrar el siguiente conjunto de características. Entonces, ¿puedes planificar sin saber exactamente qué va a pasar? ¿Cómo es el ciclo iterativo para descubrir nuevas funciones e integrarlas en el producto?

Mike: En términos de inteligencia, puedes echar un vistazo superficial a "se está moviendo en esta dirección". Entonces puedes construir productos en torno a eso y tomar decisiones en consecuencia. En general, hay tres maneras de enfocar esto. En primer lugar. El progreso de la inteligencia es impredecible, pero al menos puede observarse una tendencia general. Lo segundo es decidir en qué capacidades invertir desde la perspectiva del producto y luego afinarlas con el equipo de investigación, algo así como Artifacts, donde invertimos mucho tiempo entre la investigación y el producto. canvas es lo mismo, estás codiseñando, coinvestigando y coafinando. Es un verdadero privilegio poder trabajar en esta empresa, poder participar en el diseño. Y también está la inversión en capacidades, como el modo de habla de OpenAI, que es el trabajo de procesamiento del habla por ordenador que hemos presentado esta semana. Usted es como, "Bueno, 60% ahora, buen progreso, sigue así".

Así que lo que intentamos es que el diseñador participe en el proceso desde el principio, pero al mismo tiempo que sepa que no está haciendo una apuesta final, como dice el debate experimental que El resultado de un experimento debe ser el aprendizaje, no un producto siempre perfecto. Lo mismo ocurre cuando se trabaja con un equipo de investigación: el resultado debe ser una demostración o algo inspirador que despierte ideas sobre el producto, no un proceso de producto predecible que No piensas "esto ha eliminado el riesgo, lo que significa que cuando llegue el estudio, debe ser así".

Kevin: Otra cosa que me gusta es que algunas partes de la investigación están al menos orientadas al producto, especialmente en la fase posterior a la formación, como dice Mike. Y otra parte de la investigación es más académica. Así que a veces oíamos hablar de ciertas capacidades en conferencias, y entonces te daban ganas de hacer esto también, y entonces uno de los investigadores del equipo decía que ya llevábamos tres meses haciendo esto. Y nosotros nos sorprendíamos y preguntábamos, ¿en serio? ¿Qué está pasando? Y ellos dirían, no pensábamos que fuera importante, así que ahora estoy haciendo otra cosa. Pero a veces realmente se consiguen momentos mágicos.

Sarah: Una de las cosas que solemos tener en cuenta a la hora de invertir es qué se puede hacer si un modelo tiene una tasa de éxito de 60% en la realización de una tarea en lugar de 99%. A diferencia de muchas tareas que se acercan a 60%, la tarea en sí sigue siendo muy importante y valiosa. Entonces, ¿cómo evalúa internamente el progreso de la misión? Y luego, ¿cómo se piensa en hacer que los fallos tengan gracia en el producto, o en permitir que el usuario supere esta "transición", no tanto porque haya que esperar a que el modelo mejore, sino cómo se afronta?

Kevin: En realidad, se pueden hacer muchas cosas con una corrección de modelo de 60%, salvo que hay que diseñar específicamente para ello. Usted tiene que esperar que Habrá más intervención manual en el sistema en lugar de depender por completo de la automatización. Por ejemplo, echemos un vistazo a Github Copilot, que fue el primer producto que realmente hizo que la gente se diera cuenta de que la IA podía utilizarse no solo para preguntas y respuestas, sino para un trabajo real económicamente valioso. Cuando se lanzó, no sé exactamente en qué modelo se basaba, pero sí sé que debió de ser hace varias generaciones. Así que puedo garantizar que ese modelo no era perfecto en ningún aspecto relacionado con la codificación.

Sarah: Eso estaría basado en GPT2, ese modelo es algo pequeño.

Kevin: Cierto, pero sigue siendo valioso porque te ahorra mucho esfuerzo a la hora de escribir código, y aunque puede que no sea un código perfecto, al menos hace la mayor parte por ti, y tú sólo tienes que editarlo. Así que una experiencia como esta es totalmente viable. Vamos a ver algo parecido, especialmente en el cambio a AGENT y a formatos de tareas más largos, y aunque puede que no sea perfecto, si te ahorra de 5 a 10 minutos de tiempo, sigue siendo valioso. Es más, si el modelo entiende de qué no está seguro y te pregunta: "No estoy seguro de esto, ¿puedes ayudarme? Entonces.La unión hombre-modelo será mucho mayor que en 60%.

Mike: El porcentaje, es como una línea de umbral para la IA, y al igual que la línea de Mendoza, suele ser muy desigual, y puede funcionar muy bien en algunas pruebas y no tan bien en otras. También nos ayuda cuando trabajamos con clientes en proyectos piloto, sobre todo cuando recibimos comentarios de dos empresas el mismo día, y a veces los clientes dicen: esto resuelve todos nuestros problemas, llevamos tres meses probándolo, ¡gracias!

Pero eso no significa que sea mejor que otros modelos. También nos encontramos con situaciones en las que es peor que otros modelos. Así que es esencial entenderlo. Puedes hacer un montón de evaluaciones internas, pero cuando se trata de poner realmente el modelo en aplicaciones del mundo real, te darás cuenta de que, al igual que cuando estás haciendo un diseño, puedes pensar que es perfecto al principio, pero cuando se pone delante del usuario, te darás cuenta de que resulta que estoy equivocado.Los modelos tienen un tacto similar, nos esforzamos al máximo por hacer juicios sensatos, pero cada cliente tiene su propio conjunto de datos a medida, sus propias necesidades internas, y modifican el modelo de alguna manera. Así que cuando el modelo sale al mundo, aparece casi como un doble golpe, dando un resultado diferente.

Kevin: Tengo curiosidad por saber si piensas lo mismo. Los modelos de hoy en día no están limitados por la inteligencia, están limitados por la evaluación. En realidad, los modelos son capaces de hacer más cosas y ser más precisos en una gama más amplia de ámbitos, pero el rendimiento actual dista mucho de aprovechar todo su potencial. La clave está en cómo enseñarles, en dotarles de la inteligencia necesaria para aprender algo sobre un tema concreto, el Aunque puede que no estén en su formación inicial, son capaces de hacerlo si se les enseña.

Mike: Sí, lo vemos todo el tiempo. Hace unos años había un montón de aplicaciones de IA interesantes cuando todo el mundo se centraba en lanzar funciones de IA geniales y no hacía ninguna evaluación. Ahora todo el mundo piensa que el nuevo modelo debería ser mejor, pero en realidad no hicimos ninguna evaluación porque nos apresuramos a lanzar funciones de IA. Lo más difícil fue conseguir que la gente se diera cuenta de que teníamos que pararnos a pensar qué es realmente el éxito. ¿Qué problema estamos resolviendo realmente? A menudo el jefe de producto cambia y el nuevo jefe de producto toma el relevo y empieza a preguntarse: "¿Qué aspecto tiene el éxito? Escribamos algunas evaluaciones.

Hemos descubierto que a Claude se le da bien escribir evaluaciones y puntuarlas. Así que podemos automatizar gran parte de este proceso para usted, pero sólo si usted nos dice lo que es el éxito antes de que realmente puede ir sobre la realización de mejoras incrementales. Este proceso es a menudo la clave para conseguir que una misión pase de 60% a 85%. Si un día acude a Anthropic para una entrevista, quizá vea una parte de nuestro proceso de entrevista en la que se le pide que mejore una mala evaluación para convertirla en una buena. Queremos ver cómo piensas, y aunque ese talento puede que no esté disponible en otro sitio, trabajamos duro para desarrollar esas habilidades. Si podemos enseñar algo a alguien, es esto.

Kevin: Este es un punto realmente importante. Escribir correos electrónicos para comunicarse a tiempo va a ser una de las habilidades fundamentales de los futuros jefes de producto.

Mike: De hecho, lo hemos debatido internamente, y quizá sea una información privilegiada, pero es interesante. Tenemos gestores de productos de investigación especializados en capacidades y desarrollo de modelos, y gestores de productos que son más responsables de las interfaces o API de los productos. Entonces nos dimos cuenta de que el papel del gestor de producto que crea funciones basadas en IA en 2024 y 2025 se parece cada vez más al primero y menos al segundo. Por ejemplo, lanzamos la función de análisis de código, con la que Claude puede analizar CSV y escribir código por ti. Este gestor de producto es responsable de hacerlo 80% bien, y luego pasárselo a un gestor de producto que pueda escribir evaluaciones y afinar e impulsar. Este papel es efectivamente el mismo, y la calidad de la función depende ahora del trabajo que hagas en las evaluaciones y las pistas. Así que estas dos funciones de gestor de producto se están fusionando gradualmente.

Kevin: Sí, exactamente. Organizamos un campamento de entrenamiento en el que todos los jefes de producto aprendieron escribiendo correos electrónicos sobre la diferencia entre buenas y malas evaluaciones. Aunque todavía no hemos terminado con este proceso y tenemos que seguir iterando y mejorando, es realmente una parte clave de la creación de grandes productos de IA.

Sarah: Como parte de esta contratación, para las personas que quieren hacer bien en la construcción de productos de IA o la investigación de productos en el futuro, no podemos asistir a su bootcamp, Kevin. así que ¿cómo desarrollar la intuición para llegar a ser bueno en la evaluación y la iteración a través del ciclo?

Kevin: Para ello, puede utilizar el propio modelo. Por ejemplo, si pregunta directamente al modelo "qué tipo de evaluación es buena" o "deme algunos ejemplos de evaluación", el modelo le dará una buena respuesta.

Mike: Esto es muy importante, y si escuchas a gente como Andrea Karpati y otros que han pasado mucho tiempo en este campo, todos dirán que no hay nada mejor que mirar los datos. Muy a menudo la gente se encuentra con el dilema de que tenemos una herramienta de evaluación, el nuevo modelo es medido por la herramienta de evaluación como 80% excelente, pero tenemos miedo de publicar el nuevo modelo pensando que no es perfecto. Pero en realidad, si nos basamos en algunos casos anteriores, nos daremos cuenta de que el modelo es lo suficientemente bueno, sólo que las herramientas de evaluación no son lo suficientemente estándar.

Incluso es interesante que como cada lanzamiento de modelo tiene una tarjeta de modelo, y hay algunas evaluaciones en las que vemos incluso la respuesta de oro, y no estoy seguro de si un humano diría que, o si esa pregunta de matemáticas es en realidad un poco mal. Llegar a la perfección 100% es muy difícil porque incluso la propia puntuación es muy desafiante. Así que yo sugeriría que la forma de desarrollar tu intuición es mirar las respuestas reales, o incluso hacer un muestreo para ver: "quizá deberíamos evolucionar la metodología de evaluación, o quizá el ambiente general es bueno aunque los resultados de la evaluación sean duros".Por eso es tan importante profundizar en los datos y tocarlos de verdad.

Kevin: También creo que será interesante ver cómo evoluciona este proceso a medida que avanzamos hacia tareas más largas o tareas agénticas. Porque cuando una tarea es del tipo: "Te voy a plantear un problema de matemáticas y tienes que sumar cuatro dígitos y obtener la respuesta correcta", sabes lo que es bueno y es muy fácil de juzgar. Cuando el modelo empieza a hacer cosas más largas y difusas, como encontrarme un hotel en Nueva York, sabes lo que es correcto, pero muchas veces eso implica personalización. Si le preguntas a dos personas perfectamente capaces, podrían tomar una decisión completamente diferente. Así que te van a juzgar sobre una base mucho más laxa. Va a ser un proceso interesante para nosotros. Tendremos que volver a evolucionar y redefinir los criterios de evaluación, igual que seguimos reinventando las cosas.

Mike: Cuando se piensa en ello, en realidad hay una cierta noción a ambos lados del laboratorio de "lo que parece desarrollar la capacidad a medida que se avanza". Se parece un poco a una escala profesional, en la que te enfrentas a tareas más grandes y a más largo plazo. Quizá las evaluaciones empiecen a parecerse más a las revisiones del rendimiento. Ahora mismo estoy en época de revisiones de rendimiento, así que esa metáfora me ronda por la cabeza. ¿El modelo está a la altura de tus expectativas de lo que una persona competente debe lograr? ¿Supera las expectativas? Como si lo hizo más rápido, o descubrió un restaurante que no sabías que existía, en cuyo caso es más complejo y sutil que los criterios habituales de lo correcto y lo incorrecto.

Kevin: Por no mencionar el hecho de que los humanos siguen redactando estas evaluaciones, y los modelos se acercan o superan el rendimiento humano en determinadas tareas. A veces incluso se prefieren las respuestas de los modelos a las de los humanos. ¿Qué significa todo esto si son los humanos los que escriben las evaluaciones?

Sarah: Evidentemente, las evaluaciones son fundamentales. Vamos a pasar mucho tiempo con estos modelos y a aprender a escribir evaluaciones. Entonces, ¿qué habilidades debe aprender un gerente de producto? En este momento ambos están en este camino de aprendizaje.

Mike: La creación de prototipos con estos modelos es una habilidad infravalorada. Nuestros mejores jefes de producto lo hacen, y cuando estamos discutiendo si la interfaz de usuario debe ser esto o aquello, antes de que el diseñador siquiera coja un Figma, nuestro jefe de producto o a veces nuestros ingenieros dicen: "Vale, he hecho una prueba A/B con Claude para ver cómo sería cada una de estas dos interfaces de usuario. " Y creo que eso es genial, y entonces somos capaces de prototipo más opciones en un corto período de tiempo y ser capaz de evaluar con mayor rapidez. Así que la habilidad de ser capaz de prototipo utilizando estas herramientas es muy útil.

Kevin: Es un punto excelente. También estoy de acuerdo contigo en que esto también empujará a los jefes de producto a profundizar en la pila tecnológica, y puede que ese requisito cambie con el tiempo. Por ejemplo, si te dedicabas a la tecnología de bases de datos en 2005, es posible que tuvieras que profundizar de una forma completamente distinta, mientras que si te dedicas ahora a la tecnología de bases de datos es posible que no necesites dominar todos los aspectos básicos porque se han incorporado muchos niveles de abstracción. Esto no quiere decir que todos los jefes de producto tengan que ser investigadores: comprender estas tecnologías, tomarse el tiempo necesario para aprender su lenguaje y desarrollar una intuición sobre su funcionamiento es muy útil para los jefes de producto.

Mike: El otro aspecto es que se trata de un sistema estocástico, no determinista, y como el correo electrónico es algo que intentamos hacer lo mejor posible, pero el diseño de productos en un mundo en el que no puedes controlar el resultado de tus modelos, sólo puedes hacerlo lo mejor posible. ¿Qué tipo de mecanismos de retroalimentación se necesitan para cerrar el bucle? ¿Cómo decidir si el modelo va por buen camino? ¿Cómo recoger rápidamente las reacciones? ¿Qué salvaguardias quiere establecer? ¿Cómo saber si el modelo funcionará a gran escala? Estas preguntas nos obligan a comprender el rendimiento del modelo, no sólo para un único usuario, sino a escala para un gran número de usuarios al día.Esto requiere una forma de pensar muy diferente: antes, un informe de error podía ser que no se realizaba una acción del usuario al pulsar un botón, y este tipo de problema era más fácil de identificar y resolver.

Kevin: Quizá eso cambie dentro de cinco años, cuando la gente se acostumbre a todo esto. Pero aún estamos en la fase de acostumbrarnos a esta interfaz de usuario no determinista, sobre todo para quienes no son técnicos y no están acostumbrados a esto cuando utilizan productos tecnológicos. Esta situación va totalmente en contra de nuestra intuición de los últimos 25 años de uso de ordenadores, que solían dar el mismo resultado si las entradas eran las mismas, pero eso ya no es cierto. Y no sólo tenemos que adaptarnos a este cambio a la hora de construir nuestros productos, sino que también tenemos que ponernos en la piel de los usuarios que utilizan nuestros productos y lo que esto significa para ellos. Esto tiene algunas desventajas, pero también algunas ventajas realmente interesantes. Así que es muy interesante pensar en cómo podemos utilizar esto a nuestro favor de diferentes maneras.

Mike: Recuerdo que en Instagram hicimos mucha investigación de usuarios continua. Los investigadores traían a gente diferente cada semana y probaban prototipos cada vez, e hicimos algo parecido en Anthropic. Pero, curiosamente, lo que a menudo me sorprende de estas sesiones es la forma en que los usuarios utilizan Instagram. Siempre es interesante ver cómo reaccionan los usuarios ante las nuevas funciones o sus casos de uso. Y ahora la mitad de esta investigación trata sobre cómo reaccionan los usuarios y la otra mitad sobre cómo se comporta el modelo en ese contexto. Y verás que se hace muy bien.

Así que es un orgullo, sobre todo cuando el modelo responde bien en un entorno de investigación de usuarios. Y también es frustrante cuando el modelo malinterpreta la intención y te das cuenta de que ha pasado a la página 10 de la respuesta. En cierto modo, se trata de aprender a tener una mentalidad "zen" respecto a la incertidumbre en este entorno, dejando de lado la sensación de control y aceptando lo que va a suceder.

 

Rápida adaptación y educación de la tecnología de IA: de consumidores a usuarios empresariales

Sarah: Ambos han participado en el diseño de estas experiencias de consumo, enseñando rápidamente nuevos comportamientos a cientos de millones de personas. ¿Cómo piensan educar a los usuarios finales ahora que estos productos de IA se están haciendo aún más omnipresentes que entonces, y si los propios jefes de producto y técnicos no tienen mucha intuición sobre cómo utilizar estas tecnologías? La escala de lo que estamos tratando es tan enorme y estas tecnologías son tan contraintuitivas.

Kevin: Es increíble lo rápido que nos adaptamos. El otro día hablaba con alguien sobre su experiencia en su primer viaje en un Waymo (coche sin conductor). ¿Quién ha estado en un coche Waymo? Si no has montado en un Waymo, cuando salgas de aquí, coge un Waymo en San Francisco hacia donde vayas. Es una experiencia increíble. Pero dicen que durante los primeros 30 segundos, estoy pensando: "Dios mío, cuidado con el ciclista", y luego cinco minutos más tarde, estoy pensando: "Dios mío, estoy viviendo en el futuro". Pero diez minutos después, me aburro y estoy con el móvil.

Qué rápido nos hemos acostumbrado a esta magia absoluta. Este fenómeno también ocurre con ChatGPT, que salió hace menos de dos años, y en su momento fue un auténtico shock. Ahora, si volvemos atrás y utilizamos la versión 3.5 original de GPT, todo el mundo se sentirá fatal.

Sarah: Todo el mundo dirá que es estúpido.

Kevin: Cómo íbamos a pensar antes que lo que estamos haciendo hoy y lo que estáis haciendo vosotros, todo eso parece magia. Dentro de 12 meses no nos creeremos que hayamos utilizado nunca nada de eso, porque así es como está evolucionando este campo tan rápidamente. Lo que me asombra aún más es la rapidez con la que la gente se adapta, porque, a pesar de nuestros esfuerzos por presionar a la gente para que siga el ritmo, hay mucho entusiasmo.La gente entiende que el mundo avanza en esa dirección, y tenemos que hacer lo que podamos para que siga avanzando en la mejor dirección posible. Está ocurriendo y avanza muy deprisa.

Mike: Una de las cosas que estamos tratando de mejorar ahora es hacer del producto literalmente una herramienta educativa, que es algo que no hicimos al principio, y ahora la dirección que estamos cambiando es más sobre Claude aprendiendo sobre sí mismo. Antes nos limitábamos a decir que es una IA creada por Anthropic, qué incluye el conjunto de entrenamiento, etc., pero ahora decimos literalmente: "Así se usa esta función". Porque los estudios de usuarios han demostrado que la gente pregunta: "¿Cómo puedo usar esto?" Y entonces Claude puede responder: "No lo sé, ¿has intentado buscarlo en Internet?" Se podría pensar que esa respuesta no ayudaría en absoluto.

Así que ahora estamos tratando de arraigarlo en aplicaciones del mundo real. Lo que podemos hacer ahora es: "Aquí está el enlace a la documentación, y aquí están los pasos. Puedo ayudarte". Estos modelos son realmente muy eficaces para resolver los problemas de interfaz de usuario y la confusión del usuario, y deberíamos utilizarlos más para resolver esos problemas.

Sarah: Las cosas deben ser diferentes cuando se trata de la gestión del cambio en una organización, ¿verdad? Porque entonces existían formas de hacer las cosas y procesos organizativos. Entonces, ¿cómo se puede educar a toda la organización y ayudarles a mejorar la productividad u otros cambios que puedan surgir?

Mike: La parte empresarial es muy interesante porque, aunque estos productos tienen millones de usuarios, la mayoría de los usuarios principales siguen siendo los primeros en adoptarlos y personas aficionadas a la tecnología, y luego hay una larga cola de usuarios. Y cuando entras en la empresa, estás desplegando el producto en una organización, y normalmente hay algunas personas que no son muy conocedoras de la tecnología. Es genial ver cómo algunos de esos usuarios no técnicos entran en contacto por primera vez con el LLM basado en chat y ver cómo reaccionan. Así que tienes la oportunidad de organizar sesiones de formación, enseñarles a utilizarlo y proporcionarles material educativo. Tenemos que aprender de estas prácticas y luego llegar a la conclusión de cómo enseñar a los próximos 100 millones de personas a utilizar estas tecnologías.

Kevin: Estas interfaces de usuario suelen contar con algunos usuarios principales que se entusiasman por enseñar a otros a utilizarlas. Por ejemplo, OpenAI tiene GPT personalizadas y las organizaciones suelen crear miles de ellas. Esto brinda a los usuarios principales la oportunidad de crear algo que facilite la IA y la haga más valiosa de forma inmediata para las personas que no saben cómo utilizarla. Ese es un lugar genial donde puedes encontrar algunos grupos de usuarios principales que realmente se convertirán en evangelistas.

Sarah: Tengo que preguntarte esto porque tu organización es básicamente un usuario básico, así que vives en tu propio pequeño mundo del futuro. Tengo una pregunta, pero no dudes en dirigirme si no quieres responderla.Mike, ¿qué hago con un ordenador? ¿Qué hacéis todos vosotros?

Mike: Desde un punto de vista interno, como Kevin ha mencionado antes sobre "cuándo estará listo", tuvimos un periodo de tiempo en el que estábamos muy seguros de que el producto era lo suficientemente bueno, aunque todavía era muy pronto, y todavía se iban a cometer errores, pero ¿cómo lo hacemos tan bueno como puede ser?

Uno de los casos de uso más interesantes fue cuando estábamos realizando una prueba y alguien quiso probar si la IA podía pedir una pizza por nosotros. Acabó pidiéndola, todo fue como la seda y la pizza llegó a la oficina. Fue un momento genial, un momento icónico por así decirlo, aunque fuera Domino's (no una pizza de gama especialmente alta), pero en general lo hizo la IA. Momentos así son muy interesantes. Por supuesto, la pizza estaba un poco pedida de más y probablemente tenía hambre de probarla.

Ahora estamos viendo algunos primeros casos de uso realmente interesantes, y uno de ellos son las pruebas de interfaz de usuario. Por ejemplo, en Instagram, casi no teníamos pruebas de interfaz de usuario porque eran difíciles de escribir, eran frágiles, y a menudo fallaban por cosas como el cambio de posición de los botones, y entonces tenías que reescribir un montón de cosas. Ahora, los ordenadores son muy eficaces a la hora de realizar pruebas de interfaz de usuario del tipo "¿funciona como se espera?", que es básicamente "¿hace lo que quieres que haga?". Eso es muy interesante.

Otra dirección en la que estamos empezando a profundizar son las aplicaciones de agentes inteligentes que requieren mucho procesamiento de datos. Por ejemplo, en nuestros equipos de soporte y finanzas, muchos de los formularios de relaciones públicas eran originalmente muy tediosos y repetitivos, e implicaban mucho tiempo manual para extraer datos de una fuente de datos e introducirlos en otra. Siempre que hablo del uso de ordenadores, utilizo el término "trabajo pesado". Queremos automatizar estas tareas tediosas para que la gente pueda centrarse en hacer cosas más creativas en vez de hacer 30 clics en cada operación.

Sarah: Kevin, tenemos varios equipos experimentando con el modelo GPT o1. Obviamente, puede hacer cosas más complejas. Pero si ya estás utilizando un modelo como GPT-4 en tu aplicación, no puedes utilizarlo simplemente como sustituto uno a uno. ¿Puede orientarnos al respecto? ¿Cómo lo utiliza internamente?

Kevin: Mucha gente no se da cuenta de que, en realidad, lo que hacen algunos de nuestros clientes más avanzados y lo que nosotros hacemos internamente no es utilizar un modelo para algo.Al final acabas combinando modelos para formar flujos de trabajo y mecanismos de coordinación. Así que utilizarás cada modelo según las áreas en las que destaque. el modelo GPT o1 es muy bueno para razonar, pero también lleva cierto tiempo pensarlo y no es multimodal, y por supuesto tiene algunas otras limitaciones.

Sarah: El razonamiento es una cuestión fundamental para este grupo, me doy cuenta.

Kevin: Sí, deberías estar familiarizado con el concepto de "preentrenamiento ampliado". Empiezas con versiones de GPT2, 3, 4, 5, etc., y haces un preentrenamiento cada vez mayor. Los modelos se vuelven "más inteligentes", o mejor dicho, saben cada vez más, pero se parecen más al pensamiento del sistema 1, en el que le haces una pregunta y te da la respuesta enseguida, como el completado de texto.

Sarah: Sí, si te hago preguntas ahora, emitirás los resultados uno tras otro y continuarás.

Kevin: ¿No crees que la intuición humana sobre el funcionamiento de otras personas puede ayudarte a adivinar cómo funcionan muchos modelos? Me haces una pregunta y puede que me salga del tema y me equivoque de frase, momento en el que es difícil recuperarse. Eso puede ocurrir con los modelos. Los modelos gpt o1 son en realidad una forma diferente de extender la inteligencia y se hace en el momento de la consulta. Así que, a diferencia del Sistema 1 que piensa, hazme una pregunta y te daré la respuesta de inmediato, hará una pausa, como si yo te hiciera una pregunta.

Si te pidiera que resolvieras un sudoku y que hicieras el juego de unir los puntos del New York Times, empezarías a pensar en cómo se agrupan estas palabras, y estas cuatro podrían ser correctas o no, podrían ser estas ....... Formarás hipótesis a partir de lo que ya sabes, y luego falsificarás o confirmarás esas hipótesis, y luego seguirás razonando. Así es exactamente como surgen los avances científicos y como respondemos a preguntas difíciles, y eso es enseñar a los modelos lo que tienen que hacer. Y ahora mismo, piensan de 30 a 60 segundos y luego responden. Imagina lo que pasaría si pudieran pensar durante cinco horas o incluso cinco días.

Es una forma totalmente nueva de ampliar la inteligencia, y tenemos la sensación de que acabamos de empezar. Ahora estamos en la fase GPT1 de este nuevo tipo de razonamiento. Pero como siempre, los modelos no sirven para todo, ¿verdad? A veces, cuando me haces una pregunta, no quieres que espere 60 segundos para responder, quieres que te dé la respuesta enseguida. Así que acabamos utilizando nuestros modelos juntos de muchas maneras diferentes.

La ciberseguridad, por ejemplo, es un ámbito en el que puedes pensar que los modelos no son aplicables. Pueden producir alucinaciones, lo que parece un ámbito inadecuado para las alucinaciones, pero se pueden afinar los modelos para que sean buenos en determinadas tareas. Entonces puedes afinar los modelos para que sean muy precisos sobre los tipos de entradas y salidas, y luego hacer que esos modelos empiecen a trabajar juntos. Los modelos comprueban los resultados de otros modelos, se dan cuenta de que algo no va bien y les piden que vuelvan a intentarlo.En definitiva, se trata de obtener un gran valor de los modelos operándolos juntos y colaborando en tareas específicas. Es como cuando los humanos realizamos tareas complejas, normalmente tenemos personas con diferentes habilidades que trabajan en colaboración para completar una tarea difícil.

 

Anticipar el futuro de la IA: proactividad, interacciones asíncronas y experiencias personalizadas

Sarah: Chicos, tenéis que decirnos algo sobre el futuro y lo que está por venir, no tenéis que dar una fecha de lanzamiento, entiendo que no lo sepáis, pero si miráis a lo lejos, lo más lejos que se puede ver el campo de la IA ahora mismo es probablemente ....... Si ustedes pueden ver en el futuro, hágamelo saber. Pero digamos que en seis o doce meses, ¿cómo imagináis que será la experiencia, qué tipo de experiencia será posible o habitual?

Mike: Pienso en ello todo el tiempo, y hay dos palabras que probablemente plantan la semilla en la mente de todos. La primera es "proactividad": ¿cómo pueden los modelos ser más proactivos? Por ejemplo, una vez que te conozcan y empiecen a monitorizar parte de tu información (suponiendo que les autorices a hacerlo), podrían leer tus correos electrónicos de forma que no molesten y sean útiles, y encontrar algunas tendencias interesantes. O el modelo podría empezar tu día ofreciéndote un resumen no solicitado de lo que ha pasado hoy y de las conversaciones en las que podrías participar. He investigado un poco para ti, y con tu próxima reunión a la vuelta de la esquina, esto es de lo que podrías querer hablar. Veo que tienes una próxima presentación, y ésta es la primera versión del borrador que he preparado para ti. Iniciativas como ésta serán muy poderosas en el futuro.

El otro aspecto es ser más "asíncrono". El modelo o1 es actualmente la interfaz inicial para esta fase exploratoria, aunque puede hacer muchas cosas y te dirá lo que va a hacer sobre la marcha. Puedes esperarlo aquí, pero también puedes elegir "lo pensará un rato, iré a hacer otra cosa y quizá vuelva a ello más tarde, o me lo dirá cuando haya terminado". Es como ampliar la dimensión del tiempo, no es sólo que no le hayas hecho una pregunta, sino que te está diciendo algo activamente, lo cual sería interesante. Y también cuando le haces una pregunta, podría decir: "Vale, iré a pensar en ello, investigaré un poco, puede que necesite hacer algunas preguntas a otra persona, y luego daré una respuesta inicial, y verificaré esa respuesta una vez más, y tendrás noticias mías en una hora".

Romper esa limitación de obtener una respuesta de inmediato. Eso va a permitir que usted haga un montón de cosas como, "Tengo todo un pequeño plan de proyecto para ampliarlo" o "No es sólo que quiero que cambie un lugar en la pantalla, pero permítanme arreglar este error, como ajustar el PRD para mí para una nueva condición de mercado o hacer ajustes sobre la base de estos tres nuevos condiciones de mercado para hacer ajustes".Poder impulsar el cambio en estas dimensiones es lo que personalmente más me entusiasma del producto.

Kevin: Sí, estoy totalmente de acuerdo con todos los puntos que ha expuesto. modelos se harán más inteligentes a un ritmo acelerado, la Eso es parte de lo que hace posible todo esto. Otra cosa muy emocionante es ver que los modelos pueden interactuar como lo hacemos los humanos. Actualmente se interactúa con estos modelos la mayor parte del tiempo tecleando, y yo suelo comunicarme con muchos de mis amigos en WhatsApp y otras plataformas tecleando. Pero también puedo hablar y ver cosas. Recientemente hemos introducido modelos de voz avanzados. Hablaba con gente en Corea y Japón y a menudo estaba con alguien que no entendía mi idioma en absoluto. Antes no podíamos comunicarnos en absoluto. Pero ahora dije: "ChatGPT, quiero que hagas de traductor, y cuando yo hable en inglés, por favor, tradúcelo al coreano; y cuando oigas coreano, por favor, dímelo en inglés". De repente, tenía un traductor universal para las conversaciones de negocios entre nosotros. Parecía magia.

Piensa en lo que esta tecnología podría hacer, no sólo en situaciones de negocios, sino imagina cuánto más dispuesta estaría la gente a viajar a nuevos lugares si ya no tuvieras que preocuparte por no hablar el mismo idioma y tuvieras un traductor universal como el de Star Trek Universal justo en tu bolsillo. Este tipo de experiencias se convertirán en algo habitual en el futuro, pero no deja de ser mágico, y estoy muy entusiasmado con esta tecnología combinada con todo lo que Mike acaba de decir.

Sarah: Uno de mis pasatiempos favoritos ahora mismo es ver vídeos de TikTok, que son vídeos de jóvenes hablando con modos de voz, desahogándose, utilizando todo tipo de métodos, y me siento increíble cuando los veo, y me recuerda a un viejo término llamado "nativos digitales" o "nativos móviles". Me recuerda al viejo término "nativos digitales" o "nativos móviles". Yo también creo mucho en la IA, pero nunca pensé que interactuaría de esta manera. Pero los niños de 14 años pensarán que puedo hacer esto con IA.

Kevin: ¿Lo has usado alguna vez con tus hijos?

Sarah: Todavía no, mis hijos tienen 5 y 7 años.

Kevin: Pero vamos a probarlo. Mis hijos tienen 8 y 10 años y a menudo preguntan mientras conducen: "¿Puedo hablar con ChatGPT?". Luego hacen las preguntas más extrañas y tienen conversaciones estrafalarias con la IA, pero no les importa en absoluto hablar con la IA.

Sarah: De hecho, una de mis experiencias favoritas, y quizá podamos terminar aquí preguntando cuál es el comportamiento más sorprendente que has visto últimamente (ya sea de un niño o de otra persona), es que tengo suerte cuando mis padres me leen. Es genial si puedo elegir los libros, si no, mi padre me dice: "Vamos a leer este estudio de física que me interesa". Mis hijos, no sé si es la forma de criar de la Bay Area, pero mis hijos dirían: "Vale, mamá, haz el dibujo correcto. Quiero contar una historia sobre un dragón y un unicornio, y en ese contexto, te diré cómo va a suceder". Y entonces esa historia se crearía en tiempo real. Creo que es mucho pedir, y me alegro de que crean y sepan que es posible, pero es una auténtica locura crear tu propio contenido de entretenimiento de esta manera. ¿Cuál es el comportamiento más sorprendente que ha visto recientemente en sus productos?

Mike: Es un comportamiento y una relación. La gente empieza a entender los matices de Claude o del nuevo modelo que acabamos de describir. Entienden los matices. Los comportamientos son casi como hacer amigos, o construir una empatía bidireccional en lo que está sucediendo. Y entonces pensé: "El nuevo modelo parece más inteligente, pero quizá un poco distante". Es ese matiz. Como producto, me da más empatía por la mentalidad de las personas cuando están usando nuestros productos. No estás lanzando solo un producto, estás lanzando sabiduría y empatía, y eso es lo que hace que las relaciones importen. Si alguien se presenta y dice: "Me he actualizado y he mejorado mi puntuación en matemáticas en 2%", pero me he vuelto diferente en algunos aspectos, uno pensaría que tengo que adaptarme un poco, y probablemente preocuparme un poco. Para mí ha sido un viaje interesante comprender la mentalidad de la gente cuando utiliza nuestros productos.

Kevin: Sí. El comportamiento de la modelo forma parte sin duda de la personalidad del producto. La personalidad del modelo es fundamental, y hay algunas cuestiones interesantes que como el grado de personalización. ¿O debería OpenAI tener una personalidad uniforme y Claude su propia personalidad única, la gente utiliza un modelo porque le gusta una personalidad determinada? En realidad se trata de un fenómeno muy humano, nos hacemos amigos de diferentes personas porque nos gustan diferentes personas. Es un tema interesante sobre el que reflexionar. Hace poco hicimos algo que se difundió rápidamente en Twitter. La gente empezó a preguntar a la modelo: "Basándote en lo que sabes de mí, en todas nuestras interacciones anteriores, ¿cómo me describirías?". Y entonces el modelo respondía y daba lo que pensaba que era una descripción basada en todas las interacciones pasadas. Es como si empezaras a interactuar con el modelo de alguna manera, casi como si fuera una persona o una entidad. Es muy interesante ver cómo reacciona la gente.

© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...