Destaques Z
- A intuição funciona em cerca de metade dos trabalhos. A intuição é útil quando há uma direção clara do produto, por exemplo, e é apenas uma questão de fazer o ajuste final e tentar entender os usuários-alvo e o problema exato a ser resolvido, pois essa situação está mais próxima do processo tradicional de lançamento de produtos.Mas nos estágios iniciais de um projeto, esse não é o caso. Às vezes, temos apenas alguns recursos desconhecidos.
- Mas aqui, a cada dois meses, os computadores são capazes de fazer algo novo que nunca foi feito na história, e o Você precisa entender como essas mudanças tecnológicas afetarão seu produto, e a resposta pode ser que elas terão um impacto considerável Por isso, é muito interessante ver como a IA está evoluindo internamente.
- Descobrimos que o Claude é realmente bom em escrever avaliações e pontuá-las. Portanto, podemos automatizar grande parte desse processo para você, mas somente se você nos disser o que é bem-sucedido, e então poderemos fazer melhorias incrementais.
- Os modelos se tornarão mais inteligentes em um ritmo acelerado, e isso é parte do que torna tudo isso possível. Outra coisa muito empolgante é ver os modelos sendo capazes de interagir como nós, humanos, fazemos.
Novas funções e desafios na IA: diálogo e exploração
Sarah: Olá a todos!
Kevin: Sarah, você é a rainha do investimento em IA.
Sarah: É uma frase que nunca mais usaremos, mas é ótimo estar aqui com vocês. Tenho duas ideias diferentes para nossa discussão final. A primeira é o duelo de lançamento de produtos, porque vocês dois têm acesso para simplesmente apertar o botão "publicar", e eu penso: "Vamos lá, vamos publicar tudo o que lançaremos nos próximos 6 a 12 meses e ignorar completamente todas as diretrizes internas".
A segunda é que estamos redesenhando o Instagram juntos, porque os dois realmente administravam o Instagram, mas esses planos foram completamente cancelados. Então, vamos compartilhar nossas percepções como amigos. Isso vai parecer um pouco chato, mas estou realmente ansioso para ouvir o que vocês têm a dizer. Kevin, você já fez muitas coisas realmente diferentes e interessantes antes, então qual foi a reação dos seus amigos e da sua equipe quando você assumiu a função?
Kevin: No geral, é empolgante, é um dos cargos mais interessantes e impactantes que existem e há muito a ser explorado. Nunca tive uma função de produto tão desafiadora, interessante e sem dormir - ela engloba todos os desafios de uma função de produto comum, como descobrir quem são seus usuários, quais problemas você pode resolver e assim por diante. Mas, normalmente, quando se desenvolve um produto, trabalha-se a partir de uma base técnica relativamente fixa, sabe-se quais recursos estão disponíveis e, então, desenvolve-se o melhor produto possível.
Mas aqui, a cada dois meses, os computadores são capazes de fazer coisas novas que nunca foram realizadas na história, e você precisa entender como essas mudanças tecnológicas afetarão seu produto, e a resposta provavelmente terá um impacto muito grande.
Sarah: Mike, e você? Lembro-me de ouvir a notícia e pensar comigo mesmo que era surpreendente fazer com que o fundador do Instagram trabalhasse em um projeto que já existia.
Mike: Sim, minhas três reações favoritas são: as pessoas que me conhecem dirão que faz sentido e que você vai se divertir lá. Depois, algumas pessoas dirão: "Você não precisa trabalhar, por que se preocupar com isso? Se você realmente me conhece, sabe que eu não consigo parar, simplesmente não consigo me conter. A terceira reação é que é engraçado ter o fundador do Instagram. É verdade que não são muitas as empresas que conseguem fazer o que é preciso para me interessar, mas provavelmente há três nas quais eu estaria interessado. Portanto, dependendo de quão bem você me conhece, a reação varia, especialmente se você já me viu naquele estado de semi-aposentadoria, que durou cerca de seis semanas, e então eu fiquei tipo, o que eu faço em seguida?
Kevin: Jantamos com um grupo de amigos recentemente e você estava exalando uma sensação de empolgação infantil, e me chamou a atenção o fato de você ter dito que estava aprendendo sobre todos esses aspectos corporativos. É diferente do tipo de base de usuários que costumamos ter com o Instagram, e agora se trata de atender a outros clientes ou trabalhar em uma organização voltada para a pesquisa. Qual foi a maior surpresa até agora?
Mike: Esses são realmente dois aspectos muito gratificantes desse trabalho e experiências completamente novas para mim. Aos 18 anos, fiz um voto muito parecido com a mentalidade dos jovens de 18 anos, de que cada ano seria diferente e que eu não queria ter o mesmo ano várias vezes. Por causa disso, às vezes eu penso: "Você quer fazer outro produto social? Parece muito repetitivo e, em primeiro lugar, seus padrões ficam embaçados e, em segundo lugar, também parece um pouco como repetir a mesma coisa várias vezes. Portanto, o conteúdo empresarial é realmente inovador. Estou curioso para saber sua experiência com isso também. Você receberá feedback em tempo real e, na verdade, imagino que seja mais como um investimento - o ciclo é muito mais longo. Você terá a comunicação inicial e, em seguida, pensará: "Eles parecem gostar de mim", e então descobrirá que o projeto está em processo de aprovação, e levará cerca de seis meses até que você chegue ao estágio de implementação real, e então saberá se é uma boa opção ou não.Portanto, tenho que me acostumar com uma linha do tempo diferente.
Eu pergunto por que ainda não avançou e eles dizem: "Mike, você está aqui há apenas dois meses e isso já está passando pelo processo e acabará se encaixando". É preciso se acostumar com esse ritmo diferente. Mas o interessante é que, quando o produto está no ar, você pode entrar em contato diretamente com o cliente e ele pode vir até você e falar sobre a experiência e confirmar os resultados. Já com os usuários, você só pode analisá-los em geral por meio da ciência de dados e, é claro, pode convidar um ou dois para conversar com eles, mas eles não terão motivação financeira suficiente para fornecer feedback detalhado sobre seus pontos fortes e fracos. Portanto, essa abordagem é diferente, mas também é muito gratificante.
Sarah: Kevin, você já esteve envolvido em muitos tipos de desenvolvimento de produtos antes, o quanto a sua intuição desempenha um papel nesses projetos?
Kevin: Sim, eu também gostaria de acrescentar algo sobre o lado empresarial das coisas antes de responder à sua pergunta. No espaço corporativo, o foco não está necessariamente no produto em si. Há também um comprador que tem seus próprios objetivos. Você pode criar o melhor produto do mundo, e todos na empresa podem ficar felizes em usá-lo, mas isso não importa necessariamente. Tive uma reunião com um grande cliente corporativo há pouco e ele disse: "Isso é ótimo, estamos satisfeitos com isso etc. Mas temos uma necessidade. Mas temos uma exigência de que queremos saber 60 dias antes de qualquer novo produto entrar em operação." Pensei comigo mesmo: "Eu também gostaria de saber com 60 dias de antecedência.
De fato, é muito diferente, e é interessante porque na OpenAI temos produtos para consumidores, empresas e desenvolvedores, tudo ao mesmo tempo, portanto, estamos fazendo experiências em quase todas as frentes. Em termos de intuição, cerca de metade dos empregos em que a intuição funciona. Por exemplo, quando você tem uma direção clara do produto, como quando está perto de lançar o Advanced Speech Patterns ou o Canvas, e está fazendo o ajuste fino final, tentando entender o usuário-alvo e o problema exato a ser resolvido, é quando a intuição é útil, porque a situação está mais próxima do processo tradicional de lançamento do produto.
ainda Nos estágios iniciais de um projeto, não é nada disso. Às vezes, temos apenas alguns recursos desconhecidos. Por exemplo, você pode estar treinando um novo modelo e achar que ele tem uma determinada capacidade, mas você não tem certeza, a equipe de pesquisa não tem certeza, ninguém tem certeza. Ele pode funcionar, como uma estátua emergindo lentamente da névoa, mas essa capacidade é uma propriedade emergente do modelo. Portanto, você não sabe se ele realmente funcionará ou se é eficaz em 60%, 90% ou 99%. E para um modelo que seja 60% válido, 90% ou 99% válido, o formulário do produto correspondente é completamente diferente. Não sei se você já teve a sensação de que, de vez em quando, vai conversar com a equipe de pesquisa e perguntar como está indo, como está o treinamento do modelo, se eles têm alguma nova percepção, e eles dizem que é pesquisa, que ainda estamos trabalhando nisso, que não temos certeza, que é um processo exploratório. Mas também é divertido porque todos nós estamos descobrindo coisas novas juntos, mas também com uma certa dose de aleatoriedade.
Incerteza e adaptação no desenvolvimento de produtos de IA: do protótipo ao feedback do usuário
Mike: Isso me lembra muito os dias do Instagram, como os anúncios da Apple na WWDC, em que você pensa que isso pode ser muito bom para nós ou pode nos prejudicar. E agora é um pouco parecido, mas sua própria empresa está causando uma disrupção interna, o que é legal, mas, ao mesmo tempo, parece que o roteiro do produto foi completamente interrompido.
Sarah: Como é esse ciclo para você? Você o descreve como "olhar através da névoa" para encontrar o próximo conjunto de recursos. Então, é possível planejar sem saber exatamente o que vai acontecer? Além disso, como é o ciclo iterativo para descobrir novos recursos e integrá-los ao produto?
Mike: Em termos de inteligência, você pode dar uma olhada superficial em "está se movendo nessa direção". Assim, você pode criar produtos com base nisso e tomar decisões de acordo. Em geral, há três maneiras de abordar isso. Em primeiro lugar. O progresso da inteligência é imprevisível, mas pelo menos uma tendência geral pode ser observada. A segunda coisa é decidir em quais recursos investir do ponto de vista do produto e depois ajustá-los com a equipe de pesquisa, algo como o Artifacts, em que investimos muito tempo entre a pesquisa e o produto. É um verdadeiro privilégio poder trabalhar nesta empresa, poder estar envolvido no design aqui. E há também a entrada de recursos, como o modo de fala da OpenAI, que é o trabalho de processamento de fala por computador que lançamos esta semana. Você pensa: "Ok, 60% agora, bom progresso, continue assim".
Portanto, o que tentamos fazer é envolver o designer no processo desde o início, mas, ao mesmo tempo, saber que você não está fazendo uma aposta final, pois a discussão experimental diz que O resultado de um experimento deve ser o aprendizado, não um produto perfeito todas as vezes. O mesmo se aplica ao trabalho com uma equipe de pesquisa: o resultado deve ser uma demonstração ou algo inspirador que desperte ideias de produtos, não um processo de produto previsível que Você não pensa "isso eliminou o risco, o que significa que, quando o estudo chegar, deverá ser assim".
Kevin: Outra coisa de que gosto é que algumas partes da pesquisa são, pelo menos, orientadas para o produto, especialmente na fase pós-treinamento, como diz Mike. E a outra parte da pesquisa é mais acadêmica. Por isso, às vezes ouvíamos falar de determinados recursos em conferências, e então queríamos muito fazer isso também, e então um dos pesquisadores da equipe dizia que conseguimos fazer isso há três meses. Ficamos surpresos e perguntamos: "É mesmo? O que está acontecendo? E eles diriam: "Não achamos que isso fosse importante, então agora estou fazendo outra coisa". Mas, às vezes, você realmente tem alguns momentos mágicos.
Sarah: Uma das coisas que sempre consideramos ao investir é o que você pode fazer se um modelo tiver uma taxa de sucesso de 60% na execução de uma tarefa em vez de 99%. Ao contrário de muitas tarefas que se aproximam de 60%, a tarefa em si ainda é muito importante e valiosa. Então, como você está avaliando o progresso da missão internamente? E então, como você pensa em tornar as falhas graciosas no produto ou permitir que os usuários passem por essa "transição", não tanto porque precisamos esperar que o modelo melhore, mas como você lida com isso?
Kevin: Na verdade, há muitas coisas que você pode fazer com uma correção de modelo de 60%, exceto que você precisa projetar especificamente para isso. Você precisa esperar que Haverá mais intervenção manual no sistema em vez de depender totalmente da automação. Por exemplo, dê uma olhada no Github Copilot, que foi o primeiro produto a realmente fazer com que as pessoas percebessem que a IA poderia ser usada não apenas para perguntas e respostas, mas para um trabalho realmente valioso do ponto de vista econômico. Quando ele foi lançado, não sei exatamente em qual modelo se baseou, mas sei que deve ter sido há várias gerações. Portanto, posso garantir que esse modelo não era perfeito em nenhum aspecto relacionado à codificação.
Sarah: Isso seria baseado no GPT2, esse modelo é um pouco pequeno.
Kevin: É verdade, mas ainda assim é valioso porque economiza muito esforço ao escrever código e, embora possa não ser um código perfeito, ele pelo menos faz a maior parte do trabalho para você, e você só precisa editá-lo. Portanto, uma experiência como essa é totalmente viável. Veremos algo semelhante, especialmente na mudança para AGENTES e formatos de tarefas mais longos e, embora possa não ser perfeito, se você economizar de 5 a 10 minutos de tempo, ainda é valioso. Além disso, se o modelo entender o que não tem certeza e entrar em contato com você para perguntar: "Não tenho certeza sobre isso, você pode me ajudar? Então.A ligação entre humanos e modelos será muito maior do que a do 60%.
Mike: A porcentagem é como uma linha de limite para a IA e, assim como a linha Mendoza, geralmente é muito irregular e pode ter um desempenho muito bom em alguns testes e não tão bom em outros. Isso também nos ajuda quando estamos trabalhando com clientes em projetos-piloto, especialmente quando estamos recebendo feedback de duas empresas no mesmo dia e, às vezes, os clientes dizem: "Isso resolve todos os nossos problemas, estamos tentando isso há três meses, obrigado!
Mas isso não significa que ele seja melhor do que outros modelos. Também nos deparamos com situações em que ele é pior do que outros modelos. Portanto, é essencial entender isso. Você pode fazer muitas avaliações internas, mas quando se trata de realmente colocar o modelo em aplicações do mundo real, você perceberá que, assim como quando está fazendo um projeto, você pode achar que ele é perfeito no início, mas quando ele é colocado na frente do usuário, você perceberá que está errado.Os modelos têm uma sensação semelhante, fazemos o possível para fazer julgamentos sensatos, mas cada cliente tem seu próprio conjunto de dados sob medida, suas próprias necessidades internas e, de alguma forma, eles estimulam o modelo. Assim, quando o modelo é realmente colocado no mundo, ele aparece quase como um golpe duplo, dando a você um resultado diferente.
Kevin: Estou curioso para saber se você pensa da mesma forma. Atualmente, os modelos não são limitados pela inteligência, mas sim pela avaliação. Na verdade, os modelos são capazes de fazer mais e de ser mais precisos em uma gama maior de áreas, mas o desempenho atual está longe de atingir todo o seu potencial. A chave é como ensiná-los, dar a eles a inteligência necessária para aprender algo sobre um determinado assunto, o Embora isso possa não estar em seu conjunto de treinamento inicial, eles são capazes de fazer isso se você os ensinar.
Mike: Sim, vemos isso o tempo todo. Havia muitos aplicativos de IA interessantes há alguns anos, quando todos estavam concentrados apenas em lançar recursos de IA interessantes e não faziam nenhuma avaliação. Agora, todos acham que o novo modelo deve ser melhor, mas na verdade não fizemos uma avaliação porque estávamos apenas correndo para lançar os recursos de IA. A parte mais difícil foi fazer com que as pessoas percebessem que precisávamos parar e pensar sobre o que realmente é sucesso? Que problema você está realmente resolvendo? Muitas vezes, o gerente de produto muda e o novo gerente de produto assume o controle e começa a perguntar: "Como é o sucesso? Vamos escrever algumas avaliações.
Descobrimos que Claude é realmente bom em escrever avaliações e pontuá-las. Portanto, podemos automatizar grande parte desse processo para você, mas somente se você nos disser o que é sucesso antes de poder realmente fazer melhorias incrementais. Esse processo geralmente é a chave para levar uma missão de 60% para 85%. Se um dia você for à Anthropic para uma entrevista, talvez veja uma parte do nosso processo de entrevista que pede que você transforme uma avaliação ruim em uma boa. Queremos ver como você pensa e, embora esse talento possa não estar disponível em outro lugar, estamos trabalhando duro para desenvolver essas habilidades. Se podemos ensinar uma coisa a alguém, é isso.
Kevin: Esse é um ponto realmente importante. Escrever e-mails para se comunicar em tempo hábil será uma das principais habilidades dos futuros gerentes de produto.
Mike: Na verdade, discutimos isso internamente, e talvez essa seja uma dica um pouco privilegiada, mas é interessante. Temos gerentes de produtos de pesquisa especializados em recursos e desenvolvimento de modelos e gerentes de produtos que são mais responsáveis pelas interfaces ou APIs dos produtos. Então, percebemos que a função do gerente de produto que está criando recursos orientados por IA em 2024 e 2025 está se tornando mais parecida com a primeira e menos com a segunda. Por exemplo, lançamos um recurso de análise de código em que o Claude pode realmente analisar CSVs e escrever código para você. Esse gerente de produto é responsável por torná-lo 80% bom e, em seguida, entregá-lo ao gerente de produto que pode escrever a avaliação, fazer o ajuste fino e solicitar. Essa função é efetivamente a mesma, e a qualidade do recurso agora depende do trabalho que você faz nas avaliações e dicas. Portanto, essas duas funções de gerente de produto estão se fundindo gradualmente.
Kevin: Sim, exatamente isso. Criamos um treinamento em que todos os gerentes de produtos aprenderam a escrever e-mails sobre a diferença entre avaliações boas e ruins. Embora certamente ainda não tenhamos concluído esse processo e precisemos continuar a iterar e melhorar, ele é realmente uma parte essencial da criação de excelentes produtos de IA.
Sarah: Como parte dessa contratação, para pessoas que desejam se sair bem na criação de produtos de IA ou na pesquisa de produtos no futuro, não podemos participar de seu treinamento, Kevin.
Kevin: Você pode usar o próprio modelo para fazer isso. Por exemplo, se você perguntar diretamente ao modelo "que tipo de avaliação é boa" ou "me dê alguns exemplos de avaliações", o modelo dará uma boa resposta.
Mike: Isso é muito importante e, se você ouvir pessoas como Andrea Karpati e outras que passaram muito tempo nesse campo, todas elas dirão que nada supera a análise dos dados. Muitas vezes, as pessoas entram no dilema de que temos alguma ferramenta de avaliação, o novo modelo é medido pela ferramenta de avaliação como 80% excelente, mas temos medo de lançar o novo modelo por achar que ele não é perfeito. Mas, na verdade, se nos basearmos em alguns casos anteriores, descobriremos que o modelo é bom o suficiente, apenas que as ferramentas de avaliação não são suficientemente padronizadas.
É até interessante que cada lançamento de modelo tenha um cartão de modelo, e há algumas avaliações em que vemos até mesmo a resposta de ouro, e não tenho certeza se um ser humano diria isso ou se a pergunta de matemática está realmente um pouco errada. Chegar à perfeição do 100% é muito difícil porque até mesmo a pontuação em si é muito desafiadora. Portanto, eu sugeriria que a maneira de desenvolver sua intuição é observar as respostas reais ou até mesmo fazer uma amostra delas para ver: "talvez devêssemos evoluir a metodologia de avaliação ou talvez a vibração geral seja boa, mesmo que os resultados da avaliação sejam duros".É por isso que é tão importante se aprofundar nos dados e realmente tocá-los.
Kevin: Também acho que será interessante ver como esse processo evolui à medida que avançamos em direção a tarefas mais longas ou tarefas agênticas. Porque quando você tem uma tarefa do tipo "Vou lhe dar este problema de matemática e você pode somar quatro dígitos e obter a resposta certa", você sabe o que é bom e é muito simples de julgar. Quando o modelo começa a fazer coisas mais longas e confusas, como encontrar um hotel em Nova York, você sabe o que é certo, mas na maioria das vezes isso envolve personalização. Se você perguntar a duas pessoas perfeitamente capazes, elas poderão tomar uma decisão completamente diferente. Portanto, você será julgado em uma base muito mais livre. Será um processo interessante para nós. Teremos que evoluir novamente e redefinir os critérios de avaliação, da mesma forma que estamos constantemente reinventando as coisas.
Mike: Quando você pensa sobre isso, na verdade existe uma noção em ambos os lados do laboratório sobre "como é desenvolver a capacidade à medida que você avança". Parece um pouco com uma escada de carreira em que você está lidando com tarefas maiores e de longo prazo. Talvez as avaliações comecem a se parecer mais com as avaliações de desempenho. Estou na época da avaliação de desempenho agora, portanto, essa metáfora está no fundo da minha mente. Por exemplo, o modelo atende às suas expectativas sobre o que uma pessoa competente deve realizar? Ele excede as expectativas? Por exemplo, ele fez isso mais rápido ou descobriu um restaurante que você não sabia que existia? Nesse caso, é mais complexo e sutil do que os critérios usuais de certo e errado.
Kevin: Isso sem mencionar o fato de que os humanos ainda estão escrevendo essas avaliações, e os modelos estão se aproximando ou superando o desempenho humano em determinadas tarefas. Às vezes, as pessoas até preferem as respostas dos modelos às dos humanos. Então, o que isso significa se você tem humanos escrevendo suas avaliações?
Sarah: As avaliações são obviamente fundamentais. Vamos passar muito tempo com esses modelos e aprender a escrever avaliações. Então, quais habilidades os gerentes de produto devem aprender? No momento, vocês dois estão nesse caminho de aprendizado.
Mike: A criação de protótipos com esses modelos é uma habilidade subestimada. Nossos melhores gerentes de produto fazem isso e, quando estamos discutindo se a interface do usuário deve ser isso ou aquilo, antes mesmo de o designer pegar um Figma, nosso gerente de produto ou, às vezes, nossos engenheiros dizem: "OK, fiz um teste A/B com o Claude para ver como seria cada uma dessas duas interfaces do usuário". " Acho isso muito legal e, assim, podemos criar protótipos de mais opções em um curto espaço de tempo e avaliá-los mais rapidamente. Portanto, a habilidade de criar protótipos usando essas ferramentas é muito útil.
Kevin: Esse é um ponto excelente. Também concordo com você que isso também levará os gerentes de produtos a se aprofundarem na pilha de tecnologia, e talvez essa exigência mude com o tempo. Por exemplo, se você estivesse trabalhando com tecnologia de banco de dados em 2005, talvez precisasse se aprofundar de uma maneira completamente diferente, ao passo que trabalhar com tecnologia de banco de dados agora pode não exigir o domínio de todos os conceitos básicos, pois há muitos níveis de abstração incorporados. Isso não quer dizer que todo gerente de produto precisa ser um pesquisador; ter uma compreensão dessas tecnologias, dedicar tempo para aprender a linguagem delas e desenvolver uma intuição de como essas coisas funcionam, tudo isso ajuda muito os gerentes de produto.
Mike: O outro aspecto é que você está lidando com um sistema estocástico e não determinístico e, assim como o e-mail, é algo que tentamos fazer o melhor possível, mas o design de produtos em um mundo em que não é possível controlar o resultado de seus modelos, você só pode fazer o melhor possível. Então, de que tipo de mecanismos de feedback você precisa para fechar o ciclo? Como você decide quando o modelo está no caminho certo? Como você coleta feedback rapidamente? Quais são as salvaguardas que você deseja colocar em prática? Como você sabe como será o desempenho do modelo em resultados de larga escala? Essas perguntas exigem que entendamos o resultado do modelo, não apenas para um único usuário, mas em escala para um grande número de usuários por dia.Isso requer uma maneira muito diferente de pensar: anteriormente, um relatório de erro poderia ser que uma ação do usuário não foi executada quando um botão foi clicado, e esse tipo de problema era mais fácil de identificar e resolver.
Kevin: Talvez isso mude em cinco anos, quando as pessoas se acostumarem com tudo isso. Mas ainda estamos no estágio em que estamos nos acostumando com essa interface de usuário não determinística, especialmente para pessoas que não são técnicas e que não estão acostumadas a isso quando usam produtos tecnológicos. Essa situação vai totalmente contra nossa intuição dos últimos 25 anos de uso de computadores, que costumavam produzir o mesmo resultado se as entradas fossem as mesmas, mas isso não é mais verdade. E não é só que precisamos nos adaptar a essa mudança ao criar nossos produtos, mas também precisamos nos colocar no lugar dos usuários que usam nossos produtos e o que isso significa para eles. Há algumas desvantagens nisso, mas também há algumas vantagens muito legais. Portanto, é muito interessante pensar em como podemos usar isso a nosso favor de diferentes maneiras.
Mike: Lembro-me de que fizemos muitas pesquisas contínuas com usuários no Instagram. Os pesquisadores traziam pessoas diferentes a cada semana e testavam protótipos a cada vez, e fizemos algo semelhante na Anthropic. Mas, curiosamente, o que muitas vezes me surpreende nessas sessões é a maneira como os usuários usam o Instagram. É sempre interessante ver como os usuários reagem aos novos recursos ou aos seus casos de uso. E agora metade dessa pesquisa é sobre como os usuários reagem e a outra metade é sobre como o modelo se comporta nesse contexto. E você verá que isso foi feito muito bem.
Portanto, é uma sensação de orgulho, especialmente quando o modelo responde bem em um ambiente de pesquisa de usuários. E também é frustrante quando o modelo não entende a intenção e você percebe que ele foi para a página 10 da resposta. Portanto, provavelmente, de certa forma, é preciso aprender a ter uma mentalidade "zen" em relação à incerteza nesse ambiente, deixando de lado o senso de controle e aceitando o que vai acontecer.
Rápida adaptação e educação da tecnologia de IA: de consumidores a usuários corporativos
Sarah: Vocês dois estiveram envolvidos no projeto dessas experiências de consumo, ensinando rapidamente novos comportamentos a centenas de milhões de pessoas. Como vocês estão pensando em educar os usuários finais agora que esses produtos de IA estão se tornando ainda mais onipresentes do que eram na época, e se os gerentes de produtos e os próprios técnicos não têm muita intuição sobre como usar essas tecnologias? A escala com a qual você está lidando é tão grande e essas tecnologias são tão contraintuitivas.
Kevin: É incrível a rapidez com que nos adaptamos. Outro dia, eu estava conversando com uma pessoa sobre sua experiência na primeira viagem em um Waymo (carro sem motorista). Quem já andou em um carro Waymo? Se você ainda não andou em um Waymo, quando sair daqui, pegue um Waymo em São Francisco para onde estiver indo. É uma experiência incrível. Mas eles dizem que, nos primeiros 30 segundos, eu penso: "Oh, meu Deus, cuidado com o ciclista" e, cinco minutos depois, penso: "Oh, meu Deus, estou vivendo no futuro". Mas, dez minutos depois, estou entediado e estou no meu celular.
Como nos acostumamos rapidamente com essa mágica absoluta. Esse fenômeno também ocorre com o ChatGPT, que foi lançado há menos de dois anos e, na época, foi um verdadeiro choque. Agora, se voltarmos e usarmos a versão 3.5 original do GPT, todos se sentirão péssimos.
Sarah: Todos dirão que isso é estúpido.
Kevin: Como poderíamos ter pensado antes que o que estamos fazendo hoje e o que vocês estão fazendo, tudo isso parece mágica. Daqui a 12 meses, não acreditaremos que já usamos essa bobagem, porque foi assim que o campo evoluiu tão rapidamente. O que me surpreende ainda mais é a rapidez com que as pessoas estão se adaptando, pois, apesar de nossos esforços para forçar as pessoas a acompanhar o ritmo, há muita empolgação.As pessoas entendem que o mundo está se movendo nessa direção, e temos que fazer o que pudermos para mantê-lo na melhor direção possível. Isso está acontecendo e está se movendo muito rápido.
Mike: Uma das coisas que estamos tentando melhorar agora é tornar o produto literalmente uma ferramenta educacional, algo que não fazíamos no início, e a direção que estamos mudando agora é mais sobre o Claude aprender sobre si mesmo. Antes, dizíamos apenas que se tratava de uma IA criada pela Anthropic, o que estava incluído no conjunto de treinamento etc., mas agora dizemos literalmente: "Veja como usar esse recurso". Porque os estudos de usuários mostraram que as pessoas perguntam: "Como faço para usar isso?" E o Claude pode responder: "Não sei, você já tentou procurar na Internet?" Você acha que essa resposta não ajudaria em nada.
Portanto, agora estamos tentando enraizá-lo em um aplicativo do mundo real. O que podemos fazer agora é: "Aqui está o link para a documentação e aqui estão as etapas. Eu posso ajudá-lo". Esses modelos são realmente muito eficazes para resolver problemas de interface do usuário e confusão do usuário, e deveríamos usá-los mais para resolver esses problemas.
Sarah: As coisas devem ser diferentes quando se trata de gerenciamento de mudanças em uma organização, certo? Porque naquela época existiam maneiras de fazer as coisas e processos organizacionais. Então, como você procura educar toda a organização e ajudá-la a melhorar a produtividade ou outras mudanças que possam ocorrer?
Mike: O lado empresarial é realmente interessante porque, embora esses produtos tenham milhões de usuários, a maioria dos usuários principais ainda são os primeiros a adotar e as pessoas que gostam de tecnologia, e há uma longa cauda de usuários. E quando você entra na empresa, está implantando o produto em uma organização, e geralmente há algumas pessoas que não são muito experientes em tecnologia. É legal ver alguns desses usuários não técnicos tendo sua primeira exposição ao LLM orientado por chat e poder ver como eles reagem. Assim, você tem a oportunidade de fazer algumas sessões de treinamento, ensiná-los a usá-lo e fornecer materiais educacionais. Precisamos aprender com essas práticas e depois concluir como ensinar os próximos 100 milhões de pessoas a usar essas tecnologias.
Kevin: Essas interfaces de usuário geralmente têm alguns usuários principais que ficam entusiasmados em ensinar outras pessoas a usá-las. Por exemplo, a OpenAI tem GPTs personalizados e as organizações costumam criar milhares deles. Isso oferece uma oportunidade para que os principais usuários criem algo que torne a IA mais fácil e mais imediatamente valiosa para pessoas que talvez não saibam como usá-la. Esse é um lugar legal onde você pode encontrar alguns grupos de usuários principais que realmente se tornarão evangelistas.
Sarah: Tenho que perguntar isso porque sua organização é basicamente um usuário principal, portanto, você vive em seu próprio mundinho do futuro. Tenho uma pergunta, mas fique à vontade para me direcionar se não quiser respondê-la. Mike, o que faço com um computador? O que todos vocês fazem?
Mike: Do ponto de vista interno, como Kevin mencionou anteriormente sobre "quando estará pronto", tivemos um período de tempo em que estávamos muito confiantes de que o produto era bom o suficiente, embora ainda estivesse muito no início, e erros seriam cometidos, mas como podemos torná-lo tão bom quanto possível?
Um dos casos de uso mais interessantes foi quando estávamos fazendo um teste e alguém queria ver se a IA poderia pedir uma pizza para nós. Acontece que ela fez o pedido, tudo correu bem e a pizza acabou sendo entregue no escritório. Foi um momento legal, um momento icônico, por assim dizer, embora tenha sido a Domino's (não é uma pizza particularmente sofisticada), mas, de modo geral, ainda foi feito pela IA. Momentos como esse são realmente muito interessantes. É claro que a pizza foi pedida em excesso e eu provavelmente estava com fome para experimentá-la.
Agora estamos vendo alguns casos de uso iniciais realmente interessantes, e um deles são os testes de interface do usuário. No Instagram, por exemplo, quase não tínhamos testes de interface do usuário porque eram difíceis de escrever, eram frágeis e, muitas vezes, falhavam por causa de coisas como a mudança de posição dos botões, e então você tinha que reescrever muitas coisas. Agora, os computadores são muito eficientes na realização de testes de IU do tipo "funciona como esperado", que é basicamente "faz o que você quer que faça". Isso é muito interessante.
Outra direção em que estamos começando a nos aprofundar são os aplicativos de agentes inteligentes que exigem muito processamento de dados. Por exemplo, em nossas equipes de suporte e finanças, muitos dos formulários de RP eram originalmente muito tediosos e repetitivos, envolvendo muito tempo manual para extrair dados de uma fonte de dados e colocá-los em outra. Sempre que falo sobre o uso de computadores, uso o termo "trabalho pesado". Queremos automatizar essas tarefas tediosas para que as pessoas possam se concentrar em fazer coisas mais criativas em vez de clicar 30 vezes em cada operação.
Sarah: Kevin, temos várias equipes fazendo experiências com o modelo GPT o1. Obviamente, ele pode fazer coisas mais complexas. Mas se você já estiver usando um modelo como o GPT-4 em seu aplicativo, não poderá simplesmente usá-lo como um substituto individual. Você pode nos dar alguma orientação sobre isso? Como você o utiliza internamente?
Kevin: Uma coisa que muitas pessoas provavelmente não percebem é que, na verdade, o que alguns de nossos clientes mais avançados e o que estamos fazendo internamente não é usar um modelo para alguma coisa.Você acaba combinando modelos para formar fluxos de trabalho e mecanismos de coordenação. Portanto, você usará cada modelo de acordo com as áreas em que eles se destacam. O modelo GPT o1 é muito bom em raciocínio, mas também leva algum tempo para ser pensado, não é multimodal e, é claro, tem outras limitações.
Sarah: O raciocínio é uma questão fundamental para esse grupo, eu sei.
Kevin: Sim, você deve estar familiarizado com o conceito de "pré-treinamento estendido". Você começa com versões do GPT2, 3, 4, 5, etc., e faz um pré-treinamento cada vez maior. Os modelos ficam "mais inteligentes" - ou melhor, eles sabem cada vez mais, mas são mais parecidos com o pensamento do sistema 1, em que você faz uma pergunta e ele lhe dá a resposta imediatamente, como o preenchimento de texto.
Sarah: Sim, se eu lhe fizer perguntas agora, você emitirá os resultados um após o outro e continuará.
Kevin: Você não acha que, na verdade, a intuição humana sobre como as outras pessoas operam pode, muitas vezes, ajudá-lo a supor como muitos modelos funcionam? Você me faz uma pergunta e eu posso sair do assunto e entrar na frase errada, e nesse ponto é difícil se recuperar. Isso pode realmente acontecer com os modelos. Portanto, você tem esse tipo de pré-treinamento crescente. Os modelos gpt o1 são, na verdade, uma maneira diferente de ampliar a inteligência e isso é feito no momento da consulta. Portanto, ao contrário do que o Sistema 1 pensa, faça-me uma pergunta e eu lhe darei a resposta imediatamente, ele fará uma pausa, como se eu lhe fizesse uma pergunta.
Se eu lhe pedisse para resolver um Sudoku e fazer um jogo de ligar os pontos do New York Times, você começaria a pensar em como essas palavras estão agrupadas, e essas quatro podem ou não estar certas, podem ser estas ...... Você formará hipóteses com base no que já sabe e, depois, falsificará ou confirmará essas hipóteses e continuará a raciocinar. É exatamente assim que surgem as descobertas científicas e como respondemos a perguntas difíceis, e isso é ensinar aos modelos o que fazer. No momento, eles pensam por 30 a 60 segundos e depois respondem. Imagine o que aconteceria se eles pudessem pensar por cinco horas ou até mesmo cinco dias.
Portanto, é uma maneira totalmente nova de expandir a inteligência, e sentimos que estamos apenas começando. Estamos agora na fase GPT1 desse novo tipo de raciocínio. Mas, como sempre, os modelos não são usados para tudo, certo? Às vezes, quando você me faz uma pergunta, você não quer que eu espere 60 segundos para responder, você quer que eu dê a resposta imediatamente. Portanto, acabamos usando nossos modelos juntos de muitas maneiras diferentes.
A segurança cibernética, por exemplo, é uma área em que você pode achar que os modelos não são aplicáveis. Eles podem produzir alucinações, o que parece ser um domínio inadequado para alucinações, mas você pode ajustar os modelos para que eles sejam bons em determinadas tarefas. Em seguida, você pode ajustar os modelos para que sejam muito precisos quanto aos tipos de entradas e saídas e, então, fazer com que esses modelos comecem a trabalhar juntos. Você teria modelos verificando a saída de outros modelos, percebendo que algo não está certo e pedindo que eles tentem novamente.Portanto, em última análise, é assim que obtemos grande valor dos modelos, operando-os juntos e colaborando em tarefas específicas. É como os seres humanos realizam tarefas complexas: geralmente temos pessoas com habilidades diferentes que trabalham em colaboração para concluir uma tarefa difícil.
Antecipando o futuro da IA: proatividade, interações assíncronas e experiências personalizadas
Sarah: Vocês precisam nos dizer algo sobre o futuro e o que está por vir. Não precisam informar uma data de lançamento, entendo que não saibam, mas se olharem para o futuro, o mais longe que podem ver o campo de IA agora é provavelmente ...... Se vocês puderem ver o futuro, me avisem. Mas digamos que seja daqui a seis ou 12 meses, como vocês imaginam que será uma experiência, que tipo de experiência se tornará possível ou comum?
Mike: Penso nisso o tempo todo, e há duas palavras que provavelmente plantam a semente na mente de todos. A primeira é "proatividade", que significa como os modelos se tornam mais proativos? Por exemplo, depois que eles o conhecerem e começarem a monitorar algumas de suas informações (supondo que você os autorize a fazer isso), eles poderão ler seus e-mails de uma forma que não seja muito perturbadora e que seja útil, e detectar algumas tendências interessantes. Como alternativa, o modelo poderia fornecer um resumo não solicitado quando você começa o dia: o que aconteceu hoje e em quais conversas você pode estar envolvido. Fiz algumas pesquisas para você e, como sua próxima reunião está chegando, é sobre isso que você pode querer falar. Vejo que você tem uma apresentação futura, e esta é a primeira versão do rascunho que preparei para você. Iniciativas como essa serão muito poderosas no futuro.
O outro aspecto é ser mais "assíncrono". O modelo o1 é atualmente a interface inicial para essa fase exploratória, embora ele possa fazer muitas coisas e lhe diga o que vai fazer à medida que avança. Você pode esperar aqui por ele, mas também pode escolher "ele vai pensar um pouco, vou fazer outra coisa e talvez volte mais tarde, ou ele vai me dizer quando terminar". É como expandir a dimensão do tempo, não apenas porque você não fez uma pergunta, mas porque ele está ativamente lhe dizendo algo, o que seria interessante. E também, quando você faz uma pergunta, ele pode dizer: "Ok, vou pensar sobre isso, fazer algumas pesquisas, talvez precise fazer algumas perguntas a outra pessoa e, em seguida, darei uma resposta inicial, verificarei essa resposta mais uma vez e você terá uma resposta minha em uma hora".
Acabar com essa restrição de obter uma resposta imediata. Isso permitirá que você faça muitas coisas, como: "Tenho um pequeno plano de projeto para expandi-lo" ou "Não quero apenas que você mude um lugar na tela, mas que eu conserte esse bug, como ajustar o PRD para uma nova condição de mercado ou fazer ajustes com base nessas três novas condições de mercado para fazer ajustes".A capacidade de promover mudanças nessas dimensões é o que mais me entusiasma em termos de produto.
Kevin: Sim, concordo plenamente com todos os pontos que você mencionou. modelos se tornarão mais inteligentes em um ritmo acelerado, o Isso é parte do que torna tudo isso possível. Outra coisa muito empolgante é ver que os modelos podem interagir como nós humanos. Atualmente, você interage com esses modelos na maioria das vezes digitando, e eu me comunico com muitos dos meus amigos no WhatsApp e em outras plataformas digitando. Mas também posso falar e ver coisas. Recentemente, apresentamos um modelo de voz avançado. Eu estava conversando com pessoas na Coreia e no Japão e, muitas vezes, estava com alguém que não entendia meu idioma. Antes disso, não conseguíamos nos comunicar de forma alguma. Mas agora eu disse: "ChatGPT, quero que você atue como tradutor, e quando eu falar em inglês, por favor, traduza para o coreano; e quando você ouvir coreano, por favor, me diga em inglês". De repente, eu tinha um tradutor universal para conversas de negócios entre nós. Parecia mágica.
Pense no que essa tecnologia poderia fazer, não apenas em situações de negócios, mas imagine o quanto as pessoas estariam mais dispostas a viajar para novos lugares se você não precisasse mais se preocupar com o fato de não falar o mesmo idioma e tivesse um tradutor universal como o de Jornada nas Estrelas Universal no seu bolso. Experiências como essa se tornarão comuns no futuro, mas ainda são mágicas, e estou muito empolgado com essa tecnologia combinada com tudo o que Mike acabou de dizer.
Sarah: Um dos meus passatempos favoritos no momento é assistir a vídeos do TikTok, que são vídeos de jovens conversando com modos de voz, abrindo seus corações, usando todos os tipos de métodos, e eu me sinto incrível quando os assisto, e isso me faz lembrar de um termo antigo chamado "nativos digitais" ou "nativos móveis". Isso me faz lembrar do antigo termo "nativos digitais" ou "nativos móveis". Eu mesmo acredito muito em IA, mas nunca pensei que estaria interagindo dessa forma. Mas os jovens de 14 anos pensarão que posso fazer isso com a IA.
Kevin: Você já usou isso em seus filhos?
Sarah: Ainda não o fiz, pois meus filhos têm 5 e 7 anos
Kevin: Mas com certeza vamos tentar. Meus filhos têm 8 e 10 anos e sempre perguntam enquanto dirigem: "Posso falar com o ChatGPT?" Em seguida, eles fazem as perguntas mais estranhas e têm conversas estranhas com a IA, mas não se importam em falar com a IA.
Sarah: Na verdade, uma das minhas experiências favoritas, e talvez possamos terminar aqui perguntando qual foi o comportamento mais incrível que você viu ultimamente (seja de uma criança ou de outra pessoa), é que tenho sorte quando meus pais leem para mim. É ótimo se eu puder escolher os livros, caso contrário, meu pai diz: "Vamos ler esse estudo de física que me interessa". Meus filhos, não sei se esse é o jeito Bay Area de ser pai, mas meus filhos diriam: "Ok, mamãe, faça o desenho certo. Quero contar uma história sobre um dragão e um unicórnio e, nesse contexto, vou lhe dizer como isso vai acontecer". E então essa história seria criada em tempo real. Acho que é um grande desafio, e fico feliz que eles acreditem e saibam que é possível, mas é realmente uma loucura criar seu próprio conteúdo de entretenimento dessa forma. Então, qual foi o comportamento mais surpreendente que você viu em seus produtos recentemente?
Mike: É um comportamento e um relacionamento. As pessoas estão realmente começando a entender as nuances do Claude ou do novo modelo que acabou de ser descrito. Elas entendem as nuances. Os comportamentos são quase como fazer amigos ou criar empatia bidirecional com o que está acontecendo. E então pensei: "O novo modelo parece mais inteligente, mas talvez um pouco distante". É essa nuance. Como produto, isso me dá mais empatia com a mentalidade das pessoas quando elas estão usando nossos produtos. Você não está apenas lançando um produto, está lançando sabedoria e empatia, e é isso que torna os relacionamentos importantes. Se alguém aparece e diz: "Fiz um upgrade e melhorei minha pontuação em matemática em 2%", mas eu me tornei diferente em alguns aspectos, é de se esperar que eu tenha que me adaptar um pouco e, provavelmente, me preocupar um pouco. Tem sido uma jornada interessante para mim, entender a mentalidade das pessoas quando elas usam nossos produtos.
Kevin: Sim. O comportamento do modelo é definitivamente parte da persona do produto. A personalidade do modelo é fundamental, e há algumas questões interessantes que podem ser resolvidas. como o quão personalizado ele deve ser. Ou será que a OpenAI deve ter uma personalidade uniforme e o Claude deve ter sua própria personalidade exclusiva? Na verdade, esse é um fenômeno muito humano, fazemos amizade com pessoas diferentes porque gostamos de pessoas diferentes. É um tópico interessante para se pensar. Fizemos algo recentemente que se espalhou rapidamente no Twitter. As pessoas começaram a perguntar ao modelo: "Com base no que você sabe sobre mim, com base em todas as nossas interações passadas, como você me descreveria?" E então o modelo respondia e dava o que achava ser uma descrição com base em todas as interações anteriores. É como se você começasse a interagir com o modelo de alguma forma, quase como se ele fosse uma pessoa ou entidade. É muito interessante ver como as pessoas reagem a isso.