OpenAI 최고 제품 책임자 10,000단어 인터뷰: 제품 관리자가 AI 시대에 우수한 제품을 구축하는 방법

AI 뉴스1 년 전 게시 됨 AI 공유 서클

48.7K 00

Z 하이라이트

직관은 업무의 절반 정도에서 작동합니다. 예를 들어 직관은 제품 방향이 명확하고 최종 미세 조정을 하고 대상 사용자와 해결해야 할 정확한 문제를 이해하려고 노력할 때 유용하며, 이 상황은 전통적인 제품 출시 프로세스에 더 가깝습니다.하지만 프로젝트의 초기 단계에서는 전혀 그렇지 않습니다. 때로는 알려지지 않은 기능이 있을 수 있습니다.
그러나 여기에서는 두 달마다 컴퓨터가 역사상 한 번도 달성하지 못한 새로운 일을 할 수 있습니다. 이러한 기술 변화가 제품에 어떤 영향을 미칠지 이해해야 하며, 그 결과 상당한 영향을 미칠 것이라는 답이 나올 수 있습니다. 를 통해 AI가 내부에서 어떻게 진화하고 있는지 살펴보는 것은 정말 흥미로운 일입니다.
Claude는 실제로 평가를 작성하고 채점하는 데 능숙하다는 것을 알게 되었습니다. 따라서 이러한 프로세스의 많은 부분을 자동화할 수 있지만, 어떤 것이 성공적이었는지 알려주셔야만 실제로 점진적으로 개선할 수 있습니다.
모델은 점점 더 빠른 속도로 더 똑똑해질 것이며, 이것이 이 모든 것을 가능하게 하는 원동력입니다. 또 다른 흥미로운 점은 모델이 인간처럼 상호 작용할 수 있게 된다는 점입니다.

AI의 새로운 역할과 과제: 대화와 탐색

Sarah: 안녕하세요, 여러분!

Kevin: 사라, 당신은 AI 투자의 여왕입니다.

Sarah: 다시는 사용하지 않을 문구이지만 두 분과 함께 이 자리에 함께하게 되어 기쁩니다. 마지막 토론을 위해 두 가지 다른 아이디어가 있습니다. 첫 번째는 제품 출시 결투입니다. 두 분 모두 '게시' 버튼을 누르기만 하면 되기 때문에 저는 앞으로 6개월에서 12개월 내에 출시할 모든 제품을 게시하고 모든 내부 지침을 완전히 무시하자고 제안합니다.

두 번째는 인스타그램을 함께 재설계한다는 것인데, 두 사람 모두 실제로 인스타그램을 운영했지만 그 계획이 완전히 취소되었기 때문입니다. 그러니 그냥 친구로서 인사이트를 공유해 보겠습니다. 다소 지루하게 들릴 수도 있겠지만, 여러분들의 이야기를 듣고 싶습니다. 어쨌든, 이 역할은 여러분 모두에게 비교적 새로운 역할입니다. 케빈 이전에는 정말 다양하고 흥미로운 일을 많이 해왔기 때문에 이 역할을 맡았을 때 친구들과 팀의 반응은 어땠나요?

Kevin: 전반적으로 흥미진진하고 가장 흥미롭고 영향력 있는 직책 중 하나이며 탐구해야 할 것이 너무 많습니다. 사용자가 누구인지, 어떤 문제를 해결할 수 있는지 파악하는 등 일반적인 제품 역할의 모든 과제를 포괄하는 이만큼 도전적이고 흥미로우며 잠 못 이루는 역할은 없었습니다. 하지만 일반적으로 제품을 개발할 때는 비교적 고정된 기술 기반에서 작업하고, 어떤 리소스를 사용할 수 있는지 파악한 다음 가능한 최고의 제품을 개발합니다.

하지만 여기서는 두 달마다 컴퓨터가 역사상 실현된 적이 없는 새로운 일을 할 수 있고, 이러한 기술 변화가 제품에 어떤 영향을 미칠지 이해해야 하며, 그 답은 아마도 상당히 큰 영향을 미칠 것이기 때문에 AI의 과정을 내부에서 지켜보는 것이 정말 흥미롭고 즐기고 있습니다.

Sarah: 마이크, 당신은 어때요? 저는 이 소식을 듣고 인스타그램의 창립자가 이미 존재하던 프로젝트에 참여한다는 것이 놀랍다고 생각했던 기억이 납니다.

Mike: 네, 제가 가장 좋아하는 세 가지 반응은 저를 아는 사람들은 말이 되고 재미있을 거라고 말할 것입니다. 그런 다음 어떤 사람들은 일할 필요도 없는데 왜 이런 일을 하느냐고 말할 것입니다. 저를 정말 잘 아신다면 제가 멈출 수 없다는 것을 알 것입니다. 세 번째 반응은 인스타그램의 창립자가 실제로 있다는 것이 흥미롭다는 것입니다. 사실 저에게 관심을 가질 만한 회사는 많지 않지만, 제가 관심을 가질 만한 회사는 세 군데 정도는 있을 것 같습니다. 저를 얼마나 잘 아는지에 따라 반응이 달라지는데, 특히 6주 정도 지속된 반 은퇴 상태의 저를 목격하고 나서 '이제 뭘 해야 하나'라고 생각한 적이 있다면 더욱 그렇습니다.

Kevin: 최근 친구들과 저녁 식사를 하고 있었는데, 어린아이처럼 신이 난 표정을 짓고 계셨는데, 이런 기업적인 측면에 대해 배우고 있다고 말씀하시는 것이 인상적이었습니다. 우리가 보통 인스타그램에서 하는 사용자 기반과는 다른, 다른 고객에게 서비스를 제공하거나 연구 주도 조직에서 일하는 것이죠. 지금까지 가장 놀라웠던 점은 무엇인가요?

Mike: 이 일의 두 가지 보람과 완전히 새로운 경험은 저에게 완전히 새로운 경험입니다. 18살 때 저는 매년 달라질 것이고 같은 해를 반복하고 싶지 않다는 18살의 마음가짐으로 다짐을 많이 했어요. 그래서 가끔은 '또 다른 소셜 제품을 만들고 싶지 않을까'라는 생각을 하기도 합니다. 너무 반복적이어서 첫째, 기준이 흐려지고 둘째, 같은 것을 계속 반복하는 것 같은 느낌이 들기도 합니다. 그래서 기업용 콘텐츠는 정말 신선합니다. 이에 대한 경험도 궁금합니다. 실시간으로 피드백을 받을 수 있고, 주기가 훨씬 더 길기 때문에 투자에 가깝다고 생각합니다. 처음에 커뮤니케이션을 하고 나면 '저쪽에서 저를 좋아하는 것 같다'는 생각이 들다가 프로젝트가 승인 과정에 있다는 것을 알게 되고, 실제 배포 단계에 도달하기까지 6개월 정도 걸리고 나서야 적합한지 아닌지 알 수 있습니다.따라서 다른 타임라인에 익숙해져야 합니다.

왜 아직 진행되지 않느냐고 물어보면 마이크, 여기 온 지 두 달밖에 안 됐고 이미 프로세스가 진행 중이니 곧 제자리를 찾을 거라고 하죠. 이렇게 다른 속도에 익숙해져야 합니다. 하지만 흥미로운 점은 제품이 출시되면 고객에게 직접 연락할 수 있고 고객이 직접 찾아와서 경험에 대해 이야기하고 결과를 확인할 수 있다는 것입니다. 반면 사용자에 대해서는 데이터 과학을 통해서만 전반적으로 분석할 수 있고 물론 한두 명을 초대하여 이야기를 나눌 수는 있지만 강점과 약점에 대한 자세한 피드백을 제공할 만큼 재정적으로 동기가 부여되지는 않습니다. 따라서 이 접근 방식은 다르지만 매우 만족스럽기도 합니다.

Sarah: 케빈, 지금까지 다양한 유형의 제품 개발에 참여하셨는데, 이러한 프로젝트에서 직관이 얼마나 중요한 역할을 하나요?

Kevin: 네, 질문에 답하기 전에 기업 측면에 대해 한 가지 덧붙이고 싶습니다. 기업에서는 반드시 제품 자체에만 초점을 맞추는 것은 아닙니다. 각자의 목표가 있는 구매자도 있습니다. 세계 최고의 제품을 만들 수 있고 회사 내 모든 사람이 기꺼이 사용할 수도 있지만 반드시 그런 것은 중요하지 않습니다. 얼마 전에 한 대기업 고객과 미팅을 가졌는데, 그들은 "이 제품은 훌륭하고 만족스럽지만 우리에게는 요구 사항이 있습니다. 하지만 신제품이 출시되기 60일 전에 알고 싶다는 요구 사항이 있습니다."라고 말했습니다. 저도 60일 전에 미리 알고 싶다고 생각했습니다.

실제로는 매우 다르며, OpenAI에서는 소비자, 기업, 개발자를 위한 제품을 동시에 보유하고 있기 때문에 거의 모든 측면에서 실험을 하고 있다는 점이 흥미롭습니다. 직관의 관점에서 보면, 직관이 작용하는 직업의 약 절반이 직관력을 필요로 합니다. 예를 들어 고급 음성 패턴이나 캔버스 출시를 앞두고 최종 미세 조정을 하면서 대상 사용자와 해결해야 할 정확한 문제를 파악하는 등 제품 방향이 명확할 때는 기존 제품 출시 프로세스에 가까운 상황이기 때문에 직관이 도움이 될 수 있습니다.

여전히 프로젝트의 초기 단계에서는 전혀 그렇지 않습니다. 때로는 알려지지 않은 기능이 있을 뿐입니다. 예를 들어, 새로운 모델을 학습시키고 있는데 특정 기능이 있다고 생각하지만 본인도 확신하지 못하고 연구팀도 확신하지 못하며 아무도 확신하지 못하는 경우가 있을 수 있습니다. 안개 속에서 서서히 모습을 드러내는 동상처럼 작동할 수도 있지만, 그 기능은 모델의 순간적인 속성입니다. 따라서 실제로 작동할지, 60% 효과가 있는지, 90% 효과가 있는지, 99% 효과가 있는지 알 수 없습니다. 그리고 60% 유효, 90% 유효 또는 99% 유효 모델의 경우 해당 제품 형태가 완전히 다릅니다. 가끔씩 연구팀에 가서 어떻게 진행되고 있는지, 모델 훈련은 어떻게 진행되고 있는지, 새로운 인사이트가 있는지 물어보면 연구 중이라고, 아직 연구 중이라고, 확실하지 않다고, 탐색 과정이라고 대답하는 느낌을 받아본 적이 있는지 모르겠습니다. 하지만 우리 모두가 함께 새로운 것을 발견해나가는 과정이기 때문에 어느 정도 무작위성을 가지고 있다는 점도 재미있어요.

AI 제품 개발의 불확실성과 적응: 프로토타입부터 사용자 피드백까지

Mike: Apple의 WWDC 발표와 같이 인스타그램 시절이 떠오르기도 하고, 우리에게 매우 좋은 일이 될 수도 있고 파괴적인 일이 될 수도 있다는 생각이 들기도 합니다. 지금 상황도 비슷하지만, 내부적으로 회사가 혼란에 빠지는 상황이라 멋지지만 동시에 제품 로드맵에 완전히 차질이 생긴 것처럼 느껴지기도 합니다.

Sarah: 이 주기는 여러분에게는 어떤 모습인가요? 다음 기능 세트를 찾기 위해 '안개 속을 들여다보는 것'이라고 설명합니다. 그렇다면 앞으로 어떤 일이 일어날지 정확히 알지 못한 상태에서 계획을 세울 수 있나요? 또한 새로운 기능을 발견하고 이를 제품에 통합하기 위한 반복 주기는 어떤가요?

Mike: 인텔리전스 측면에서는 '이 방향으로 움직이고 있다'는 것을 피상적으로 파악할 수 있습니다. 따라서 이를 중심으로 제품을 구축하고 그에 따라 의사 결정을 내릴 수 있습니다. 전반적으로 세 가지 방법으로 접근할 수 있습니다. 첫째. 인텔리전스의 발전은 예측할 수 없지만 적어도 일반적인 추세는 확인할 수 있습니다. 두 번째는 제품 관점에서 어떤 기능에 투자할지 결정한 다음 연구팀과 함께 미세 조정하는 것입니다. 아티팩트처럼 연구와 제품 사이에 많은 시간을 투자하고 있는 캔버스도 마찬가지입니다. 공동 디자인, 공동 연구, 공동 미세 조정을 하고 있죠. 이 회사에서 일할 수 있다는 것, 디자인에 참여할 수 있다는 것은 정말 큰 특권입니다. 그리고 이번 주에 출시한 컴퓨터 음성 처리 작업인 OpenAI의 음성 모드와 같은 기능에 대한 투자도 있습니다. "좋아, 60%, 잘하고 있어, 계속해봐"라고 말하는 것과 같습니다.

따라서 우리가 시도하는 것은 디자이너를 프로세스에 일찍 참여시키는 것이지만 동시에 실험 토론에서 다음과 같이 최종 베팅을하는 것이 아니라는 것을 알고 있습니다. 실험의 결과는 매번 완벽한 제품이 아니라 학습이어야 합니다. 연구팀과 함께 작업할 때도 마찬가지입니다. 결과는 예측 가능한 제품 프로세스가 아니라 제품 아이디어를 촉발하는 데모 또는 영감을 주는 것이어야 합니다. "이렇게 해서 위험이 제거되었으니 연구 결과가 나오면 이런 식으로 해야 한다"고 생각하지 않습니다.

Kevin: 제가 좋아하는 또 한 가지는 연구의 일부가 적어도 제품 지향적이라는 점입니다. 특히 마이크의 말처럼 교육 후 단계에서는 더욱 그렇습니다. 그리고 연구의 다른 부분은 좀 더 학문적인 측면이 강합니다. 그래서 가끔 컨퍼런스에서 특정 기능에 대해 들으면 나도 이걸 해보고 싶다는 생각이 들곤 하는데, 팀 연구원 중 한 명이 3개월 동안 이걸 해볼 수 있었다고 말하곤 하죠. 그러면 우리는 깜짝 놀라며 이렇게 묻겠죠. 어떻게 된 거냐고요? 그러면 연구원들은 그다지 중요하지 않다고 생각해서 다른 일을 하고 있다고 대답하겠죠. 하지만 가끔은 정말 마법 같은 순간이 찾아오기도 하죠.

Sarah: 우리가 투자할 때 자주 고려하는 것 중 하나는 어떤 모델의 작업 수행 성공률이 99%가 아니라 60%라면 어떻게 할 수 있을까 하는 것입니다. 60%에 근접하는 많은 작업과 달리 작업 자체는 여전히 매우 중요하고 가치가 있습니다. 그렇다면 내부적으로 미션 진행 상황을 어떻게 평가하고 있나요? 그리고 제품에서 실패를 우아하게 만들거나 사용자가 이 '전환기'를 통과할 수 있도록 하는 것, 즉 모델이 더 좋아질 때까지 기다리는 것이 아니라 어떻게 대처할 것인가에 대해 어떻게 생각하시나요?

Kevin: 실제로 60%의 모델 정확도로 할 수 있는 일은 많지만, 이를 위해 특별히 설계해야 한다는 점을 제외하면 많은 것이 있습니다. 다음 사항을 예상해야 합니다. 시스템에서 더 많은 수동 개입이 있을 것입니다. 자동화에 전적으로 의존하는 대신에. 예를 들어, 사람들이 인공지능이 Q&A뿐만 아니라 실제 경제적으로 가치 있는 업무에 사용될 수 있다는 사실을 깨닫게 해준 최초의 제품인 Github Copilot을 살펴보세요. 이 제품이 언제 출시되었는지 정확히 어떤 모델을 기반으로 했는지는 모르겠지만 몇 세대 전의 일인 것만은 확실합니다. 따라서 그 모델은 코딩과 관련된 어떤 면에서도 완벽하지 않았다고 장담할 수 있습니다.

Sarah: 이는 GPT2를 기반으로 하는데, 그 모델은 다소 작습니다.

Kevin: 사실이지만 코드를 작성하는 데 드는 많은 수고를 덜어주고, 완벽한 코드는 아닐지라도 최소한 대부분의 작업을 대신 처리해 주며 편집만 하면 되기 때문에 여전히 가치가 있습니다. 따라서 이와 같은 경험은 충분히 실행 가능합니다. 특히 에이전트 및 더 긴 작업 형식으로의 전환에서도 이와 유사한 것을 보게 될 것이며, 완벽하지는 않더라도 5~10분의 시간을 절약할 수 있다면 여전히 가치 있는 일입니다. 또한 모델이 잘 모르는 내용을 이해한 후 "잘 모르겠는데 도와주실 수 있나요?"라고 물어본다면 더욱 유용할 것입니다. 그러면인간 모델 결합은 60%보다 훨씬 높습니다.

Mike: 백분율은 AI의 임계값과 같은 것으로, 멘도사 선과 마찬가지로 일반적으로 매우 고르지 않으며 어떤 테스트에서는 매우 잘 수행되고 다른 테스트에서는 잘 수행되지 않을 수 있습니다. 또한 고객과 함께 파일럿 프로젝트를 진행할 때, 특히 같은 날 두 회사로부터 피드백을 받을 때 유용하며, 때로는 고객이 "이렇게 하면 모든 문제가 해결됩니다, 3개월 동안 사용해봤는데 감사합니다!"라고 말할 때도 유용합니다.

하지만 그렇다고 해서 다른 모델보다 낫다는 의미는 아닙니다. 다른 모델보다 더 나쁜 상황도 있습니다. 따라서 이를 이해하는 것이 중요합니다. 내부적으로 많은 평가를 할 수 있지만 실제로 모델을 실제 애플리케이션에 적용하면 디자인을 할 때와 마찬가지로 처음에는 완벽하다고 생각하지만 사용자 앞에 놓으면 내가 틀렸다는 것을 깨닫게 될 것입니다.모델들은 비슷한 느낌을 가지고 있고, 저희는 합리적인 판단을 내리기 위해 최선을 다하지만, 고객마다 맞춤형 데이터 세트와 내부 요구 사항이 있으며 어떤 식으로든 모델에 자극을 줍니다. 따라서 모델이 실제로 세상에 나오면 거의 두 배의 효과를 발휘하여 다른 결과가 나오게 됩니다.

Kevin: 여러분도 같은 생각인지 궁금합니다. 요즘 모델은 지능이 아니라 평가에 의해 제한을 받습니다. 모델은 실제로 더 많은 일을 할 수 있고 더 넓은 영역에서 더 정확할 수 있지만, 현재의 성능은 잠재력을 최대한 발휘하지 못하고 있습니다. 핵심은 특정 주제에 대해 학습하는 데 필요한 지능을 제공하기 위해 어떻게 가르치느냐 하는 것입니다. 초기 훈련 세트에는 포함되어 있지 않을 수 있지만, 가르치면 충분히 할 수 있습니다.

Mike: 예, 이런 일은 항상 일어나고 있습니다. 몇 년 전에는 모두가 멋진 AI 기능을 출시하는 데만 집중하고 평가는 전혀 하지 않았던 흥미로운 AI 앱이 많았습니다. 지금은 모두가 새로운 모델이 더 좋아야 한다고 생각하지만, 저희는 AI 기능을 서둘러 출시하느라 실제로 평가를 하지 않았습니다. 가장 어려웠던 부분은 사람들이 멈춰서서 성공이 무엇인지 생각해봐야 한다는 사실을 깨닫게 하는 것이었습니다. 실제로 어떤 문제를 해결하고 있나요? 종종 제품 관리자가 바뀌고 새로운 제품 관리자가 인수인계를 받으면 성공이 무엇인지 묻기 시작하곤 합니다. 몇 가지 평가를 작성해 봅시다.

Claude는 실제로 평가를 작성하고 점수를 매기는 데 능숙하다는 것을 알게 되었습니다. 따라서 이 프로세스의 많은 부분을 자동화할 수 있지만, 실제로 점진적으로 개선하기 전에 성공이 무엇인지 알려주셔야만 실제로 개선할 수 있습니다. 이 프로세스는 종종 60%에서 85%로 미션을 달성하는 데 핵심적인 역할을 합니다. 언젠가 면접을 보러 앤트로픽에 오시면 면접 과정에서 나쁜 평가를 좋은 평가로 개선해달라고 요청하는 부분을 보실 수 있을 겁니다. 우리는 지원자의 사고방식을 보고 싶고, 다른 곳에서는 찾아볼 수 없는 재능일지 모르지만 그러한 기술을 개발하기 위해 열심히 노력하고 있습니다. 우리가 누군가에게 한 가지를 가르칠 수 있다면 바로 이것입니다.

Kevin: 이것은 정말 중요한 포인트입니다. 적시에 소통하기 위해 이메일을 작성하는 것은 미래의 제품 관리자가 갖추어야 할 핵심 기술 중 하나가 될 것입니다.

Mike: 내부적으로 논의한 적이 있는데, 내부자 팁일 수도 있지만 흥미로운 이야기입니다. 저희는 모델 기능과 모델 개발을 전문으로 하는 리서치 제품 관리자와 제품 인터페이스나 API를 담당하는 제품 관리자가 있습니다. 그런데 2024년과 2025년에 AI 기반 기능을 구축하는 프로덕트 매니저의 역할이 전자와 비슷해지고 후자의 역할은 줄어들고 있다는 사실을 깨달았습니다. 예를 들어, 저희는 Claude가 실제로 CSV를 분석하고 코드를 작성할 수 있는 코드 분석 기능을 출시했습니다. 이 제품 관리자는 이 기능을 80%로 만든 다음 평가를 작성하고 미세 조정 및 프롬프트를 제공할 수 있는 제품 관리자에게 넘겨주는 역할을 합니다. 이 역할은 사실상 동일하며, 이제 기능의 품질은 평가와 힌트에 대한 작업에 따라 달라집니다. 따라서 이 두 가지 제품 관리자의 역할은 이제 점차 통합되고 있습니다.

Kevin: 네, 맞습니다. 저희는 모든 제품 관리자가 좋은 평가와 나쁜 평가의 차이에 대해 이메일을 작성하며 배우는 부트캠프를 마련했습니다. 아직 이 과정이 끝나지 않았고 계속 반복하고 개선해야 하지만, 훌륭한 AI 제품을 만드는 데 있어 핵심적인 부분입니다.

Sarah: 이번 채용의 일환으로, 앞으로 AI 제품을 개발하거나 제품을 연구하는 일을 잘하고 싶은 사람은 부트캠프에 참석할 수 없는데, 어떻게 하면 평가와 반복을 잘할 수 있는 직관을 기를 수 있을까요, 케빈?

Kevin: 모델 자체를 사용하여 이 작업을 수행할 수 있습니다. 예를 들어 모델에 직접 "어떤 종류의 평가가 좋은가요" 또는 "샘플 평가 몇 개 주세요"라고 물어보면 모델이 좋은 답변을 제공합니다.

Mike: 이것은 매우 중요하며, Andrea Karpati와 이 분야에서 많은 시간을 보낸 다른 사람들의 말을 들어보면 모두 데이터를 보는 것보다 더 좋은 것은 없다고 말합니다. 그래서 사람들은 종종 평가 도구가 있는데, 평가 도구에서 새 모델이 80%로 우수하다고 측정되었지만 완벽하지 않다고 생각하여 새 모델을 출시하는 것이 두렵다는 딜레마에 빠지게 됩니다. 하지만 사실 이전 사례를 참고하면 평가 도구가 충분히 표준적이지 않을 뿐 모델은 충분히 우수하다는 것을 알 수 있습니다.

심지어 모든 모델 릴리스에 모델 카드가 있고, 심지어 정답까지 볼 수 있는 평가가 있는데, 사람이 그렇게 말할 수 있는지, 아니면 그 수학 문제가 실제로 약간 틀린 것인지 잘 모르겠습니다. 채점 자체도 매우 까다롭기 때문에 100% 완벽에 도달하는 것은 매우 어렵습니다. 따라서 직관력을 키우는 방법은 실제 답안을 보거나 샘플을 통해 "평가 방법론을 발전시켜야겠다, 평가 결과가 가혹하더라도 전체적인 분위기는 괜찮다"는 것을 확인하는 것이 좋다고 생각합니다.그렇기 때문에 데이터를 자세히 살펴보고 실제로 만져보는 것이 매우 중요합니다.

Kevin: 더 긴 작업이나 에이전트 작업으로 나아갈 때 이 프로세스가 어떻게 진화하는지 보는 것도 흥미로울 것 같습니다. "이 수학 문제를 줄 테니 네 자리 숫자를 더하면 정답을 맞혀라"와 같은 작업은 어떤 것이 좋은지 알 수 있고 판단하기가 매우 간단하기 때문입니다. 하지만 모델이 뉴욕에 있는 호텔 찾기와 같이 좀 더 긴 형식의 모호한 작업을 수행하기 시작하면 무엇이 옳은지 알 수 있지만 개인화가 필요한 경우가 많습니다. 완벽하게 유능한 두 사람에게 물어보면 완전히 다른 결정을 내릴 수 있습니다. 따라서 훨씬 더 느슨한 기준으로 판단하게 될 것입니다. 저희에게는 흥미로운 과정이 될 것입니다. 우리가 끊임없이 무언가를 재창조하는 것처럼 평가 기준도 다시 진화하고 재정의해야 할 것입니다.

Mike: 생각해보면, 사실 연구실 양쪽에는 "진행하면서 역량을 개발하는 것이 어떤 모습인지"에 대한 개념이 있습니다. 더 크고 장기적인 업무를 처리하는 경력 사다리와 비슷해 보이기도 합니다. 어쩌면 평가가 성과 리뷰처럼 보일 수도 있겠죠. 저는 지금 성과 검토 시즌이라 그런 비유를 떠올리고 있습니다. 예를 들어 유능한 인재가 성취해야 할 기대치에 부합하는 모델인가요? 기대치를 뛰어넘나요? 더 빨리 해냈는가, 존재하지도 않았던 레스토랑을 발견했는가 등 일반적인 옳고 그름의 기준보다 더 복잡하고 미묘한 문제들이 있습니다.

Kevin: 인간이 여전히 이러한 평가를 작성하고 있고, 특정 작업에서 모델이 인간의 성과에 근접하거나 능가하고 있다는 사실은 말할 것도 없습니다. 때로는 사람들이 인간보다 모델의 답을 더 선호하기도 합니다. 그렇다면 사람이 평가를 작성하는 경우 이는 무엇을 의미할까요?

Sarah: 평가는 분명히 핵심입니다. 우리는 이러한 모델에 많은 시간을 할애하여 평가를 작성하는 방법을 스스로 배워나갈 것입니다. 그렇다면 제품 관리자는 어떤 기술을 배워야 할까요? 지금 여러분은 모두 이 학습의 길에 있습니다.

Mike: 이러한 모델을 사용한 프로토타이핑은 과소평가된 기술입니다. 최고의 제품 관리자가 이 작업을 수행하며, 디자이너가 피그마를 집어 들기도 전에 UI를 이렇게 만들지 저렇게 만들지 논의할 때 제품 관리자나 때로는 엔지니어가 "좋아, 이 두 가지 UI가 각각 어떻게 보일지 알아보기 위해 클로드와 A/B 테스트를 해봤는데요. " 그러면 더 짧은 시간에 더 많은 옵션을 프로토타이핑하고 더 빠르게 평가할 수 있기 때문에 정말 멋지다고 생각합니다. 따라서 이러한 도구를 사용하여 프로토타입을 제작할 수 있는 기술은 매우 유용합니다.

Kevin: 훌륭한 지적입니다. 또한 이로 인해 제품 관리자가 기술 스택에 대해 더 깊이 파고들게 될 것이며, 시간이 지남에 따라 이러한 요구 사항이 바뀔 수도 있다는 점에도 동의합니다. 예를 들어 2005년에 데이터베이스 기술을 사용했다면 완전히 다른 방식으로 더 깊이 들어가야 했을 수도 있지만, 지금 데이터베이스 기술을 사용하려면 많은 수준의 추상화가 내장되어 있기 때문에 모든 기본 사항을 숙지할 필요가 없을 수도 있습니다. 그렇다고 모든 제품 관리자가 연구원이 되어야 한다는 것은 아닙니다. 이러한 기술을 이해하고, 시간을 들여 해당 언어를 배우고, 이러한 기술이 어떻게 작동하는지에 대한 직관을 개발하는 것은 제품 관리자에게 큰 도움이 됩니다.

Mike: 또 다른 측면은 확률적이고 비결정적인 시스템을 다루고 있다는 점인데, 이메일은 최선을 다하지만 제품 디자인은 모델의 결과물을 제어할 수 없는 세상에서 최선을 다할 수밖에 없습니다. 그렇다면 루프를 닫으려면 어떤 종류의 피드백 메커니즘이 필요할까요? 모델이 올바른 방향으로 가고 있는지 어떻게 판단할 수 있을까요? 피드백을 신속하게 수집하려면 어떻게 해야 하나요? 어떤 안전장치를 마련하고 싶으신가요? 대규모 출력에서 모델이 어떻게 작동할지 어떻게 알 수 있나요? 이러한 질문에는 한 명의 사용자뿐만 아니라 매일 많은 수의 사용자에 대한 모델의 결과를 대규모로 이해해야 합니다.이전에는 버튼을 클릭했을 때 사용자 동작이 수행되지 않았다는 오류 보고를 할 수 있었고, 이러한 유형의 문제는 식별하고 해결하기가 쉬웠습니다.

Kevin: 사람들이 이 모든 것에 익숙해지면 5년 후에는 상황이 달라질 수도 있습니다. 그러나 우리는 아직 비결정적 사용자 인터페이스에 익숙해지는 단계에 있으며, 특히 기술자가 아니거나 기술 제품을 사용할 때 이에 익숙하지 않은 사람들에게는 더욱 그렇습니다. 이러한 상황은 지난 25년간 컴퓨터를 사용하면서 입력이 같으면 동일한 결과가 출력되던 우리의 직관과 완전히 상반되는 것이지만, 더 이상은 그렇지 않습니다. 제품을 개발할 때 이러한 변화에 적응해야 할 뿐만 아니라, 제품을 사용하는 사용자의 입장에서 생각하고 이것이 사용자에게 어떤 의미가 있는지 생각해야 합니다. 여기에는 몇 가지 단점도 있지만 정말 멋진 장점도 있습니다. 따라서 이를 다양한 방식으로 어떻게 활용할 수 있을지 생각해보는 것은 정말 흥미로운 일입니다.

Mike: 인스타그램에서 사용자 조사를 많이 했던 것으로 기억합니다. 연구원들은 매주 다른 사람들을 데려와 매번 프로토타입을 테스트했고, Anthropic에서도 비슷한 작업을 수행했습니다. 하지만 흥미롭게도 이러한 세션을 통해 종종 놀라는 것은 사용자들이 Instagram을 사용하는 방식입니다. 새로운 기능이나 사용 사례에 대한 사용자의 반응을 보는 것은 항상 흥미롭습니다. 이번 연구의 절반은 사용자 반응에 관한 것이고, 나머지 절반은 해당 맥락에서 모델이 어떻게 작동하는지에 관한 것입니다. 그리고 그 결과가 매우 훌륭하다는 것을 알게 될 것입니다.

특히 사용자 조사 환경에서 모델이 잘 응답할 때 자부심을 느낄 수 있습니다. 또한 모델이 의도를 잘못 이해하여 답변이 10페이지까지 올라갔다는 사실을 알게 되면 실망스럽기도 합니다. 따라서 이러한 환경의 불확실성에 대해 '선(禪)'적인 마음가짐을 갖고, 통제 의식을 내려놓고 앞으로 일어날 일을 받아들이는 방법을 배우는 것이라고 할 수 있습니다.

AI 기술의 빠른 적응과 교육: 소비자부터 비즈니스 사용자까지

Sarah: 두 분 모두 이러한 소비자 경험을 설계하는 데 참여하여 수억 명의 사람들에게 새로운 행동을 빠르게 가르쳤습니다. 이러한 AI 제품이 당시보다 훨씬 더 보편화되고 있고, 제품 관리자와 기술자가 이러한 기술을 사용하는 방법에 대한 직관이 부족한 상황에서 최종 사용자를 교육하는 방법에 대해 어떻게 생각하시나요? 여러분이 다루고 있는 것의 규모가 너무 방대하고 이러한 기술은 매우 직관적이지 않습니다.

Kevin: 우리가 얼마나 빨리 적응하는지 놀랍습니다. 얼마 전 누군가와 웨이모(무인 자동차)를 처음 타본 경험에 대해 이야기하고 있었어요. 웨이모 차량에 탑승해 보신 적이 있으신가요? 아직 웨이모를 타보지 않으셨다면 샌프란시스코에서 웨이모를 타고 어디든 가보세요. 놀라운 경험이 될 것입니다. 처음 30초 동안은 "세상에, 자전거 타는 사람 조심해"라는 생각이 들다가 5분 후에는 "세상에, 내가 미래에 살고 있구나"라는 생각이 들었다고 하더군요. 하지만 10분이 지나면 지루해서 휴대전화를 보고 있죠.

우리는 이 절대적인 마법에 얼마나 빨리 익숙해졌는지 모릅니다. 이 현상은 2년도 채 되지 않은 ChatGPT에서도 발생하는데, 당시에는 정말 충격적이었습니다. 이제 돌아가서 원래 GPT 버전 3.5를 사용한다면 모두가 끔찍하게 느낄 것입니다.

Sarah: 모두가 바보 같다고 할 것입니다.

Kevin: 지금 우리가 하고 있는 일과 여러분이 하고 있는 일이 모두 마법처럼 느껴진다는 것을 전에는 어떻게 생각했을까요? 12개월 후에는 이 분야가 이렇게 빠르게 진화하고 있다는 사실을 믿지 못하게 될 것입니다. 더욱 놀라운 것은 사람들이 얼마나 빨리 적응하고 있는지에 대한 것입니다. 저희는 사람들이 보조를 맞추도록 최선을 다하고 있지만, 많은 사람들이 흥분하고 있기 때문입니다.사람들은 세상이 그 방향으로 움직이고 있다는 것을 이해하고 있으며, 우리는 가능한 최선의 방향으로 움직이기 위해 할 수 있는 일을 해야 합니다. 이미 일어나고 있으며 매우 빠르게 진행되고 있습니다.

Mike: 현재 개선하고자 하는 것 중 하나는 제품을 말 그대로 교육용 도구로 만드는 것인데, 이는 초창기에는 하지 않았던 일이었고, 지금은 Claude가 스스로 학습하는 방향으로 바뀌고 있습니다. 이전에는 Anthropic에서 만든 AI입니다, 학습 세트에 무엇이 포함되어 있습니다 등을 설명했지만 이제는 말 그대로 "이 기능을 사용하는 방법은 다음과 같습니다."라고 말합니다. 사용자 연구에 따르면 사람들은 "이 기능을 어떻게 사용하나요?"라고 묻는 것으로 나타났습니다. 그러면 Claude는 "글쎄요, 온라인에서 찾아보셨나요?"라고 대답할 수 있습니다. 이 대답은 전혀 도움이 되지 않는다고 생각할 수 있습니다.

이제 실제 애플리케이션에 적용하려고 합니다. 이제 우리가 할 수 있는 일은 "여기 문서 링크가 있고 단계는 다음과 같습니다. 제가 도와드리겠습니다."라고 말하는 것입니다. 이러한 모델은 실제로 UI 문제와 사용자 혼란을 해결하는 데 매우 효과적이며, 이러한 문제를 해결하는 데 더 많이 사용해야 합니다.

Sarah: 조직의 변화 관리와 관련해서는 상황이 달라져야 하겠죠? 기존에는 기존의 업무 방식과 조직 프로세스가 있었으니까요. 그렇다면 조직 전체를 교육하고 생산성 향상이나 기타 변화에 대비할 수 있도록 돕는 방법은 무엇일까요?

Mike: 이러한 제품에는 수백만 명의 사용자가 있지만 핵심 사용자의 대부분은 여전히 얼리어답터와 기술에 관심이 있는 사람들이며, 그 다음에는 긴 꼬리의 사용자가 있기 때문에 엔터프라이즈 측면이 정말 흥미롭습니다. 그리고 엔터프라이즈에 들어가면 조직에 제품을 배포하게 되는데, 일반적으로 기술에 익숙하지 않은 사람들이 있습니다. 이러한 비기술적인 사용자들이 채팅 기반 LLM을 처음 접하고 그들이 어떻게 반응하는지 볼 수 있다는 것은 정말 멋진 일입니다. 따라서 몇 가지 교육 세션을 진행하고, 사용법을 가르치고, 교육 자료를 제공할 수 있는 기회가 있습니다. 이러한 사례에서 교훈을 얻은 다음 다음 1억 명에게 이러한 기술을 사용하는 방법을 가르치는 방법을 결정해야 합니다.

Kevin: 이러한 사용자 인터페이스에는 보통 다른 사람들에게 사용법을 가르치고 싶어하는 핵심 사용자가 있습니다. 예를 들어, OpenAI에는 사용자 지정 GPT가 있으며 조직에서는 일반적으로 수천 개의 GPT를 만듭니다. 이는 핵심 사용자가 AI 사용법을 모르는 사람들에게 더 쉽고 즉각적인 가치를 제공할 수 있는 무언가를 만들 수 있는 기회를 제공합니다. 실제로 에반젤리스트가 될 핵심 사용자 그룹을 찾을 수 있는 멋진 장소이기도 합니다.

Sarah: 이 질문을 해야 하는 이유는 기본적으로 조직이 핵심 사용자이기 때문에 여러분은 자신만의 작은 미래 세계에 살고 있기 때문입니다. 질문이 있지만 대답하기 싫으시면 제게 지시해 주세요. 마이크, 컴퓨터로 무엇을 하나요? 여러분은 모두 무엇을 하나요?

Mike: 내부적인 관점에서 보면, 앞서 Kevin이 '언제쯤 완성될까'에 대해 언급했듯이, 아직 초기 단계이고 실수가 있을 수 있지만 어떻게 하면 최대한 좋은 제품을 만들 수 있을지에 대해 매우 확신하는 시기가 있었죠.

가장 흥미로운 사용 사례 중 하나는 테스트를 진행하던 중 누군가 AI가 피자를 주문할 수 있는지 확인해보고 싶다는 요청을 받았을 때였습니다. 실제로 피자를 주문했고 모든 것이 순조롭게 진행되어 피자가 사무실로 배달되었습니다. 비록 도미노피자(특별히 고급 피자는 아니었지만)였지만 전반적으로 AI가 주문한 피자였기 때문에 멋진 순간, 말하자면 상징적인 순간이었습니다. 그런 순간은 정말 흥미롭습니다. 물론 피자는 약간 과잉 주문이었고 저는 피자를 먹기 위해 배가 고팠을 것입니다.

이제 정말 흥미로운 초기 사용 사례가 몇 가지 발견되고 있는데, 그 중 하나가 바로 UI 테스트입니다. Instagram에서는 UI 테스트가 거의 없었는데, 작성하기 어렵고 취약하며 버튼의 위치가 바뀌는 등의 이유로 실패하는 경우가 많아서 많은 부분을 다시 작성해야 했기 때문입니다. 이제 컴퓨터는 "예상대로 작동하는가", 즉 기본적으로 "원하는 대로 작동하는가"라는 UI 테스트를 수행하는 데 매우 효과적입니다. 매우 흥미롭군요.

우리가 탐구하기 시작한 또 다른 방향은 많은 데이터 처리를 필요로 하는 지능형 에이전트 애플리케이션입니다. 예를 들어, 지원 및 재무팀에서는 원래 많은 PR 양식이 매우 지루하고 반복적이며, 한 데이터 소스에서 데이터를 가져와 다른 데이터 소스에 입력하는 데 많은 수작업 시간이 소요되었습니다. 저는 컴퓨터 사용에 대해 이야기할 때마다 '무거운 작업'이라는 용어를 사용합니다. 우리는 이러한 지루한 작업을 자동화하여 사람들이 각 작업을 30번씩 클릭하는 대신 더 창의적인 일에 집중할 수 있도록 하고자 합니다.

Sarah: 케빈, 저희는 여러 팀과 함께 GPT o1 모델을 실험하고 있습니다. 물론 더 복잡한 작업을 수행할 수 있습니다. 하지만 이미 애플리케이션에서 GPT-4와 같은 모델을 사용하고 있다면 단순히 일대일 대체용으로 사용할 수는 없습니다. 이에 대한 지침을 알려주실 수 있나요? 내부적으로 어떻게 사용하시나요?

Kevin: 많은 사람들이 깨닫지 못하는 한 가지 사실은, 실제로 일부 고급 고객과 내부적으로 수행하는 작업은 실제로 모델을 사용하는 것이 아니라는 점입니다.결국 모델을 결합하여 워크플로우와 조정 메커니즘을 구성하게 됩니다. 따라서 각 모델이 뛰어난 영역에 따라 각 모델을 사용하게 됩니다. GPT o1 모델은 추론에 매우 능숙하지만 생각하는 데 시간이 걸리고 멀티모달이 아니며 물론 다른 제한 사항도 있습니다.

Sarah: 추론은 이 그룹의 근본적인 문제라고 생각합니다.

Kevin: 예, '확장된 사전 교육'이라는 개념에 대해 잘 알고 계실 것입니다. GPT2, 3, 4, 5 등의 버전으로 시작하여 점점 더 큰 규모의 사전 학습을 수행합니다. 모델은 점점 더 "똑똑해집니다." 즉, 점점 더 많은 것을 알게 되지만 텍스트 완성과 같이 질문을 하면 바로 답을 제공하는 시스템 1 사고와 비슷해집니다.

Sarah: 예, 지금 질문하면 결과를 차례로 출력하고 계속 진행합니다.

Kevin: 실제로 다른 사람들이 어떻게 작동하는지에 대한 인간의 직관이 많은 모델의 작동 방식을 추측하는 데 도움이 될 수 있다고 생각하지 않나요? 질문을 하다가 주제를 벗어나 엉뚱한 문장으로 넘어갈 수도 있는데, 이 경우 회복하기 어렵죠. 실제로 모델들에게도 그런 일이 일어날 수 있습니다. 따라서 이러한 종류의 사전 학습이 필요합니다. GPT O1 모델은 실제로 인텔리전스를 확장하는 다른 방식이며 쿼리 시점에 수행됩니다. 따라서 질문을 하면 바로 답을 주는 시스템 1의 사고 방식과 달리 질문을 하면 잠시 멈춥니다.

스도쿠를 풀고 뉴욕 타임즈 점 잇기 게임을 하라고 하면 이 단어들이 어떻게 그룹화되어 있는지 생각해보고, 이 네 단어가 맞을 수도 있고 아닐 수도 있다고 생각할 것입니다. ...... 이미 알고 있는 것을 바탕으로 가설을 세우고, 그 가설을 검증하거나 확인하면서 계속 추론하게 됩니다. 이것이 바로 과학적 혁신이 일어나고 어려운 질문에 답하는 방법이며, 모델에게 무엇을 해야 하는지 가르치는 것입니다. 지금은 30초에서 60초 동안 생각한 다음 대답합니다. 만약 그들이 5시간 또는 5일 동안 생각할 수 있다면 어떤 일이 일어날지 상상해 보세요.

따라서 인텔리전스를 확장하는 완전히 새로운 방식이며, 이제 막 시작 단계에 들어선 것 같습니다. 이제 우리는 이 새로운 유형의 추론의 GPT1 단계에 있습니다. 하지만 언제나 그렇듯 모델이 모든 것을 해결해 주는 것은 아니죠? 가끔은 질문을 할 때 60초를 기다리지 않고 바로 대답해 주길 원할 때도 있죠. 그래서 우리는 다양한 방식으로 모델을 함께 사용하게 됩니다.

예를 들어 사이버 보안은 모델이 적용되지 않는다고 생각할 수 있는 영역입니다. 환각을 일으킬 수 있어 환각에 적합하지 않은 영역처럼 보이지만 특정 작업에 적합하도록 모델을 미세 조정할 수 있습니다. 그런 다음 입력과 출력의 종류를 매우 정확하게 파악하도록 모델을 미세 조정한 다음 해당 모델이 함께 작동하도록 할 수 있습니다. 모델이 다른 모델의 출력을 확인하여 잘못된 것을 깨닫고 다시 시도하도록 요청할 수 있습니다.따라서 궁극적으로 모델을 함께 운영하고 특정 작업을 위해 협업함으로써 모델에서 큰 가치를 얻을 수 있습니다. 이는 마치 사람이 복잡한 작업을 수행할 때 서로 다른 기술을 가진 사람들이 협업을 통해 어려운 작업을 완수하는 것과 비슷합니다.

AI의 미래 예측: 능동성, 비동기식 상호 작용, 개인화된 경험

Sarah: 미래와 앞으로 나올 것에 대해 말씀해 주셔야 합니다. 출시일을 알려주실 필요는 없고, 모르시는 건 이해하지만 멀리 내다보면 지금 AI 분야를 가장 멀리 볼 수 있는 것은 아마도 ...... 입니다. 여러분이 미래를 내다볼 수 있다면 알려주세요. 하지만 6개월 또는 12개월 후라고 가정했을 때 어떤 경험이 어떤 모습일지, 어떤 경험이 가능해지거나 보편화될지 상상해 보시나요?

Mike: 저는 항상 이에 대해 생각하는데, 아마도 모든 사람의 마음속에 씨앗을 심는 두 가지 단어가 있을 것입니다. 첫 번째는 '능동성'으로, 어떻게 하면 모델이 더 능동적으로 행동할 수 있을까요? 예를 들어, 사용자와 친해져서 일부 정보를 모니터링하기 시작하면(사용자가 이를 승인했다고 가정할 때) 방해가 되지 않고 유용한 방식으로 이메일을 읽고 흥미로운 트렌드를 발견할 수 있습니다. 또는 하루를 시작할 때 오늘 무슨 일이 있었는지, 어떤 대화에 참여할 수 있는지 등 원치 않는 요약을 제공할 수도 있습니다. 제가 여러분을 위해 몇 가지 조사를 해봤는데, 다음 회의가 다가오면 이런 이야기를 하고 싶으실 것 같습니다. 예정된 프레젠테이션이 있는 것으로 알고 있는데, 제가 준비한 초안의 첫 번째 버전입니다. 이와 같은 이니셔티브는 앞으로 매우 강력한 힘을 발휘할 것입니다.

다른 측면은 보다 "비동기적"이어야 한다는 것입니다. o1 모델은 현재 이 탐색 단계의 초기 인터페이스이지만 많은 일을 할 수 있고 진행하면서 무엇을 할 것인지 알려줄 것입니다. 여기서 기다릴 수도 있지만 "잠시 생각해보고 다른 일을 하다가 나중에 다시 돌아오거나, 완료되면 알려줄 것"을 선택할 수도 있습니다. 이는 시간의 차원을 확장하는 것과 같으며, 단순히 질문을 하지 않은 것이 아니라 적극적으로 무언가를 알려주는 것이므로 흥미로울 것입니다. 또한 질문을 할 때 "알았어, 가서 생각해보고 조사를 좀 해볼게, 다른 사람에게 물어봐야 할 것 같아, 내가 1차 답변을 해줄게, 그리고 그 답변을 한 번 더 확인해서 한 시간 후에 다시 연락할게"라고 말할 수도 있습니다.

즉시 답을 얻어야 한다는 제약이 사라졌습니다. 이를 통해 "확장할 프로젝트 계획이 있어요" 또는 "화면의 한 곳만 변경해 달라는 것이 아니라 새로운 시장 상황에 맞게 PRD를 조정하거나 이 세 가지 새로운 조정할 수 있게 해 주세요."이러한 측면에서 변화를 주도할 수 있다는 점이 개인적으로 제품 측면에서 가장 기대되는 부분입니다.

Kevin: 네, 모든 지적에 전적으로 동의합니다. 모델은 더 빠른 속도로 더 스마트해질 것입니다. 이것이 이 모든 것을 가능하게 하는 힘의 일부입니다. 또 다른 흥미로운 점은 모델이 우리 인간처럼 상호작용할 수 있다는 것입니다. 현재 대부분의 경우 타이핑을 통해 이러한 모델과 상호 작용하고 있으며, 저도 WhatsApp 및 기타 플랫폼에서 많은 친구들과 타이핑을 통해 소통하는 경우가 많습니다. 하지만 저는 대화도 하고 사물을 볼 수도 있습니다. 최근에는 고급 음성 모델을 도입했습니다. 한국과 일본에 있는 사람들과 대화를 나누다 보면 제 언어를 전혀 이해하지 못하는 사람과 대화하는 경우가 많았어요. 그 전에는 서로 의사소통이 전혀 되지 않았어요. 그런데 지금은 "ChatGPT, 네가 통역 역할을 해줘. 내가 영어로 말하면 한국어로 번역해주고, 한국어를 들으면 영어로 말해줘"라고 말하죠. 갑자기 비즈니스 대화를 위한 만능 통역기가 생겼습니다. 마법처럼 느껴졌죠.

이 기술이 비즈니스 상황뿐만 아니라, 더 이상 같은 언어를 사용하지 못하는 것에 대해 걱정할 필요가 없고 스타트렉 유니버설에 나오는 것과 같은 범용 번역기가 주머니에 있다면 사람들이 얼마나 더 새로운 곳을 여행할 의향이 있을지 상상해 보세요. 이러한 경험은 미래에는 보편화되겠지만 여전히 마법 같은 일이며, 방금 마이크가 말한 모든 기술과 결합된 이 기술에 대해 매우 기대가 됩니다.

Sarah: 요즘 제가 가장 좋아하는 취미 중 하나는 젊은이들이 음성 모드로 대화하고 온갖 방법을 동원해 진심을 쏟아내는 동영상인 틱톡 동영상을 보는 것인데, 이를 보면 '디지털 네이티브' 또는 '모바일 네이티브'라는 옛 용어가 떠오르기도 하고, 기분이 좋아집니다. '디지털 네이티브' 또는 '모바일 네이티브'라는 오래된 용어가 생각납니다. 저도 인공지능을 믿기는 하지만 이런 식으로 상호작용을 하게 될 줄은 몰랐어요. 하지만 14살짜리 아이들은 제가 AI로 이걸 할 수 있다고 생각할 겁니다.

Kevin: 자녀에게 사용해 본 적이 있나요?

Sarah: 아직 안 해봤어요, 제 아이들은 이제 5살과 7살이에요.

Kevin: 하지만 저희는 꼭 한번 사용해 보려고 합니다. 제 아이들은 8살과 10살인데 운전 중에 "ChatGPT와 대화해도 돼요?"라고 자주 묻습니다. 그러면 아이들은 이상한 질문을 하고 AI와 엉뚱한 대화를 나누기도 하지만, AI와 대화하는 것을 전혀 꺼려하지 않아요.

Sarah: 사실 제가 가장 좋아하는 경험 중 하나이며, 최근에 본 가장 놀라운 행동(아이든 다른 사람이든)이 무엇인지 묻는 것으로 이 글을 마무리해도 될 것 같습니다. 제가 책을 고를 수 있으면 좋지만, 그렇지 않으면 아빠가 "내가 관심 있는 물리학 책을 읽어줄게요"라고 말하죠. 이것이 베이 지역의 육아 방식인지는 모르겠지만 아이들은 "좋아요, 엄마, 제대로 된 그림을 그려주세요. 용과 유니콘에 관한 이야기를 하고 싶은데, 그런 맥락에서 어떻게 될지 알려줄게요."라고 말합니다. 그러면 그 이야기는 실시간으로 만들어집니다. 큰 부탁이라고 생각하지만, 이런 식으로 자신만의 엔터테인먼트 콘텐츠를 만든다는 것은 정말 대단한 일입니다. 그렇다면 최근 제품에서 가장 놀라웠던 행동은 무엇이었나요?

Mike: 그것은 행동이자 관계입니다. 사람들은 클로드나 방금 설명한 새로운 모델의 뉘앙스를 이해하기 시작했습니다. 그들은 뉘앙스를 이해합니다. 그 행동은 마치 친구를 사귀거나 무슨 일이 일어나고 있는지 양방향 공감을 형성하는 것과 비슷합니다. 그러다가 "새 모델은 더 똑똑해 보이지만 조금은 거리감이 느껴진다"고 생각했습니다. 바로 그 뉘앙스입니다. 제품으로서 사람들이 우리 제품을 사용할 때 갖는 사고방식에 대해 더 많이 공감할 수 있게 되었습니다. 단순히 제품을 출시하는 것이 아니라 지혜와 공감을 출시하는 것이기 때문에 관계가 중요합니다. 누군가 와서 "업그레이드해서 수학 점수가 21점이나 올랐어요."라고 말하는데, 제가 어떤 면에서 달라졌다면 조금은 적응해야 하고 조금은 걱정해야 한다고 생각할 것입니다. 사람들이 우리 제품을 사용할 때의 마음가짐을 이해하는 것은 저에게 흥미로운 여정이었습니다.

Kevin: 예. 모델의 행동은 분명히 제품 페르소나의 일부입니다. 모델의 개성은 매우 중요하며 다음과 같은 흥미로운 문제가 있습니다. 얼마나 사용자 지정해야 하는지 등 아니면 OpenAI는 획일적인 성격을 가지고 있고 클로드는 자신만의 독특한 성격을 가지고 있다면 사람들은 특정 성격을 좋아하기 때문에 모델을 사용할까요? 이것은 사실 매우 인간적인 현상입니다. 우리는 서로 다른 사람을 좋아하기 때문에 서로 다른 사람들과 친구를 사귀게 됩니다. 생각해 보면 흥미로운 주제입니다. 최근에 저희가 한 일이 있었는데 트위터에서 빠르게 퍼져나갔어요. 사람들이 모델에게 "당신이 나에 대해 알고 있는 것과 과거의 모든 상호 작용을 바탕으로 나를 어떻게 묘사하겠습니까?"라고 질문하기 시작했습니다. 그러면 모델은 과거의 모든 상호 작용을 바탕으로 자신이 생각하는 설명을 제공했습니다. 마치 마치 사람이나 실체처럼 모델과 어떤 식으로든 상호작용을 시작하는 것과 같습니다. 사람들이 이에 어떻게 반응하는지 보는 것은 매우 흥미롭습니다.