원본 텍스트:개방형 월드에서 일반 가능 에이전트 [S62816]
1. 반사적 지능
- 직접 생성한 코드 또는 콘텐츠를 확인 및 수정하고 반복적으로 최적화하는 기능
- 자기 성찰과 수정을 통해 더 높은 품질의 결과물을 생성할 수 있습니다.
- 다양한 애플리케이션에 적합한 강력하고 효과적인 기술입니다.
2. 도구적 지능의 사용
- 다양한 도구를 사용하여 정보를 수집하고 분석하고 조치를 취할 수 있어 활용 범위가 넓어집니다.
- 도구 사용에 대한 초기 연구는 주로 언어 모델이 아직 이미지를 처리할 수 없었던 컴퓨터 비전 분야에서 시작되었습니다.
3. 계획 인텔리전스
- 업무 목표에 따라 자율적으로 계획을 수립하고 실행하는 놀라운 능력을 보여줍니다.
- 단계가 실패할 경우, 어느 정도의 자율성과 적응력을 가지고 실패를 피하기 위해 경로를 재설정하는 기능입니다.
- 아직 완전히 신뢰할 수 있는 것은 아니지만, 작동하면 꽤 놀랍습니다.
4. 협업 다중 지능
- 서로 다른 역할을 가진 지능을 설정하고 함께 작업하여 작업을 완료하도록 하면 단일 지능보다 더 강력한 능력을 발휘할 수 있습니다.
- 다중 지능은 복잡한 개발 또는 창의적인 작업을 수행하기 위해 심도 있는 대화와 분업에 참여할 수 있습니다.
- 또한 여러 지능이 토론할 수 있으므로 모델의 성능을 향상시키는 효과적인 방법입니다.
저는 AI 개발에 관련된 모든 사람들이 주목해야 할 흥미로운 트렌드인 AI 지능에 대한 저의 연구 결과를 공유할 수 있기를 기대합니다. 또한 앞으로 발표될 모든 '미래 트렌드'에 대해서도 기대가 됩니다.
이제 AI 인텔리전스에 대해 이야기해 보겠습니다. 대부분의 사람들이 빅 언어 모델링을 사용하는 방식은 지능이 없는 워크플로우를 통해 프롬프트를 입력한 다음 답변을 생성하는 것과 같습니다. 누군가에게 특정 주제에 대한 글을 써달라고 요청하면 키보드 앞에 앉아 백스페이스 없이 한 번에 입력하라고 말하는 것과 비슷합니다. 이 작업의 난이도에도 불구하고 대규모 언어 모델은 놀라울 정도로 잘 작동합니다.
반대로 AI 지능을 사용하는 워크플로는 다음과 같이 보일 수 있습니다. AI 또는 대규모 언어 모델에 기사의 개요를 작성하게 하세요. 온라인에서 무언가를 찾아야 하나요? 필요하다면 찾아보세요. 그런 다음 초고를 작성하고 직접 작성한 초고를 읽고 어떤 부분을 수정해야 할지 생각해 보세요. 그런 다음 첫 번째 초안을 수정하고 계속 진행합니다. 따라서 이 워크플로는 반복적이며, 큰 언어 모델을 통해 몇 가지 생각을 한 다음 글을 수정하고, 다시 한 번 더 생각하는 식으로 진행됩니다. 이렇게 하면 결과가 더 좋아진다는 사실을 깨닫는 사람은 거의 없습니다. 저는 이러한 인공지능의 워크플로우의 결과에 스스로 놀랐습니다.
사례 연구를 해보겠습니다. 저희 팀은 몇 년 전 OpenAI에서 발표한 인간 평가 벤치마크라는 프로그래밍 벤치마크를 사용하여 몇 가지 데이터를 분석했습니다. 이 벤치마크는 비어 있지 않은 정수 목록이 주어졌을 때 모든 홀수 요소 또는 홀수 위치에 있는 요소의 합을 찾는 것과 같은 프로그래밍 문제로 구성되어 있습니다. 정답은 다음과 같은 코드 스니펫일 수 있습니다. 이제 많은 사람들이 제로 샘플 힌트, 즉 AI에게 코드를 작성하도록 지시한 다음 한 번에 실행하도록 하는 방법을 사용합니다. 누가 그렇게 프로그래밍할까요? 아무도 하지 않습니다. 그냥 코드를 작성한 다음 실행하면 되죠. 당신은 그렇게 할 수 있을지도 모르죠. 전 못해요.
실제로 제로 샘플 큐잉에 GPT 3.5를 사용하면 481 TP3 T를 얻지만, GPT-4는 671 TP3 T로 훨씬 더 잘 수행합니다. 하지만 GPT 3.5 위에 AI 지능 워크플로우를 구축하면 GPT-4보다 훨씬 더 잘 수행할 수 있습니다. 이 워크플로우를 GPT-4에 적용하면 결과도 매우 좋습니다. AI 인텔리전스 워크플로우가 포함된 GPT 3.5가 실제로 GPT-4보다 더 우수하다는 것을 알 수 있으며, 이는 애플리케이션 구축 방식에 큰 영향을 미칠 것임을 의미합니다.
AI 인텔리전스라는 용어는 널리 논의되고 있으며, AI 인텔리전스, AI의 미래 등에 대해 논의하는 컨설팅 보고서도 많이 있습니다. 저는 AI 인텔리전스에서 볼 수 있는 몇 가지 일반적인 디자인 패턴을 좀 더 실질적으로 여러분과 공유하고자 합니다. 많은 연구와 수많은 오픈 소스 프로젝트가 있는 복잡하고 혼란스러운 분야입니다. 많은 일이 진행되고 있습니다. 하지만 저는 AI 인텔리전스에서 어떤 일이 일어나고 있는지에 대해 보다 관련성 높은 개요를 제공하려고 합니다.
성찰은 우리 대부분이 사용해야 하는 도구라고 생각합니다. 실제로 효과가 있습니다. 더 널리 사용되어야 한다고 생각합니다. 정말 강력한 기술입니다. 저는 이 도구를 사용할 때 항상 효과가 있습니다. 기획 및 다중 지능 협업은 새롭게 떠오르는 분야라고 생각합니다. 저는 이 기술을 사용할 때면 가끔씩 얼마나 잘 작동하는지 놀랄 때가 있습니다. 하지만 적어도 현재로서는 항상 일관되게 작동하도록 할 수 있을지 확신할 수 없습니다. 다음 몇 개의 슬라이드에서 이 네 가지 디자인 패턴에 대해 더 자세히 살펴보겠습니다. 여러분 중 누구라도 돌아가서 직접 시도해 보거나 엔지니어에게 이러한 패턴을 사용하도록 한다면 생산성이 매우 빠르게 향상되는 것을 볼 수 있을 것입니다.
리플렉션과 관련하여 예를 들어보겠습니다. 시스템에 작업을 코딩해 달라고 요청한다고 가정해 봅시다. 그런 다음 프로그래밍 인텔리전스가 작업을 코딩하라는 프롬프트(예: 작업을 수행하는 함수를 정의하고, 그런 함수를 작성하세요)를 제공합니다. 자기 성찰의 예는 다음과 같이 큰 언어 모델에 프롬프트할 수 있다는 것입니다. 다음은 특정 작업을 위해 작성된 코드입니다. 그런 다음 방금 생성한 것과 똑같은 코드를 다시 제시하세요. 그런 다음 다음과 같은 질문을 하면서 이 코드가 정확하고 효율적이며 잘 구조화되어 있는지 면밀히 검토하도록 요청합니다. 그 결과 이전에 코드에 대해 질문했던 것과 동일한 큰 언어 모델이 5줄의 버그와 같은 문제를 발견하고 수정할 수 있음을 알 수 있습니다. 등등. 이제 다시 자체 피드백을 제시하면 첫 번째 버전보다 성능이 더 좋은 두 번째 버전의 코드가 생성될 수 있습니다. 보장은 없지만 대부분의 경우 이 접근 방식은 많은 애플리케이션에서 시도해 볼 가치가 있습니다. 이 사실을 미리 알려주고 단위 테스트를 실행하도록 요청하고 단위 테스트를 통과하지 못하면 왜 통과하지 못했는지 물어볼 수 있습니다. 이 대화를 통해 단위 테스트를 통과하지 못한 이유를 파악할 수 있으므로 무언가를 변경하고 V3 버전의 코드를 생성해야 합니다. 이런 기법에 대해 더 자세히 알고 싶은 분들을 위해 이번 발표를 준비했습니다. 프레젠테이션의 각 부분에 대해 더 많은 참고 자료를 제공하기 위해 하단에 몇 가지 권장 읽을거리를 포함했습니다.
다시 한 번 말씀드리지만, 다중 지능형 바디 시스템을 미리 살펴보기 위해 프로그래밍 지능형 바디에 대해 설명하겠습니다. 이 아이디어의 자연스러운 진화는 하나의 프로그래밍 지능 대신 프로그래밍 지능과 검토 지능이라는 두 개의 지능을 설정할 수 있다는 것입니다. 이들은 모두 동일한 큰 언어 모델을 기반으로 하되, 단서를 제공하는 방식만 다를 수 있습니다. 한 쪽에서는 '당신은 프로그래밍 전문가이니 코드를 작성하세요'라고 말합니다. 다른 쪽에서는 "당신은 코드 리뷰 전문가이니 이 코드를 검토해 주세요"라고 말할 수 있습니다. 실제로 구현하기 매우 쉬운 워크플로입니다. 다양한 워크플로우에 적용할 수 있는 매우 다재다능한 기술이라고 생각합니다. 빅 언어 모델의 성능을 크게 향상시킬 수 있습니다.
두 번째 디자인 패턴은 도구를 사용하는 것입니다. 많은 분들이 대규모 언어 모델에 기반한 시스템이 도구를 사용하는 방식을 보셨을 것입니다. 왼쪽은 부조종사의 스크린샷이고 오른쪽은 GPT-4에서 가져온 것의 일부입니다. 그러나 오늘날의 대규모 언어 모델에 웹 검색에 가장 적합한 복사기가 무엇인지와 같은 질문에 대한 답변을 요청하면 코드를 생성하고 실행합니다. 실제로 많은 사람들이 분석을 수행하고, 정보를 수집하고, 조치를 취하고, 개인의 효율성을 개선하기 위해 사용하는 다양한 도구가 있습니다.
도구 사용에 대한 초기 연구의 대부분은 컴퓨터 비전 커뮤니티에서 이루어졌습니다. 대규모 언어 모델이 등장하기 전에는 이미지를 처리할 수 없었기 때문입니다. 따라서 유일한 옵션은 이미지를 생성하거나 객체 감지를 수행하는 등 이미지를 조작할 수 있는 함수를 대규모 언어 모델에 생성하도록 하는 것이었습니다. 따라서 문헌을 자세히 살펴보면 도구 사용에 대한 많은 연구가 비전 분야에서 시작된 것으로 보이는데, GPT-4와 LLaVA 등이 등장하기 전에는 빅 언어 모델이 이미지에 대해 아무것도 몰랐기 때문입니다. 바로 여기에서 도구 사용이 시작되었고 빅 언어 모델의 적용 범위가 확장되었습니다.
다음은 계획입니다. 아직 플래닝 알고리즘에 대해 자세히 알아보지 않은 분들을 위해 많은 분들이 ChatGPT 충격적인 순간, 전에 본 적 없는 무언가의 느낌. 아마 여러분은 기획 알고리즘을 사용해 보지 않으셨을 겁니다. 인공지능이 이렇게까지 잘할 수 있을 줄은 몰랐다고 감탄하실 분들이 많을 겁니다. 저는 무언가 실패하면 AI 지능이 실패를 피하기 위해 경로를 다시 계획하는 라이브 시연을 한 적이 있습니다. 실제로 제가 직접 개발한 AI 시스템의 자율성에 깜짝 놀란 적이 몇 번 있었습니다.
저는 GPT 모델에 관한 논문의 예시를 적용했는데, 예를 들어 이미지에 있는 소년과 같은 포즈로 책을 읽는 소녀의 이미지(예: example.jpeg)를 생성하도록 한 다음 새 이미지에서 소년을 묘사하도록 할 수 있습니다. 기존 AI 인텔리전스를 사용하여 먼저 소년의 포즈를 결정한 다음 플랫폼 HuggingFace에서 포즈를 추출할 수 있는 적합한 모델을 찾을 수 있습니다. 그런 다음 이미지를 후처리하고 지침에 따라 소녀의 사진을 합성한 다음 이미지에서 텍스트로, 마지막으로 텍스트에서 음성으로 변환하는 기술을 사용하는 모델을 찾아야 합니다.
현재 우리는 수많은 인공지능을 보유하고 있으며, 항상 신뢰할 수 있는 것은 아니며 때로는 다소 번거롭고 항상 작동하는 것은 아니지만, 작동할 때 그 결과는 매우 놀랍습니다. 이러한 지능적인 신체 주기 설계를 통해 때로는 이전의 실패를 복구할 수도 있습니다. 저는 연구가 필요하지만 직접 검색하는 데 많은 시간을 소비하고 싶지 않은 일부 작업에서 이와 같은 연구 지능을 사용하기 시작했습니다. 저는 리서치 인텔리전스에게 과제를 주고 잠시 후에 다시 돌아와서 리서치 인텔리전스가 무엇을 찾았는지 확인합니다. 때로는 유효한 결과를 찾을 때도 있고 그렇지 않을 때도 있습니다. 하지만 어느 쪽이든 제 개인 워크플로우의 일부가 되었습니다.
마지막 디자인 패턴은 다중 지능 협업입니다. 이 패턴은 이상하게 보일 수 있지만 생각보다 잘 작동합니다. 왼쪽은 완전히 공개되어 있으며 실제로 오픈 소스로 제공되는 프로젝트인 "Chat Dev"라는 논문의 스크린샷입니다. 많은 분들이 소셜 미디어에서 "Devin"내 노트북에서 "Chat Dev"의 데모를 사용할 수 있습니다." Chat Dev"는 소프트웨어 엔지니어링 회사의 CEO, 디자이너, 제품 관리자 또는 테스터 역할을 수행할 수 있는 대규모 언어 모델(LLM)을 설정할 수 있는 다중 지능 시스템의 한 예입니다. LLM에게 자신이 CEO이고 자신이 소프트웨어 엔지니어라고 말하기만 하면 협업과 심도 있는 대화가 시작됩니다. 고모키 게임과 같은 게임을 개발하라고 하면 몇 분 안에 코드를 작성하고, 테스트하고, 반복하고, 놀랍도록 복잡한 프로그램을 생성할 것입니다. 항상 작동하는 것은 아니며 실패한 적도 많지만, 가끔은 얼마나 잘 작동하는지 놀라울 때가 있고 기술은 계속 발전하고 있습니다. 또한 또 다른 디자인 패턴은 서로 다른 지능이 토론하도록 하는 것입니다. ChatGPT와 같은 여러 가지 지능을 가질 수 있고 쌍둥이자리 토론을 하는 것도 성능 향상을 위한 효과적인 패턴입니다. 따라서 여러 개의 시뮬레이션된 AI 지능이 함께 작동하는 것은 매우 강력한 디자인 패턴임이 입증되었습니다.
전반적으로 제가 관찰한 디자인 패턴을 업무에 적용하면 AI 결과를 더 빠르게 개선할 수 있다고 생각합니다. 저는 지능형 신체 추론 디자인 패턴이 중요한 발전이 될 것이라고 생각합니다.
마지막 슬라이드입니다. 올해는 지능형 바디 워크플로우의 영향으로 AI가 할 수 있는 업무가 크게 확대될 것으로 예상합니다. 사람들이 받아들이기 어려울 수 있는 한 가지는 우리가 LLM에 신호를 보내면 즉각적인 응답을 기대한다는 것입니다. 실제로 10년 전 구글에서 '빅 박스 검색'이라는 토론을 할 때 매우 긴 프롬프트를 입력한 적이 있습니다. 웹 검색을 할 때 0.5초 안에 응답을 원하는 것은 인간의 본능이기 때문에 저는 이를 추진하는 데 실패했습니다. 우리는 즉각적인 피드백을 좋아합니다. 하지만 많은 지능형 워크플로우를 위해서는 AI 지능에 작업을 위임하고 인내심을 갖고 몇 분, 심지어 몇 시간 동안 응답을 기다리는 법을 배워야 한다고 생각합니다. 업무를 위임한 후 5분 후에 확인하는 초보 관리자가 많은데 이는 효율적이지 않은 것처럼, 일부 AI 지능에 대해서는 매우 어렵지만 인내심을 갖고 기다려야 합니다. 웃음소리가 들리는 것 같았어요.
또한 토큰 는 이러한 인텔리전트 워크플로우를 계속 반복하면서 중요한 트렌드로 자리 잡았습니다. LLM은 스스로 토큰을 읽고 생성하며, 다른 누구보다 빠르게 토큰을 생성할 수 있다는 것은 대단한 일입니다. 품질이 조금 낮은 LLM에서도 더 많은 토큰을 빠르게 생성할 수 있다면, 품질이 좋은 LLM에서 토큰을 느리게 생성하는 것보다 좋은 결과를 얻을 수 있다고 생각합니다. 이 아이디어는 첫 번째 슬라이드에서 보여드린 GPT-3와 스마트 바디 아키텍처의 결과처럼 프로세스에서 몇 번의 턴이 더 발생할 수 있기 때문에 다소 논란의 여지가 있을 수 있습니다.
솔직히 기대가 됩니다. Claude 4, GPT-5, Gemini 2.0, 그리고 현재 개발 중인 다른 모든 훌륭한 모델들. GPT-5 제로 샘플 학습으로 프로젝트를 실행하려는 경우, 초기 모델에서 지능과 추론을 사용하면 예상보다 빨리 GPT-5 성능 수준에 도달할 수 있을 것으로 보입니다. 저는 이것이 중요한 추세라고 생각합니다.
솔직히 말해서 일반화된 AI로 가는 길은 목적지라기보다는 여정에 가깝지만, 이 지능형 바디 워크플로우가 그 긴 여정의 작은 발걸음을 내딛는 데 도움이 될 수 있다고 생각합니다.
감사합니다.
© 저작권 정책
기사 저작권 AI 공유 서클 모두 무단 복제하지 마세요.
관련 게시물
댓글 없음...