O1은 채팅 모델이 아니며, O1 기능에 적절한 동기를 부여하는 방법을 알려줍니다.

43.6K 00

올바른 방법 O1: 프롬프트를 작성하지 말고, 목표에 집중하여 간략하게 작성하세요: 원하는 내용을 기술하세요.아무것도원하는 것이 아닙니다.어떤 방법o1의 장단점을 알아보세요!

10월에 o1이 출시되고 12월에 o1 프로/o3가 발표된 이후, 많은 사람들이 긍정적이든 부정적이든 이에 대한 인식을 이해하기 위해 고군분투했습니다. 저희는 o1 Pro에 대한 정서가 최저점을 찍었을 때 매우 긍정적인 입장을 취했고, OpenAI가 월 2,000달러의 프록시 상품(향후 몇 주 내에 출시될 것이라는 소문)을 출시하기 위해 무엇이 필요한지 파악했습니다. 그 이후로 o1은 모든 LMArena 차트 1위는 꾸준히 유지되고 있습니다.

그 이후로 그는 Dawn Analytics를 시작했고, 처음에는 시끄러운 회의론자였지만 점차 일상적인 사용자가 되어 o1에 대한 여과되지 않은 생각을 계속 게시하고 있습니다. 사람들이 채팅 모드에서 추론의 새로운 세계로 전환하기 위해 고군분투하고, 한 달에 수백 달러를 들여 전문 AI 제품(지금은 GA)을 사용하는 것과 같은 대화가 전 세계 곳곳에서 일어나고 있다고 생각합니다))). 저희의 생각은 이렇습니다.

어떻게 o1을 싫어하던 제가 가장 중요한 문제를 해결하는 데 매일 사용하게 되었나요?

사용법을 배웠습니다.

o1 프로가 출시되었을 때 저는 주저하지 않고 구독을 신청했습니다.월 200달러의 가격표를 정당화하기 위해서는 한 달에 1~2시간의 엔지니어 시간만 제공하면 됩니다.

하지만 모델을 작동시키기 위해 노력한 끝에 다음과 같은 결론을 내렸습니다.쓰레기입니다..

질문할 때마다 5분을 기다려야 하고, 원치 않는 아키텍처 다이어그램과 장단점 목록이 포함된 모순된 횡설수설이 많이 나옵니다.

o1 내 질문에 답하고 여러 번 스스로 모순되는 답변을 하세요.

물론 출시 후 사람들은 OpenAI에 열광하는 경우가 많습니다(이는 부정적인 리뷰 다음으로 입소문을 내기 위한 두 번째로 좋은 전략입니다).

하지만 이러한 인식은 어려운 상황에 처한 사람들에게서 나온 것이기 때문에 느낌이 다릅니다.

제 의견에 동의하지 않는 사람들과 이야기를 나눌수록 제가 완전히 틀렸다는 것을 깨달았습니다:

저는 o1을 채팅 모델처럼 사용하지만 o1은 채팅 모델이 아닙니다.

O1을 올바르게 사용하는 방법

o1이 채팅 모델이 아니라면 무엇인가요?

저는 이를 '보고서 생성기'라고 생각합니다. 충분한 컨텍스트를 제공하고 출력하고자 하는 내용을 알려주면 보통 문제를 한 번에 해결해 줍니다.

참고: OpenAI에서 o1에 대한 제안서를 발표했지만 불완전하다고 생각하며, 어떤 의미에서 이 글은 실제로 o1 및 o1 프로를 사용하기 위한 '누락된 매뉴얼'이라고 생각하시면 됩니다.

1. 프롬프트를 작성하지 말고 간략하게 작성하세요.

충분한 맥락을 제공하세요. 내가 "많이"라고 생각하는 것이 무엇이든 10을 곱하세요.

다음과 같은 애플리케이션을 사용하는 경우 Claude 3.5 소네트나 4o와 같은 채팅을 모델링할 때는 보통 간단한 질문과 약간의 컨텍스트로 시작합니다. 모델에 더 많은 컨텍스트가 필요한 경우 일반적으로 사용자에게 요청하거나 출력에서 분명하게 알 수 있습니다.

원하는 결과물을 얻을 때까지 모델을 수정하고 요구 사항을 확장하면서 반복합니다. 마치 도자기를 만드는 것과 비슷합니다.채팅 모델은 기본적으로 다음과 같은 앞뒤 문맥을 통해 사용자로부터 컨텍스트를 추출합니다.. 시간이 지남에 따라 우리의 문제는 더 빠르고 더 게으르게, 즉 좋은 결과물을 얻으면서도 가능한 한 게으름을 피우게 되었습니다.

o1은 게으름을 문자 그대로 받아들이고 사용자로부터 문맥을 추출하려고 하지 않습니다. 대신 다음을 수행해야 합니다.가능한 한 많은 컨텍스트를 o1에 푸시합니다..

간단한 엔지니어링 질문을 하는 경우에도 마찬가지입니다:

시도했지만 효과가 없었던 모든 사항을 설명하세요.
모든 데이터베이스 스키마의 전체 덤프 추가
회사에서 하는 일과 회사 규모를 설명하고 회사별 용어를 정의합니다.

요컨대, o1을 신입 사원으로 취급하세요. o1의 오류에는 얼마나 추론해야 하는지에 대한 추론이 포함된다는 점에 유의하세요. *때로는 분산이 작업 난이도에 정확하게 매핑되지 않을 수 있습니다. 예를 들어, 작업이 정말 정말 쉬운 경우 뚜렷한 이유 없이 추론의 토끼굴에 빠지는 경우가 많습니다.참고: o1 API를 사용하면 낮음/중간/높음 추론 노력을 지정할 수 있지만 ChatGPT 사용자는 사용할 수 없습니다.

o1이 문맥에 맞는 힌트를 더 쉽게 얻을 수 있도록 지원

Mac/휴대폰에서 음성 메모 앱1~2분 동안 전체 문제 공간을 설명한 다음 텍스트를 붙여넣기만 하면 됩니다. 1~2분 동안 전체 문제 공간을 설명한 다음 해당 텍스트를 붙여넣기만 하면 됩니다.
- 실제로 저는 재사용할 수 있도록 긴 문맥을 정리한 메모를 가지고 있습니다.
- swyx: 저는 LS 디스코드에서 사라브의 Careless를 사용합니다. Whisper
제품 내부에 팝업되는 AI 어시스턴트를 사용하면 이 추출을 더 쉽게 수행할 수 있습니다. 예를 들어 슈퍼베이스를 사용하는 경우, 슈퍼베이스 어시스턴트에게 모든 관련 테이블/RPC 등을 덤프/설명해 달라고 요청해 보세요.

swyx: 저는 앞부분을 "프롬프트에 10배 더 많은 시간을 할애하세요."로 바꾸고 싶습니다.

2. 목표에 집중: 원하는 것을 설명하세요.아무것도원하는 것이 아닙니다.어떤 방법가져옵니다.

가능한 한 많은 컨텍스트로 모델을 채운 후원하는 결과물을 설명하는 데 집중하세요.

대부분의 모델에서 우리는 모델에 다음과 같이 지시하는 데 익숙합니다.어떤 방법대답하세요. 예를 들어, "당신은 전문 소프트웨어 엔지니어입니다. 천천히 신중하게 생각하세요."

이는 제가 생각했던 o1의 성공과는 정반대입니다. 저는 코칭하지 않습니다.어떤 방법수행 - 지시만아무것도. 그런 다음 o1이 스스로 단계를 계획하고 해결하도록 하세요. 이것이 바로 자율 추론의 목적이며, 실제로 '사람'으로서 수동으로 검토하고 대화하는 것보다 훨씬 빠를 수도 있습니다.

SWYX의 형편없는 일러스트레이션 시도

이를 위해서는 다음이 필요합니다.원하는 것이 무엇인지 정확히 파악하세요.(그리고 각 프롬프트에서 구체적인 출력을 요청해야 합니다. 처음에 추론할 수 있을 때만 가능합니다!)

생각보다 쉽게 들리네요! 운영 환경에서 특정 아키텍처를 구현하거나, 최소한의 테스트 애플리케이션을 만들거나, 아니면 옵션을 탐색하고 장단점을 나열하는 것만 원하나요? 이는 완전히 다른 요구 사항입니다.

o1은 일반적으로 기본적으로 보고서 스타일 구문을 사용하여 개념을 설명합니다(전체 번호가 매겨진 제목과 부제목). 설명을 건너뛰고 전체 문서를 출력하려면 명시적으로 설명하기만 하면 됩니다.

swyx의 전문가 팁"좋음"과 "나쁨"에 대한 정말 좋은 기준을 설정하면 다음과 같은 도움이 됩니다.모델이 스스로 결과물을 평가하고 실수를 개선/수정할 수 있는 방법을 제공합니다..

추가 혜택으로, 결국에는 GA 중에 집중적인 미세 조정에 사용할 수 있는 평가 도구로서 LLM을 제공하게 됩니다.

o1 사용법을 배운 후 처음으로 정답을 생성하는 기능에 놀랐습니다. 사실 거의 모든 면에서 더 나은 편입니다(비용/지연 시간 제외).

특히 눈에 띄는 몇 가지 순간을 소개합니다:

3. o1의 장단점 이해하기

o1 장점:

전체/복수의 파일을 한 번에 생성하는 데 적합지금까지 o1의 가장 인상적인 기능입니다. 많은 코드와 빌드하는 내용에 대한 많은 컨텍스트를 복사/붙여넣으면 전체 파일(또는 여러 파일!)을 한 번에 완전히 생성합니다. ), 보통 오류 없이 코드베이스의 기존 패턴을 따라 생성합니다.
환각 감소일반적으로 혼동이 덜한 것 같습니다. 예를 들어, o1은 쿼리 언어(예: ClickHouse 및 New Relic)를 사용자 지정하는 데 매우 능숙한 반면, Claude는 Postgres의 구문을 혼동하는 경우가 많습니다.
**여자친구가 피부과 의사라서 친구나 가족 중 피부 트러블이 생길 때마다 여자친구에게 사진을 보내요! 저는 재미 삼아 O1에 물어보기 시작했는데, 보통 3/5 정도는 정답에 가까워요. 의료 전문가에게 더 유용한 기능거의 항상 매우 정확한 감별 진단을 제공합니다.
**개념 설명: 매우 어려운 엔지니어링 개념을 예시와 함께 설명하는 데 매우 능숙했습니다. 마치 하나의 기사를 작성하는 것과 같습니다. 어려운 건축적 결정을 내려야 할 때 저는 종종 장단점이 있는 여러 개의 설계도를 o1에 생성하도록 하고, 그 설계도를 비교하기도 합니다. 저는 마치 제안서를 검토하는 것처럼 응답을 PDF로 복사/붙여넣고 비교합니다.
**보상: 평가. **기본적으로 배심원 모델은 일반적으로 처음에 출력을 생성한 모델과 동일한 실패 모드에 직면하기 때문에 저는 LLM을 평가를 위한 배심원으로 사용하는 것에 대해 항상 회의적이었습니다. 하지만 o1은 큰 가능성을 보여주었습니다. 일반적으로 거의 모든 상황에서 생성 결과가 올바른지 아닌지를 판단할 수 있습니다.

o1의 단점(현재로서는):

**특정 목소리/스타일로 글쓰기 :** 아니요, 이 게시물에는 o1을 사용하지 않았습니다 🙂 .
저는 특히 특정 목소리나 스타일로 글을 쓰는 것을 매우 싫어합니다. 매우 학술적이고 기업적인 보고 스타일을 따르고 싶어요. 제 생각에는 많은 추론이 있다고 생각합니다. 토큰 그 방향으로 톤을 기울이면 제거하기가 어렵습니다.
다음은 제가 이 글을 작성하기 위해 우여곡절 끝에 만든 예시입니다. 그저 평범한 학교 보고서를 만들려고 노력한 것입니다.

전체 애플리케이션을 빌드합니다:o1은 전체 파일을 한 번에 생성하는 데 매우 능숙합니다. 하지만 트위터에서 볼 수 있는 낙관적인 ...... 데모에도 불구하고 o1이 전체 SaaS를 구축하지는 않습니다.magnanimous반복 횟수입니다. 하지만가능** 거의 모든 함수, 특히 프론트엔드 또는 간단한 백엔드 함수를 한 번에 생성하세요..