OpenAI、難問解決のために構築された推論モデルの新シリーズを発表。9月12日から正式にスタートする。
私たちは、答えを出す前に時間をかけて考える新しいAIモデルを開発しました。科学、プログラミング、数学などの分野において、従来のモデルよりも複雑なタスクを処理し、より困難な問題を解決することができます。
今日、我々は チャットGPT そして、我々のAPIはこのシリーズの最初のモデルをリリースした。これはプレビュー版であり、定期的なアップデートと改良を予定しています。その間に次回の更新査定結果このアップデートは現在開発中である。
動作原理
私たちは、人間がそうであるように、質問に答える前にもっと深く考えるよう、これらのモデルを訓練する。トレーニングを通じて、思考プロセスを洗練させ、さまざまな戦略を試し、間違いを認識することを学びます。
我々のテストでは、物理学、化学、生物学の難易度の高いベンチマークタスクにおいて、すぐに起動できるモデルアップデートは博士レベルの性能を発揮した。また、数学とプログラミングにも優れていることがわかった。国際数学オリンピック(IMO)の予選試験では、GPT-4oは13%の問題しか正しく解けなかったのに対し、新しい推論モデルは83%を達成した。プログラミング能力では、かつてのCodeforces大会での89%のレベルに達した。詳細は技術研究記事.
初期モデルなので、ウェブブラウジングや画像ファイルのアップロードなど、ChatGPTの便利な機能の多くが現在欠けています。短期的には、多くの一般的なシナリオでは、GPT-4oの方が実用的かもしれません。
しかし、複雑な推論タスクにとっては、これは大きなブレークスルーであり、AI能力の新たなレベルを示すものである。これに基づいて、カウンターを1にリセットし、シリーズをOpenAI o Securityと名付けた。
これらの新しいモデルを開発するにあたり、私たちは、安全ガイドラインやアライメントガイドラインをよりよく遵守できるよう、推論能力をフルに活用した安全トレーニングへの新しいアプローチを提案する。特定のコンテクストにおいて安全ルールを推論できるようになることで、これらのルールをより効果的に適用できるようになる。
私たちがセキュリティを測定する一つの方法は、ユーザーがセキュリティルールを迂回しようとする試み(一般的に「脱獄」として知られている)に直面しても、モデルがセキュリティルールに準拠し続ける能力をテストすることです。私たちの最も困難な脱獄テストでは、GPT-4oは100点満点中22点であったのに対し、o1-previewモデルはなんと84点であった。 詳細は以下をご覧ください。システム概要そして研究記事.
これらのモデルの新たな能力に対応するため、私たちはセキュリティへの取り組み、内部ガバナンス、連邦政府との協力体制を強化してきた。これには準備の枠組み厳格なテストと評価、一流のレッドチーム・テスト、そして安全・セキュリティ委員会の関与を含む取締役会レベルのレビュー・プロセスの実施。
AIセキュリティに対する我々のコミットメントをさらに推進するため、我々は最近、米国と英国のAIセキュリティ研究所と正式な協定を締結した。私たちは、これらの研究所にモデルの研究バージョンへの早期アクセスを許可することを含め、これらの協定の実施を開始しました。これは、将来のモデルを研究、評価、テストするプロセスを、一般公開の前後に確立するためのパートナーシップの重要な第一歩である。
該当人口
これらの強化された推論機能は、科学、プログラミング、数学、その他の分野で複雑な問題に取り組む人々に特に適している。例えば、医学研究者は細胞配列データの注釈付けに、物理学者は量子光学に必要な複雑な数式の生成に、様々な分野の開発者はマルチステップワークフローの構築と実行にo1を使用することができる。
オープンAI o1-mini
o1モデル・ファミリーは、複雑なコードの生成とデバッグに優れています。開発者にさらに効率的なソリューションを提供するために、私たちは オープンAI o1-mini.o1-miniはより高速で経済的な推論モデルであり、特にプログラミングタスクに優れている。o1-miniは、o1-previewよりも80%安いため、推論能力を必要とするが、広範な世界知識を必要としないアプリケーションに、強力かつ手頃な価格で理想的な選択肢となる。
OpenAI o1の使い方
今日からだ。ChatGPT Plusおよびチームユーザーo1モデルはChatGPTで使用できます。ユーザーはモデルセレクターでo1-previewとo1-miniを手動で選択できます。初期リリースではo1-previewは週30メッセージ、o1-miniは週50メッセージに制限されています。私たちはこれらの制限を増やし、ChatGPTが各プロンプトに最適なモデルを自動的に選択する機能の開発に取り組んでいます。
ChatGPTエンタープライズ・ユーザーは来週から両モデルにアクセスできる。適合規格 API利用レベル5(新しいウィンドウで開きます) な開発者現在、1分あたり20リクエストのレート制限で、APIの両方のモデルでプロトタイプを開始することができます。この制限を増やすことを視野に入れ、追加テストを実施しています。現在、これらのモデルのAPIには、関数呼び出し、ストリーミング、システム・メッセージ・サポートなどの機能は含まれていません。まずは APIドキュメント(新しいウィンドウで開きます).
また、すべての ChatGPT 無料ユーザーどちらもo1-miniを使うことができる。
将来展望
これはChatGPTの推論モデルとAPIの初期プレビューに過ぎません。モデルの継続的なアップデートに加え、ウェブブラウジング、ファイルや画像のアップロード、その他の機能を追加し、その有用性を高めていきます。
新しいOpenAI o1ファミリーに加え、GPTファミリーの開発・リリースも続けていきます。