ChatGPTの画像認識の精度は？

1.6K 00

チャットGPT OpenAIのgpt-4o、gpt-4o-mini、およびgpt-4-turboモデルによる画像認識機能は、多くのシナリオで優れた性能を発揮するが、精度は絶対的なものではない。ここでは、その性能に影響を与える重要なポイントを紹介する：

専門分野

一般化された識別： ChatGPTは、オブジェクト、シーン、基本的な関係を認識するなど、画像の「何」についての質問に答えるのが最も得意です。具体的には視覚的ターゲット検出ChatGPTはそれが苦手なんだ。

⚠️ 制限と影響要因：

画質は基本だ：
- 明瞭度、照明、オクルージョンは認識に直接影響します。ぼやけ、暗すぎ/明るすぎ、主要オブジェクトのオクルージョンのすべてが精度を低下させる。
画像の複雑さが課題だ：
- 対象物の数が多く、背景が複雑だと、識別が難しくなることがある。
詳細レベル（詳細パラメタ）制御可能：（API インタフェースはオプショナル）
- LOW：高速、低解像度（512x512px）、85トークンを消費、高いディテールを必要としないシーンに適している。
- High: より正確だが、より遅く、より多くのトークンを消費する（512x512領域あたり170）。トークン (+85トークン)。高いディテールを必要とするシーンに最適。
- auto：モデルが自動的に選択されます。
シナリオに応じた注意が必要である：
- 空間的な方向性： 正確な空間把握が苦手。
- 医療画像： 適さない医用画像解釈において。
- 非ラテン文字： 認識が悪い場合があります。(例：中国語、日本語、韓国語）
- 小さなテキスト/回転/特殊なスタイル： ズームインし、回転を避け、線のスタイルに注意を払う必要がある。
- パノラマ／フィッシュアイ 対応が難しい。
- カウントする： 結果は概算に過ぎないかもしれない。
- Captchaと画像メタデータはサポートされていません。
画像サイズとコスト（API）
- アップロードサイズを制限する：20MB.
- 異なる詳細レベルに対する画像サイズの期待値：
  * 低解像度：512px X 512px
  * 高解像度：短辺768px以下、長辺2000px以下。
- 原価計算：
  - 低解像度：どのサイズの画像でも85トークン。
  - 高解像度：画像のサイズに応じて拡大縮小され、512pxの正方形につき170トークンと85トークンが加算されます。例えば、1024x1024の画像の場合、コストは765トークン、2048x4096の画像の場合、コストは1105トークンです。