¿Cuál es la precisión del reconocimiento de imágenes ChatGPT?

AI RespuestasActualizado hace 1 año Círculo de intercambio de inteligencia artificial

56.9K 00

ChatGPT Las capacidades de reconocimiento de imágenes de OpenAI, cortesía de los modelos gpt-4o, gpt-4o-mini y gpt-4-turbo, funcionan bien en muchos escenarios, pero la precisión no es absoluta. He aquí los puntos clave que afectan a su rendimiento:

✨ Ámbitos de especialización:

Identificación generalizada: ChatGPT responde mejor a preguntas sobre el "qué" de una imagen, como el reconocimiento de objetos, escenas y relaciones subyacentes. En concretoDetección visual de objetivosChatGPT no es bueno en eso.

⚠️ Limitaciones y factores de influencia:

La calidad de la imagen es fundamental:
- La claridad, la iluminación y la oclusión afectan directamente al reconocimiento. Las imágenes borrosas, demasiado oscuras o demasiado brillantes y la oclusión de objetos clave reducen la precisión.
La complejidad de la imagen es el reto:
- Un gran número de objetos y un fondo complejo pueden dificultar la identificación.
Nivel de detalle (parámetro detail) Controlable: (interfaz API opcional)
- BAJA: Rápida, baja resolución (512x512px), consume 85 tokens, buena para escenas que no necesitan gran detalle.
- Alta: más precisa, pero más lenta y consume más fichas (170 por región de 512x512). fichas (+85 fichas). Ideal para escenas que requieren un alto nivel de detalle.
- auto: el modelo se selecciona automáticamente.
Se requiere precaución en función del escenario:
- Orientación espacial: No es bueno para la orientación espacial precisa.
- Imágenes médicas: inaplicableEn Interpretación de imágenes médicas.
- Alfabeto no latino: El reconocimiento puede ser deficiente. (por ejemplo, chino, japonés, coreano)
- Texto pequeño/rotación/estilos especiales: Hay que hacer zoom, evitar la rotación y prestar atención al estilo de las líneas.
- Panorama/Ojo de pez: Difícil de tratar.
- Cuenta: Los resultados pueden ser sólo aproximados.
- No se admiten captchas ni metadatos de imágenes
Tamaño y coste de la imagen (API)
- Limitar el tamaño de la carga:20MB.
- Expectativas de tamaño de imagen para distintos niveles de detalle:
  * Baja resolución: 512px X 512px
  * Alta resolución: menos de 768px en el lado corto y menos de 2000px en el lado largo.
- Cálculo de costes:
  - Baja resolución: 85 fichas para cualquier tamaño de imagen.
  - Alta resolución: escalará según el tamaño de la imagen, 170 tokens por cuadrado de 512px, más 85 tokens. Por ejemplo, para una imagen de 1024x1024, el coste es de 765 tokens; para una imagen de 2048x4096, el coste es de 1105 tokens.

💡 Resumen:

El reconocimiento de imágenes de ChatGPT es preciso en muchos casos, pero se ve afectado por una serie de factores. Para obtener los mejores resultados, proporcione imágenes claras y de alta calidad, seleccione el nivel de detalle adecuado y tenga en cuenta las limitaciones indicadas anteriormente. Es posible que se necesiten herramientas más especializadas para necesidades de alta precisión o tipos de imagen especiales.