¿Cuál es la precisión del reconocimiento de imágenes ChatGPT?

ChatGPT Las capacidades de reconocimiento de imágenes de OpenAI, cortesía de los modelos gpt-4o, gpt-4o-mini y gpt-4-turbo, funcionan bien en muchos escenarios, pero la precisión no es absoluta. He aquí los puntos clave que afectan a su rendimiento:

✨ Ámbitos de especialización:

  • Identificación generalizada: ChatGPT responde mejor a preguntas sobre el "qué" de una imagen, como el reconocimiento de objetos, escenas y relaciones subyacentes. En concretoDetección visual de objetivosChatGPT no es bueno en eso.

⚠️ Limitaciones y factores de influencia:

  1. La calidad de la imagen es fundamental:
    • La claridad, la iluminación y la oclusión afectan directamente al reconocimiento. Las imágenes borrosas, demasiado oscuras o demasiado brillantes y la oclusión de objetos clave reducen la precisión.
  2. La complejidad de la imagen es el reto:
    • Un gran número de objetos y un fondo complejo pueden dificultar la identificación.
  3. Nivel de detalle (parámetro detail) Controlable: (interfaz API opcional)
    • BAJA: Rápida, baja resolución (512x512px), consume 85 tokens, buena para escenas que no necesitan gran detalle.
    • Alta: más precisa, pero más lenta y consume más fichas (170 por región de 512x512). fichas (+85 fichas). Ideal para escenas que requieren un alto nivel de detalle.
    • auto: el modelo se selecciona automáticamente.
  4. Se requiere precaución en función del escenario:
    • Orientación espacial: No es bueno para la orientación espacial precisa.
    • Imágenes médicas: inaplicableEn Interpretación de imágenes médicas.
    • Alfabeto no latino: El reconocimiento puede ser deficiente. (por ejemplo, chino, japonés, coreano)
    • Texto pequeño/rotación/estilos especiales: Hay que hacer zoom, evitar la rotación y prestar atención al estilo de las líneas.
    • Panorama/Ojo de pez: Difícil de tratar.
    • Cuenta: Los resultados pueden ser sólo aproximados.
    • No se admiten captchas ni metadatos de imágenes
  5. Tamaño y coste de la imagen (API)
    • Limitar el tamaño de la carga:20MB.
    • Expectativas de tamaño de imagen para distintos niveles de detalle:
      * Baja resolución: 512px X 512px
      * Alta resolución: menos de 768px en el lado corto y menos de 2000px en el lado largo.
    • Cálculo de costes:
      • Baja resolución: 85 fichas para cualquier tamaño de imagen.
      • Alta resolución: escalará según el tamaño de la imagen, 170 tokens por cuadrado de 512px, más 85 tokens. Por ejemplo, para una imagen de 1024x1024, el coste es de 765 tokens; para una imagen de 2048x4096, el coste es de 1105 tokens.

💡 Resumen:

El reconocimiento de imágenes de ChatGPT es preciso en muchos casos, pero se ve afectado por una serie de factores. Para obtener los mejores resultados, proporcione imágenes claras y de alta calidad, seleccione el nivel de detalle adecuado y tenga en cuenta las limitaciones indicadas anteriormente. Es posible que se necesiten herramientas más especializadas para necesidades de alta precisión o tipos de imagen especiales.

© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...