ChatGPT Os recursos de reconhecimento de imagem da OpenAI, cortesia dos modelos gpt-4o, gpt-4o-mini e gpt-4-turbo da OpenAI, têm bom desempenho em muitos cenários, mas a precisão não é absoluta. Aqui estão os principais pontos que afetam seu desempenho:
Áreas de especialização:
- Identificação generalizada: O ChatGPT é melhor para responder a perguntas sobre o "quê" de uma imagem, como o reconhecimento de objetos, cenas e relações subjacentes. Mais especificamenteDetecção visual de alvosO ChatGPT não é bom nisso.
⚠️ Limitações e fatores de influência:
- A qualidade da imagem é fundamental:
- A clareza, a iluminação e a oclusão afetam diretamente o reconhecimento. O desfoque, a escuridão/clareza excessiva e a oclusão de objetos-chave reduzem a precisão.
- A complexidade da imagem é o desafio:
- Um grande número de objetos e um fundo complexo podem dificultar a identificação.
- Nível de detalhe (parâmetro de detalhe) Controlável: (Interface API opcional)
- BAIXO: rápido, baixa resolução (512x512px), consome 85 tokens, bom para cenas que não precisam de muitos detalhes.
- Alta: mais precisa, mas mais lenta e consome mais tokens (170 por região de 512x512). tokens (+85 tokens). Ideal para cenas que exigem muitos detalhes.
- auto: o modelo é selecionado automaticamente.
- É necessário um cuidado específico com o cenário:
- Orientação espacial: Não é bom em orientação espacial precisa.
- Imagens médicas: não aplicávelEm Medical Image Interpretation (Interpretação de imagens médicas).
- Alfabeto não latino: O reconhecimento pode ser ruim. (por exemplo, chinês, japonês, coreano)
- Texto pequeno/rotação/estilos especiais: É necessário aumentar o zoom, evitar a rotação e prestar atenção ao estilo da linha.
- Panorama/Fisheye: Difícil de lidar.
- Contagem: Os resultados podem ser apenas aproximados.
- Não há suporte para Captcha e metadados de imagem
- Tamanho e custo da imagem (API)
- Limitar o tamanho do upload:20 MB.
- Expectativas de tamanho de imagem para diferentes níveis de detalhes:
* Baixa resolução: 512px X 512px
* Alta resolução: menos de 768px no lado curto e menos de 2000px no lado longo. - Cálculo de custos:
- Baixa resolução: 85 tokens para qualquer tamanho de imagem.
- Alta resolução: será dimensionada de acordo com o tamanho da imagem, 170 tokens por 512 pixels quadrados, mais 85 tokens. Por exemplo, para uma imagem de 1024 x 1024, o custo é de 765 tokens; para uma imagem de 2048 x 4096, o custo é de 1105 tokens.
💡 Resumo:
O reconhecimento de imagens do ChatGPT é preciso em muitos casos, mas é afetado por vários fatores. Para obter os melhores resultados, forneça imagens nítidas e de alta qualidade, selecione o nível adequado de detalhes e esteja ciente das limitações listadas acima. Ferramentas mais especializadas podem ser necessárias para necessidades de alta precisão ou tipos especiais de imagens.