Aprendizagem pessoal com IA
e orientação prática

Qual é a precisão do reconhecimento de imagens do ChatGPT?

ChatGPT Os recursos de reconhecimento de imagem da OpenAI, cortesia dos modelos gpt-4o, gpt-4o-mini e gpt-4-turbo da OpenAI, têm bom desempenho em muitos cenários, mas a precisão não é absoluta. Aqui estão os principais pontos que afetam seu desempenho:

Áreas de especialização:

  • Identificação generalizada: O ChatGPT é melhor para responder a perguntas sobre o "quê" de uma imagem, como o reconhecimento de objetos, cenas e relações subjacentes. Mais especificamenteDetecção visual de alvosO ChatGPT não é bom nisso.

⚠️ Limitações e fatores de influência:

  1. A qualidade da imagem é fundamental:
    • A clareza, a iluminação e a oclusão afetam diretamente o reconhecimento. O desfoque, a escuridão/clareza excessiva e a oclusão de objetos-chave reduzem a precisão.
  2. A complexidade da imagem é o desafio:
    • Um grande número de objetos e um fundo complexo podem dificultar a identificação.
  3. Nível de detalhe (parâmetro de detalhe) Controlável: (Interface API opcional)
    • BAIXO: rápido, baixa resolução (512x512px), consome 85 tokens, bom para cenas que não precisam de muitos detalhes.
    • Alta: mais precisa, mas mais lenta e consome mais tokens (170 por região de 512x512). tokens (+85 tokens). Ideal para cenas que exigem muitos detalhes.
    • auto: o modelo é selecionado automaticamente.
  4. É necessário um cuidado específico com o cenário:
    • Orientação espacial: Não é bom em orientação espacial precisa.
    • Imagens médicas: não aplicávelEm Medical Image Interpretation (Interpretação de imagens médicas).
    • Alfabeto não latino: O reconhecimento pode ser ruim. (por exemplo, chinês, japonês, coreano)
    • Texto pequeno/rotação/estilos especiais: É necessário aumentar o zoom, evitar a rotação e prestar atenção ao estilo da linha.
    • Panorama/Fisheye: Difícil de lidar.
    • Contagem: Os resultados podem ser apenas aproximados.
    • Não há suporte para Captcha e metadados de imagem
  5. Tamanho e custo da imagem (API)
    • Limitar o tamanho do upload:20 MB.
    • Expectativas de tamanho de imagem para diferentes níveis de detalhes:
      * Baixa resolução: 512px X 512px
      * Alta resolução: menos de 768px no lado curto e menos de 2000px no lado longo.
    • Cálculo de custos:
      • Baixa resolução: 85 tokens para qualquer tamanho de imagem.
      • Alta resolução: será dimensionada de acordo com o tamanho da imagem, 170 tokens por 512 pixels quadrados, mais 85 tokens. Por exemplo, para uma imagem de 1024 x 1024, o custo é de 765 tokens; para uma imagem de 2048 x 4096, o custo é de 1105 tokens.

💡 Resumo:


O reconhecimento de imagens do ChatGPT é preciso em muitos casos, mas é afetado por vários fatores. Para obter os melhores resultados, forneça imagens nítidas e de alta qualidade, selecione o nível adequado de detalhes e esteja ciente das limitações listadas acima. Ferramentas mais especializadas podem ser necessárias para necessidades de alta precisão ou tipos especiais de imagens.

CDN
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Qual é a precisão do reconhecimento de imagens do ChatGPT?

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil