OpenAI
recentemente integrou sua avançada tecnologia de geração de imagens diretamente no ChatGPT
Essa iniciativa despertou rapidamente o entusiasmo dos usuários e uma série de efeitos indiretos. O recurso utiliza o poderoso GPT-4o
Recursos de modelagem, histórico tecnológico e modelos de geração de vídeo Sora
semelhante, permitindo que os usuários criem imagens estáticas de alta qualidade diretamente na interface de diálogo familiar, aumentando consideravelmente a facilidade de uso.
Esse recurso de geração de imagens está disponível para todos os ChatGPT
Aberto a usuários, incluindo assinantes pagos (Plus
, Pro
, Team
) e usuários gratuitos.OpenAI
revelou que o valor inicial de geração diária para usuários gratuitos era cerca de três vezes maior, com o DALL·E
A estratégia anterior é semelhante, mas será ajustada dinamicamente com base na demanda. Essa mudança certamente acelerou a popularidade da geração de imagens com IA de alta qualidade, colocando-a no mesmo nível da Midjourney
e outros serviços pagos e Stable Diffusion
e outros modelos de código aberto competem por um portal de usuários mais amplo.
O motor da tecnologia: a principal competência que impulsiona o boom
Essa integração não é simplesmente uma pilha de funções, mas sim um avanço significativo na tecnologia de geração de imagens. Um destaque é a solução para o problema de "vinculação de atributos e objetos" (vinculação) que há muito tempo atormenta a geração de imagens de IA. No passado, era difícil para o modelo lidar com precisão com instruções como "estrelas azuis e triângulos vermelhos", muitas vezes confundindo cores e formas. De acordo com OpenAI
Chefe de Pesquisa Gabriel Goh
O novo modelo foi descrito como capaz de lidar consistentemente com instruções contendo de 15 a 20 objetos e seus relacionamentos complexos, excedendo em muito os limites do modelo antigo.
Outra melhoria importante é a qualidade da renderização do texto dentro da imagem. A IA sempre teve dificuldades para produzir textos claros e sem erros em imagens, o que prejudicou muitos aplicativos em potencial (por exemplo, pôsteres, design de logotipos).Goh
Após meses de otimização, o novo modelo tornou-se bastante confiável na renderização de texto, o que amplia muito os cenários de aplicação", disse a empresa. Isso se deve ao "método de geração autorregressiva" usado no modelo, em que o desenho sequencial pixel a pixel (por exemplo, da esquerda para a direita, de cima para baixo) proporciona melhor controle dos detalhes do que os modelos de difusão, que geram a imagem inteira de uma só vez, e é particularmente bom para a renderização precisa de texto.
Esses avanços dependem de GPT-4o
O núcleo omnimodal do modelo foi projetado desde o início para unificar texto, imagens, áudio e vídeo. Ao mesmo tempo, o modelo incorpora uma ampla gama de "conhecimento do mundo" para permitir que ele compreenda a lógica e o senso comum por trás das imagens. Por exemplo ChatGPT
Proprietário de produto multimodal Jackie Shannon
O referido usuário não precisa explicar demais o modelo para gerar imagens que sejam consistentes com as leis da física e o conhecimento prévio, como um esquema do experimento de trigonometria de Newton ou uma história em quadrinhos que mantenha a consistência dos personagens.
Consequências duplas: os recursos e os desafios éticos por trás do sucesso
São esses recursos avançados que fizeram com que o novo recurso incendiasse rapidamente a Internet em seu lançamento, mas também fizeram com que o OpenAI
De imediato, há dois grandes desafios: a enorme pressão sobre os recursos de aritmética e a persistente controvérsia sobre a ética dos direitos autorais.
Em primeiro lugar, há o nível de recursos. A enorme demanda dos usuários faz com que OpenAI
Os servidores da empresa estão sobrecarregados. Sam Altman
existir X
A plataforma descreveu o dilema com a frase "nossas GPUs estão derretendo". Para manter a estabilidade do serviço, aOpenAI
A limitação da taxa teve que ser implementada com urgência. Tendo já adiado a abertura total para usuários gratuitos devido à alta demanda, a confirmação adicional de um limite de usuários gratuitos (cerca de três por dia) ressalta o fato de que os custos aritméticos e os gargalos de recursos para implementações em larga escala de aplicativos de IA de ponta continuam sendo uma realidade gritante, mesmo para os gigantes do setor.
Em segundo lugar, há a dimensão ética e de direitos autorais. A poderosa capacidade de imitação do novo recurso foi rapidamente aproveitada pelos usuários, com imagens criadas no estilo do animador japonês Hayao Miyazaki se tornando virais nas mídias sociais, provocando um frenesi de atividade.
No entanto, essa "tempestade fofa" rapidamente tocou a sensível linha vermelha dos direitos autorais. Apenas um dia depois.OpenAI
A empresa começou a restringir os usuários de gerar imagens no estilo de artistas vivos específicos (especialmente no "estilo Miyazaki") e declarou publicamente que está adotando uma abordagem mais "conservadora". O porta-voz disse que atualmente a empresa proíbe a geração de "estilos de artistas vivos individuais", mas permite "estilos de estúdio mais amplos" ou estilos de artistas falecidos, e que continuará a ajustar sua política com base no feedback.
Esse incidente mais uma vez trouxe à tona a contradição entre a capacidade de imitação artística da IA generativa e a proteção dos direitos e interesses dos criadores. Vale a pena mencionar que o próprio Hayao Miyazaki sempre criticou a arte da IA, chamando-a de "um insulto à própria vida".Studio Ghibli
Embora não tenha respondido diretamente ao incidente, o OpenAI
A resposta rápida mostra que traçar a linha entre a inovação tecnológica e o respeito ao ecossistema artístico existente ainda é um desafio que o setor como um todo precisa enfrentar seriamente.
Considerações operacionais e perspectivas futuras
Ao abordar os desafiosOpenAI
Os detalhes operacionais do novo recurso também são explicados. Com relação à velocidade de geração, oShannon
Reconhecendo que ele pode ser um pouco mais lento no momento, foi enfatizado que essa é uma troca necessária na busca de uma qualidade de imagem mais alta (incluindo o conhecimento que ela contém).
Em termos de rastreabilidade e propriedade da imagem, a imagem gerada não terá uma marca d'água visível adicionada, mas será incorporada em um arquivo que esteja em conformidade com a C2PA
Metadados padrão para identificar a fonte, enquanto o usuário tem todos os direitos de uso da imagem gerada (sujeito às políticas da plataforma).
OpenAI
Integrar recursos avançados de geração de imagens em ChatGPT
A nova tecnologia é um passo importante para a integração dos aplicativos de IA. No entanto, a tensão aritmética e as disputas de direitos autorais que se seguiram também revelam claramente que o caminho a ser percorrido não é simples. Como gerenciar com eficácia o consumo de recursos, esclarecer os limites éticos e equilibrar os interesses de todas as partes enquanto a tecnologia se desenvolve em um ritmo acelerado será um grande desafio. OpenAI
e o setor de IA como um todo continuarão a ser um tópico central no futuro.