Modelos de inferência de IA de alta qualidade rumo à popularidade.
No início desta manhã, a OpenAI lançou um novo modelo de inferênciao3-mini.
A OpenAI afirma que esse é seu modelo de inferência mais econômico, com recursos de diálogo e inferência complexa significativamente aprimorados, superando seu modelo antecessor o1 em ciências, matemática, programação etc., mantendo o baixo custo e a baixa latência do o1-mini, ePode ser usado em conjunto com a função de pesquisa de rede.
O o3-mini já está disponível no ChatGPT e na API, e o acesso Enterprise estará disponível nouma semanaLançamento.
Aparentemente, a ascensão do DeepSeek ao topo da lista de aplicativos gratuitos da App Store dos EUA criou pressão sobre a OpenAI.
Hoje.Pela primeira vez, o ChatGPT está oferecendo modelos de inferência gratuitos a todos os usuáriosOs usuários podem experimentar o o3-mini selecionando o botão "Reason" no ChatGPT.
ChatGPT Os usuários Pro podemAcesso ilimitadoO limite de taxa para usuários Plus e Team foi triplicado de 50 mensagens por dia para o1-mini para 50 mensagens por dia para o3-mini.150 mensagens.
Os assinantes pagos também têm a opção de uma versão mais inteligente"o3-mini-alto". Essa versão leva mais tempo para gerar uma resposta.
Assim como no modelo o1, o modelo o3-mini tem um corte de conhecimento deOutubro de 2023A janela de contexto é de 200.000 tokens com uma saída máxima de 100.000 tokens. O o3-mini está disponível nas versões baixa, média e alta para que os desenvolvedores possam otimizar para seus casos de uso específicos.
Atualmente, o o3-mini não oferece suporte a recursos visuais, portanto, os desenvolvedores ainda precisarão usar o o1 para tarefas de raciocínio visual.
Com efeito imediato, a o3-mini está disponível na API de conclusões de bate-papo, na API de assistentes e na API de lote. A openAI afirma que o preço por token foi reduzido em 95% em comparação com o lançamento do GPT-4, mantendo a inferência de nível superior. No entanto, o preço da API do o3-mini ainda é mais alto do que o modelo DeepSeek.
Comparação de preços da API do modelo OpenAI vs. modelo DeepSeek
Em termos de segurança, a OpenAI constatou que o o3-mini supera significativamente o GPT-4o em termos de segurança desafiadora e de jailbreak.
01. detail o3-mini: evolução dos recursos de programação matemática científica com latência significativamente menor
A OpenAI divulgou um relatório detalhado de 37 páginas sobre o o3-mini, abrangendo uma ampla gama de áreas, como introdução ao modelo, dados e treinamento, escopo dos testes, desafios e avaliação de segurança, testes da equipe vermelha externa, avaliação da estrutura de preparação, desempenho multilíngue e conclusões.
O o3-mini foi otimizado para raciocínio científico, matemático e de programação, além de ser mais ágil. O modelo obteve pontuação de 0,77, 0,80 e 2036 nos benchmarks GPQA Diamond (Ciências, Química e Biologia), AIME 2022-2024 (Matemática) e Codeforces ELO (Programação), respectivamente. O o3-mini é igual ou superior ao modelo de raciocínio o1.
O o3-mini supera significativamente o o1-mini no conjunto de testes MMLU em 14 idiomas, demonstrando seu progresso na compreensão multilíngue.
As avaliações feitas por testadores especialistas externos indicaram que o o3-mini forneceu respostas mais precisas e claras e melhor raciocínio do que o o1-mini. Na avaliação da preferência humana, os testadores preferiram as respostas do o3-mini em relação a 561 TP3T e observaram uma redução de 391 TP3T em erros significativos em problemas difíceis do mundo real. O o3-mini teve um desempenho comparável ao do o1 em algumas das avaliações mais desafiadoras de raciocínio e inteligência (incluindo o AIME e o GPQA) na categoria Capacidade de raciocínio médio.
A inteligência do o3-mini é comparável à do o1, proporcionando desempenho mais rápido e maior eficiência. O modelo também se destaca em avaliações matemáticas e factuais adicionais sob a capacidade de raciocínio médio. No teste A/B, o o3-mini respondeu a 241 TP3T mais rapidamente do que o o1-mini, com um tempo médio de resposta de 7,7 segundos em comparação com 10,16 segundos para o o1-mini.
Em matemática, com baixa capacidade de raciocínio, a o3-mini tem desempenho comparável à o1-mini, enquanto com capacidade de raciocínio média, a o3-mini tem desempenho comparável à o1. Enquanto isso, com alta capacidade de raciocínio, a o3-mini superou a o1-mini e a o1.
O o3-mini com alto poder de raciocínio supera seu antecessor no FrontierMath. No teste FrontierMath, quando solicitado a usar a ferramenta Python, o o3-mini com alto poder de raciocínio resolveu mais de 321 TP3T de problemas na primeira tentativa, incluindo mais de 281 TP3T de problemas desafiadores (T3).
O o3-mini obtém progressivamente pontuações Elo mais altas com o aumento da capacidade de raciocínio, todas superiores ao o1-mini. Com capacidade de raciocínio média, seu desempenho é comparável ao do o1.
O o3-mini é o modelo da OpenAI com melhor desempenho na validação do SWE-bench.
Mais dados sobre os resultados da validação do SWE-bench são mostrados abaixo. o3-mini (ferramentas) teve o melhor desempenho com 611 TP3T. o3-mini listing candidate usando Agentless em vez das ferramentas internas obteve 391 TP3T. o1 foi o segundo modelo com melhor desempenho, com uma pontuação de 481 TP3T.
No teste de programação do LiveBench, o o3-mini de alto raciocínio obteve mais pontos do que o o1-high em todos os aspectos.
02. várias avaliações de segurança excedem o GPT-4o
A OpenAI também detalhou o desempenho do o3-mini em várias avaliações de segurança, afirmando que o o3-mini superou significativamente o GPT-4o nas avaliações desafiadoras de segurança e de jailbreak. Na avaliação de conteúdo não permitido, o o3-mini teve desempenho semelhante na avaliação de negações padrão e na avaliação de negações desafiadoras quando comparado ao GPT-4o, mas foi ligeiramente pior no XSTest .
Na avaliação do jailbreak, o o3-mini tem um desempenho comparável ao do o1-mini no jailbreak de produção, no exemplo de aprimoramento do jailbreak, no StrongReject e nas avaliações de jailbreak de origem humana.
Na avaliação de alucinação, usando o conjunto de dados do PersonQA, o o3-mini teve uma taxa de precisão de 21,71 TP3T e uma taxa de alucinação de 14,81 TP3T, o que foi um desempenho comparável ou melhor do que o GPT-4o e o1-mini.
Nas avaliações de imparcialidade e parcialidade, o o3-mini teve desempenho semelhante ao do o1-mini na avaliação do BBQ, mas com uma ligeira redução na precisão ao lidar com perguntas ambíguas.
Os testes externos da equipe vermelha mostraram que o o3-mini teve um desempenho comparável ao do o1, com ambos superando significativamente o GPT-4o.
No teste de jailbreak da Gray Swan Arena, o o3-mini teve uma taxa média de sucesso de ataque do usuário de 3,61 TP3T, que é um pouco maior em comparação com o o1-mini e o GPT-4o. A avaliação da estrutura de prontidão abrangeu quatro categorias de risco: segurança cibernética, CBRN (química, biológica, radiológica, nuclear), persuasão e autonomia do modelo. O o3-mini foi classificado como de "baixo risco" para segurança cibernética, "risco médio" para CBRN, persuasão e autonomia do modelo e "risco médio" para ameaças biológicas. A o3-mini foi classificada como de "baixo risco" para segurança cibernética, "risco médio" para CBRN, persuasão e autonomia de modelos e "risco médio" para ameaças biológicas.
De acordo com suas classificações, somente os modelos com uma pontuação de mitigação "média" ou inferior podem ser implantados, e os modelos com uma pontuação "alta" ou inferior podem ser mais desenvolvidos.
03. O benchmarking do o3 pode custar mais de US$ 30 milhões, a OpenAI está em negociações para obter US$ 290 bilhões em novos financiamentos
A OpenAI tem iterado seus modelos de inferência desde o lançamento do o1 em setembro do ano passado, e o modelo o3, lançado no final do ano passado, é sua última geração de modelos de inferência de IA. A versão de ponta do modelo o3 é destinada a aplicativos de alta computação, enquanto o o3-mini atende a usuários que precisam ser econômicos e eficientes. Isso reflete a estratégia da OpenAI de tentar equilibrar a acessibilidade com ofertas premium pagas.
Nos últimos dois dias, não sei se foi impulsionado pelo DeepSeek ou para aquecer o o3-mini, o cofundador da OpenAI, Sam Altman, tem sido muito ativo nas plataformas de mídia social, novamente elogiando o DeepSeek R1 como impressionante, dizendo que a OpenAI fornecerá modelos melhores e enfatizando que mais computação é importante.
Ontem ele fez um grande anúncioPrimeiro servidor GB200 NVL72 de 8 racks completoestá sendo executado no Microsoft Azure para a OpenAI.
O relatório Economic Survey 2024-2025 do governo da Índia, divulgado nesta sexta-feira, sugere que a OpenAI pode ter gasto mais deUS$ 30 milhõespara avaliar seu mais recente modelo de inferência de IA, o o3. O relatório escreve que o avanço no poder de processamento do modelo o3 da OpenAI teve um preço muito alto. O benchmarking ARC-AGI é considerado uma das tarefas de IA mais desafiadoras, e o modelo configurado de forma ineficiente da OpenAI resultou no$200,000O custo de um modelo eficiente é ainda maior do que o custo de um modelo ineficiente. O custo de um modelo eficiente é ainda maior do que o custo de um modelo ineficiente.172 vezesIsso é mais ou menosUS$ 34,4 milhões.
Altman também postou uma foto com o presidente e CEO da Microsoft, Satya Nadella, em outro dia, dizendo que a próxima fase da parceria da Microsoft com a OpenAI será muito melhor do que qualquer um poderia imaginar.
Mas a reputação da Microsoft como o maior investidor na OpenAI pode ser tirada pelo SoftBank Group do Japão. Recentemente, o fundador e CEO do SoftBank Group, Masayoshi Son, e Altman têm se aproximado cada vez mais e, na semana passada, anunciaram que se uniriam para criar um megaprojeto de IA "Stargate" e investir 500 bilhões de dólares americanos (cerca de 3,6 trilhões de yuans) nos próximos quatro anos para construir a infraestrutura de IA, e ontem foi revelado que eles se tornariam o principal investidor da nova rodada de financiamento da OpenAI. Nova rodada de financiamento da OpenAI.
De acordo com relatos da mídia estrangeira, a OpenAI está em negociações preliminares para levantar até em uma rodada de financiamentoUS$ 40 bilhões (aproximadamente RMB 290,1 bilhões)A avaliação seráUS$ 300 bilhões (aproximadamente RMB 2,18 trilhões). O SoftBank Group do Japão liderará a rodada e está negociando um investimentoDe US$ 15 bilhões a US$ 25 bilhõesOs fundos restantes virão de outros investidores. Os fundos restantes virão de outros investidores, além do valor que a SoftBank se comprometeu anteriormente a investir na Stargate.Mais de US$ 15 bilhõesPor fim, a SoftBank pode estar investindo em uma parceria com a OpenAIMais de US$ 40 bilhões. Esse será um dos maiores investimentos da SoftBank até o momento.
04. conclusão: relação preço/desempenho extremamente elevada, modelos de inferência de IA de alta qualidade em direção à popularidade
Anteriormente, Musk e outros líderes de tecnologia questionaram publicamente como arcar com o enorme custo de construção do "Stargate". Sob a influência do modelo de código aberto de alto desempenho e baixo custo da DeepSeek, o setor de IA dos EUA e os investidores de Wall Street estão ainda mais céticos em relação às estratégias de grandes gastos de outros desenvolvedores de IA dos EUA, como a OpenAI.
O mais recente lançamento da OpenAI, o o3-mini, também é visto como a mais recente medida para se defender do ataque dos modelos DeepSeek, o que é de particular interesse para o setor.
Em um comunicado à imprensa, a OpenAI disse que o lançamento do o3-mini marca mais um passo em direção à missão da empresa de ampliar os limites da inteligência econômica e tornar a IA de alta qualidade mais acessível, e que a OpenAI está comprometida em estar na vanguarda da criação de modelos de grande escala que equilibram inteligência, eficiência e segurança.