A OpenAI apresenta uma nova série de modelos de inferência criados para resolver problemas difíceis. Ela será lançada oficialmente em 12 de setembro.
Desenvolvemos uma série de novos modelos de IA que levam mais tempo para pensar antes de dar uma resposta. Eles podem lidar com tarefas complexas e resolver problemas mais desafiadores do que os modelos anteriores em áreas como ciências, programação e matemática.
Hoje, estamos no ChatGPT e nossa API lançou o primeiro modelo dessa série. Esta é uma versão prévia e planejamos fazer atualizações e aprimoramentos regulares. Nesse meio tempo, criamos oResultados da próxima avaliação atualizadaA atualização está em desenvolvimento no momento.
Princípio de funcionamento
Treinamos esses modelos para pensar mais profundamente antes de responder às perguntas, assim como fazem os humanos. Por meio do treinamento, eles aprendem a refinar seus processos de pensamento, tentam estratégias diferentes e reconhecem seus erros.
Em nossos testes, a atualização do modelo pronto para lançamento teve um desempenho de nível de doutorado em tarefas desafiadoras de benchmark em física, química e biologia. Também descobrimos que ele se destacou em matemática e programação. No exame de qualificação da Olimpíada Internacional de Matemática (IMO), o GPT-4o resolveu apenas 13% problemas corretamente, enquanto o novo modelo de inferência atingiu 83%. Em termos de capacidade de programação, eles atingiram o antigo nível de desempenho de 89% na competição Codeforces. Mais detalhes podem ser encontrados em nossoArtigos de pesquisa técnica.
Por ser um modelo inicial, atualmente ele não possui muitos dos recursos úteis do ChatGPT, como navegação na Web e upload de imagens de arquivos. Em curto prazo, para muitos cenários comuns, o GPT-4o pode ser mais prático.
Entretanto, para tarefas de raciocínio complexas, esse é um grande avanço e representa um novo nível de capacidade de IA. Com base nisso, redefinimos o contador para 1 e nomeamos a série como OpenAI o Security
Ao desenvolver esses novos modelos, propomos uma nova abordagem para o treinamento de segurança que faz uso total de seus recursos de raciocínio para permitir uma melhor conformidade com as diretrizes de segurança e alinhamento. A capacidade de raciocinar sobre nossas regras de segurança em contextos específicos permite uma aplicação mais eficaz dessas regras.
Uma forma de medirmos a segurança é testar a capacidade do modelo de continuar a cumprir as regras de segurança diante da tentativa de um usuário de contorná-las (comumente conhecida como "jailbreak"). Em nosso teste de jailbreak mais desafiador, o GPT-4o obteve 22 pontos em 100, enquanto o nosso modelo o1-preview obteve a incrível pontuação de 84. Mais detalhes podem ser encontrados emDescrição do sistemae nossaArtigos de pesquisa.
Para atender aos novos recursos desses modelos, aprimoramos nossos esforços de segurança, governança interna e colaboração com o governo federal. Isso inclui o uso de nossosEstrutura de preparaçãoRealização de testes e avaliações rigorosos, testes de equipe vermelha de alto nível e um processo de revisão em nível de diretoria que inclui o envolvimento do nosso Comitê de Segurança e Proteção.
Para reforçar nosso compromisso com a segurança da IA, recentemente firmamos acordos formais com os Institutos de Segurança de IA nos Estados Unidos e no Reino Unido. Começamos a implementar esses acordos, inclusive concedendo a esses institutos acesso antecipado a versões de pesquisa do modelo. Esse é um primeiro passo importante em nossa parceria para ajudar a estabelecer um processo de pesquisa, avaliação e teste de modelos futuros antes e depois do lançamento público.
população aplicável
Esses recursos de raciocínio aprimorados são especialmente adequados para quem trabalha com problemas complexos em ciência, programação, matemática e outros campos. Por exemplo, os pesquisadores da área médica podem usar o o1 para anotar dados de sequenciamento de células, os físicos podem usá-lo para gerar as fórmulas matemáticas complexas necessárias para a óptica quântica e os desenvolvedores de diversas áreas podem usá-lo para criar e executar fluxos de trabalho de várias etapas.
OpenAI o1-mini
A família de modelos o1 é excelente na geração e depuração de códigos complexos. Para oferecer aos desenvolvedores uma solução ainda mais eficiente, introduzimos o OpenAI o1-mini. É um modelo de raciocínio mais rápido e econômico que é particularmente bom em tarefas de programação. Como um modelo de escala menor, o o1-mini custa 80% menos do que o o1-preview, o que o torna a opção ideal para aplicativos que exigem poder de raciocínio, mas não requerem amplo conhecimento do mundo, tanto de forma poderosa quanto econômica.
Como usar o OpenAI o1
A partir de hoje.Usuários do ChatGPT Plus e da EquipeO modelo o1 pode ser usado no ChatGPT. Os usuários podem selecionar manualmente o1-preview e o1-mini no seletor de modelos. o1-preview está limitado a 30 mensagens por semana e o1-mini a 50 mensagens por semana na versão inicial. Estamos trabalhando para aumentar esses limites e desenvolver a capacidade do ChatGPT de selecionar automaticamente o modelo mais adequado para cada solicitação.
Usuários do ChatGPT Enterprise e Eduterá acesso a ambos os modelos a partir da próxima semana. Em conformidade com o Nível 5 de uso da API (abre em uma nova janela) (usado em uma expressão nominal)desenvolvedoresVocê pode começar a criar protótipos com ambos os modelos na API agora, com um limite de taxa atual de 20 solicitações por minuto. Estamos realizando testes adicionais com o objetivo de aumentar esses limites. Atualmente, as APIs para esses modelos não incluem recursos como chamadas de função, streaming e suporte a mensagens do sistema. Para começar, dê uma olhada no Documentação da API (abre em uma nova janela).
Também planejamos ter todos os Usuários gratuitos do ChatGPTAmbos podem usar o o1-mini.
perspectivas futuras
Esta é apenas uma prévia desses modelos de inferência no ChatGPT e na API. Além de atualizar continuamente os modelos, estou adicionando navegação na Web, uploads de arquivos e imagens e outros recursos para aumentar sua utilidade.
Além da nova família OpenAI o1, continuaremos a desenvolver e lançar a família de modelos GPT.