O ChatGPT continua no topo de muitos gráficos de IA, mas a concorrência está logo atrás dele

Notícias sobre IAAtualizado há 7 meses Círculo de compartilhamento de IA

1.9K 00

Como você determina os modelos de IA mais avançados disponíveis atualmente? Confira as classificações para descobrir.

As tabelas de classificação compiladas pela comunidade para modelos de IA ganharam popularidade on-line nos últimos meses, fornecendo uma janela em tempo real para a disputa dos principais gigantes da tecnologia no espaço de IA.

Vários placares de líderes documentam quais modelos de IA são os mais avançados na execução de determinadas tarefas. Os modelos de IA são, essencialmente, um conjunto de fórmulas matemáticas envoltas em código projetado para atingir uma finalidade específica.

Como o Gemini do Google (anteriormente Bard) e as startups de Paris IA Mistral Novos participantes, como a Mistral-Medium, galvanizaram a comunidade de IA e estão disputando uma posição no topo da tabela de classificação.

No entanto, o GPT-4 da OpenAI ainda domina.

As pessoas se preocupam com a tecnologia de ponta", diz Ying Sheng, estudante de doutorado em ciência da computação na Universidade de Stanford e cocriador da tabela de classificação da Chatbot Arena. Acho que as pessoas realmente gostam de ver os gráficos mudando constantemente. Isso mostra que o jogo ainda está em andamento e que ainda há espaço para melhorias."

As classificações são baseadas em testes dos recursos dos modelos de IA, projetados para descobrir o que a IA normalmente é capaz de fazer e quais modelos podem ser mais adequados para aplicações específicas, como o reconhecimento de fala. Esses testes, às vezes chamados de testes de benchmarking, medem o desempenho da IA por meio de métricas como a proximidade da vocalização de uma IA com a voz humana ou a humanidade das respostas de um chatbot de IA.

À medida que a IA continua a evoluir, o aprimoramento contínuo desses testes é igualmente essencial.

Vanessa Parli, diretora de pesquisa do Instituto de Inteligência Artificial do Centro para a Dimensão Humana da Universidade de Stanford, disse: "Esses padrões de referência não são perfeitos, mas, no momento, é a única maneira de avaliar o sistema".

O relatório anual do Instituto sobre o Índice de Inteligência Artificial de Stanford monitora o desempenho técnico dos modelos de IA ao longo do tempo com base em várias métricas. De acordo com Parli, o relatório do ano passado pesquisou 50 padrões de referência, mas incluiu apenas 20. Este ano, o relatório eliminará algumas referências desatualizadas para se concentrar em referências mais recentes e abrangentes.

A tabela de classificação do Open LLM [Large Language Model], criada pela Hugging Face, uma plataforma de aprendizado de máquina de código aberto, avaliou e classificou mais de 4.200 modelos até o início de fevereiro, todos enviados por membros da comunidade.

Os modelos participam de sete testes de benchmark importantes criados para avaliar sua capacidade em várias categorias, como compreensão de leitura e resolução de problemas matemáticos. O processo de avaliação inclui questões de matemática e ciências do ensino fundamental que testam o raciocínio de senso comum dos modelos e medem sua tendência a disseminar informações errôneas. Alguns dos testes apresentam um formato de múltipla escolha, enquanto outros exigem que os modelos gerem suas próprias respostas com base em dicas.

O ChatGPT-4 da OpenAI pode ser visto no topo da tabela de classificação da LMSYS Chatbot Arena, seguido de perto pelo Geminivia do Google. LMSYS

Os visitantes podem ver o desempenho específico de cada modelo em um determinado teste de benchmark, bem como sua pontuação total média. Até o momento, nenhum modelo alcançou uma pontuação perfeita de 100 em qualquer benchmark. O Smaug-72B, um modelo de IA recém-desenvolvido pela startup Abacus.AI, de São Francisco, tornou-se o primeiro modelo a atingir 80 pontos em média.

Muitos modelos de linguagem em larga escala já superaram os benchmarks humanos em tais testes, um fenômeno que os pesquisadores chamam de "saturação", diz Thomas Wolf, cofundador e diretor científico da Hugging Face. Isso geralmente ocorre quando a capacidade do modelo aumenta além de um teste específico, como quando um aluno passa do ensino fundamental para o ensino médio e supera progressivamente o estágio anterior de aprendizado, ou quando o modelo memoriza como responder a determinadas perguntas do teste, um conceito conhecido como "superajuste".

Notícias sobre IA

O artigo é protegido por direitos autorais e não deve ser reproduzido sem permissão.

Grok-1 de código aberto da xAI de Elon Musk

Notícias sobre IA

1 ano atrás

01.6K

五大顶级开源 AI Agent 框架：告别 LangChain，拥抱多智能体应用开发

Cinco principais estruturas de agentes de IA de código aberto: diga adeus à LangChain e adote o desenvolvimento de aplicativos com várias inteligências

Notícias sobre IA

5 meses atrás

01.2K

Ilya Sutskever在NeurIPS炸裂宣判：预训练将结束，数据压榨到头了

Ilya Sutskever explode na NeurIPS e declara: o pré-treinamento será encerrado, o aperto de dados está no fim

Notícias sobre IA

8 meses atrás

02.2K

Cloudflare 拥抱远程 MCP：将 AI Agent 能力推向更广阔的互联网

A Cloudflare adota o MCP remoto: levando os recursos do agente de IA para a Internet mais ampla

Notícias sobre IA

4 meses atrás

01.9K

Sem comentários

Você precisa estar conectado para participar dos comentários!

Faça login agora

Nenhum comentário...

O ChatGPT continua no topo de muitos gráficos de IA, mas a concorrência está logo atrás dele

A Adobe introduziu um novo recurso de assistente de IA que permite pesquisar e resumir o conteúdo de documentos PDF.

Modelagem de linguagem grande Recursos não oficiais da API KEY do canal de vendas (baseados na OPENAI)

Artigos relacionados

Grok-1 de código aberto da xAI de Elon Musk

Cinco principais estruturas de agentes de IA de código aberto: diga adeus à LangChain e adote o desenvolvimento de aplicativos com várias inteligências

Ilya Sutskever explode na NeurIPS e declara: o pré-treinamento será encerrado, o aperto de dados está no fim

A Cloudflare adota o MCP remoto: levando os recursos do agente de IA para a Internet mais ampla

Sem comentários

Últimas coleções

Artigos mais recentes

O ChatGPT continua no topo de muitos gráficos de IA, mas a concorrência está logo atrás dele

A Adobe introduziu um novo recurso de assistente de IA que permite pesquisar e resumir o conteúdo de documentos PDF.

Modelagem de linguagem grande Recursos não oficiais da API KEY do canal de vendas (baseados na OPENAI)

Artigos relacionados

Grok-1 de código aberto da xAI de Elon Musk

Cinco principais estruturas de agentes de IA de código aberto: diga adeus à LangChain e adote o desenvolvimento de aplicativos com várias inteligências

Ilya Sutskever explode na NeurIPS e declara: o pré-treinamento será encerrado, o aperto de dados está no fim

A Cloudflare adota o MCP remoto: levando os recursos do agente de IA para a Internet mais ampla

Sem comentários

Ferramentas de IA selecionadas

Últimas coleções

Artigos mais recentes