Chatbot Arena (LMSYS): uma plataforma competitiva on-line para avaliar modelos de linguagem grandes e comparar o desempenho de vários modelos

Recursos mais recentes de IAAtualizado há 5 meses Círculo de compartilhamento de IA

Introdução geral

A LMSYS Org, conhecida como Large Model Systems Organization, é uma organização de pesquisa aberta co-fundada por estudantes e professores da Universidade da Califórnia, Berkeley, em colaboração com a Universidade da Califórnia, San Diego e a Universidade Carnegie Mellon. O objetivo da organização é tornar os modelos grandes acessíveis a todos por meio do co-desenvolvimento de modelos, conjuntos de dados, sistemas e ferramentas de avaliação abertos.

O Chatbot Arena é uma plataforma on-line voltada para a avaliação e a comparação do desempenho de diferentes modelos de linguagem ampla (LLMs). A plataforma foi criada por pesquisadores para oferecer aos usuários um ambiente anônimo e aleatório para interagir e avaliar vários chatbots de IA lado a lado. Por meio de análises detalhadas de qualidade, desempenho e preço, o Chatbot Arena ajuda os usuários a encontrar a solução de IA que melhor atenda às suas necessidades.

Chatbot Arena（LMSYS）：大语言模型基准测试和多模型比较性能的在线竞技平台

Modelo PK: https://lmarena.ai/

Lista de funções

Vicuna: um chatbot com qualidade 90% ChatGPT, disponível nos tamanhos 7B/13B/33B.
Chatbot Arena: avaliação escalonável e gamificada de LLMs por meio de crowdsourcing e do sistema de classificação Elo.
SGLang: Interface e tempo de execução eficientes para programas LLM complexos.
LMSYS-Chat-1M: um conjunto de dados em grande escala de diálogos LLM reais.
FastChat: uma plataforma aberta para treinamento, atendimento e avaliação de chatbots baseados em LLM.
MT-Bench: um conjunto de perguntas desafiadoras, com várias rodadas e abertas para avaliar chatbots.

Usando a Ajuda

comparação de modelos::
- Visite a página Comparação de modelos.
- Selecione os modelos que deseja comparar e clique no botão "Add to Compare" (Adicionar para comparar).
- Veja os resultados da comparação, incluindo qualidade, desempenho, preço e outras métricas.
controle de qualidade::
- Na página Detalhes do modelo, visualize os resultados do teste de qualidade.
- Saiba mais sobre pontuações e classificações específicas para diferentes dimensões do teste.
Análise de preços::
- Na página de detalhes do modelo, veja a análise de preços.
- Compare os preços de diferentes modelos para encontrar a opção mais econômica.
Avaliação de desempenho::
- Na página Detalhes do modelo, visualize os resultados da avaliação de desempenho.
- Entenda a velocidade de saída do modelo, a latência e outras métricas de desempenho.
análise da janela de contexto::
- Na página Detalhes do modelo, visualize a Análise da janela de contexto.
- Entenda o tamanho da janela de contexto do modelo para diferentes cenários de aplicativos.

Seguindo essas etapas, os usuários podem obter uma compreensão abrangente do desempenho e das características de diferentes modelos de linguagem em larga escala e fazer a escolha que melhor atenda às suas necessidades.

Recursos mais recentes de IA # Serviços abertos de IA Plataforma de diálogo multimodelo integrada de IA #

O artigo é protegido por direitos autorais e não deve ser reproduzido sem permissão.

Awesome AI Agents: uma coleção de recursos para mais de 150 estruturas de IA

Recursos mais recentes de IA # Projeto de código aberto AI Java

5 meses atrás

01.4K

HumanOmni: um macromodelo multimodal para análise de emoções e ações em vídeos humanos

Recursos mais recentes de IA # Projeto de código aberto AI Java # Detecção visual de alvos

5 meses atrás

01.1K

Markdownify MCP Server：基于MCP协议将各种内容转换为Markdown格式

Markdownify MCP Server: converte vários conteúdos no formato Markdown com base no protocolo MCP.

Recursos mais recentes de IA # Projeto de código aberto AI Java Serviços de MCP ## Extração e limpeza de documentos

5 meses atrás

01.9K

ER NeRF: Criação de um sistema de síntese de vídeo para cabeças falantes de alta fidelidade

Recursos mais recentes de IA # Projeto de código aberto AI Java # AI Digital Man

7 meses atrás

01.9K

Sem comentários

Você precisa estar conectado para participar dos comentários!

Faça login agora

Nenhum comentário...

Chatbot Arena (LMSYS): uma plataforma competitiva on-line para avaliar modelos de linguagem grandes e comparar o desempenho de vários modelos

Introdução geral

Lista de funções

Usando a Ajuda

FlowGPT: escrita livre de assistentes de IA personalizados usando vários modelos grandes, loja de aplicativos de interpretação de IA

Groq: provedor de soluções de aceleração de inferência de modelo grande de IA, interface de modelo grande gratuita e de alta velocidade

Artigos relacionados

Awesome AI Agents: uma coleção de recursos para mais de 150 estruturas de IA

HumanOmni: um macromodelo multimodal para análise de emoções e ações em vídeos humanos

Markdownify MCP Server: converte vários conteúdos no formato Markdown com base no protocolo MCP.

ER NeRF: Criação de um sistema de síntese de vídeo para cabeças falantes de alta fidelidade

Sem comentários

Últimas coleções

Artigos mais recentes

Chatbot Arena (LMSYS): uma plataforma competitiva on-line para avaliar modelos de linguagem grandes e comparar o desempenho de vários modelos

Introdução geral

Lista de funções

Usando a Ajuda

FlowGPT: escrita livre de assistentes de IA personalizados usando vários modelos grandes, loja de aplicativos de interpretação de IA

Groq: provedor de soluções de aceleração de inferência de modelo grande de IA, interface de modelo grande gratuita e de alta velocidade

Artigos relacionados

Awesome AI Agents: uma coleção de recursos para mais de 150 estruturas de IA

HumanOmni: um macromodelo multimodal para análise de emoções e ações em vídeos humanos

Markdownify MCP Server: converte vários conteúdos no formato Markdown com base no protocolo MCP.

ER NeRF: Criação de um sistema de síntese de vídeo para cabeças falantes de alta fidelidade

Sem comentários

Ferramentas de IA selecionadas

Últimas coleções

Artigos mais recentes