Chatbot Arena (LMSYS): онлайновая соревновательная платформа для бенчмаркинга больших языковых моделей и сравнения производительности нескольких моделей

Общее введение

LMSYS Org, известная как Large Model Systems Organization, - это открытая исследовательская организация, основанная студентами и преподавателями Калифорнийского университета в Беркли в сотрудничестве с Калифорнийским университетом в Сан-Диего и Университетом Карнеги-Меллон. Цель организации - сделать большие модели доступными для всех путем совместной разработки открытых моделей, наборов данных, систем и инструментов оценки.

Chatbot Arena - это онлайн-платформа, ориентированная на бенчмаркинг и сравнение производительности различных больших языковых моделей (LLM). Платформа была создана исследователями, чтобы предоставить пользователям анонимную, случайную среду для взаимодействия и оценки различных ИИ-чатботов бок о бок. Благодаря детальному анализу качества, производительности и цен Chatbot Arena помогает пользователям найти ИИ-решение, которое наилучшим образом соответствует их потребностям.

Chatbot Arena(LMSYS):大语言模型基准测试和多模型比较性能的在线竞技平台

 

Chatbot Arena(LMSYS):大语言模型基准测试和多模型比较性能的在线竞技平台

Модель PK: https://lmarena.ai/

 

Список функций

 

  • Vicuna: чатбот с качеством 90% ChatGPT, доступный в размерах 7B/13B/33B.
  • Чатбот Арена: масштабируемая и геймифицированная оценка LLM с помощью краудсорсинга и рейтинговой системы Эло.
  • SGLang: эффективный интерфейс и время выполнения для сложных LLM-программ.
  • LMSYS-Chat-1M: крупномасштабный набор данных реальных диалогов LLM.
  • FastChat: открытая платформа для обучения, обслуживания и оценки чат-ботов на основе LLM.
  •  MT-Bench: сложный, многораундовый, открытый набор вопросов для оценки чат-ботов.

 

Использование помощи

  1. сравнение моделей::
    • Посетите страницу сравнения моделей.
    • Выберите модели, которые вы хотите сравнить, и нажмите кнопку "Добавить к сравнению".
    • Просмотрите результаты сравнения, включая качество, производительность, цену и другие показатели.
  2. контроль качества::
    • Ознакомьтесь с результатами тестирования качества на странице "Сведения о модели".
    • Узнайте о конкретных оценках и рейтингах по различным параметрам теста.
  3. Анализ цен::
    • На странице подробной информации о модели просмотрите анализ цен.
    • Сравните цены на разные модели, чтобы найти наиболее экономичный вариант.
  4. Оценка производительности::
    • На странице "Сведения о модели" просмотрите результаты оценки производительности.
    • Поймите скорость вывода модели, задержку и другие показатели производительности.
  5. анализ контекстного окна::
    • На странице Сведения о модели просмотрите Анализ контекстного окна.
    • Понимание размера контекстного окна модели для различных сценариев применения.

Следуя этим шагам, пользователи смогут получить полное представление о производительности и характеристиках различных крупномасштабных языковых моделей и сделать выбор, который наилучшим образом соответствует их потребностям.

© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...