Chatbot Arena (LMSYS): онлайновая соревновательная платформа для бенчмаркинга больших языковых моделей и сравнения производительности нескольких моделей
Общее введение
LMSYS Org, известная как Large Model Systems Organization, - это открытая исследовательская организация, основанная студентами и преподавателями Калифорнийского университета в Беркли в сотрудничестве с Калифорнийским университетом в Сан-Диего и Университетом Карнеги-Меллон. Цель организации - сделать большие модели доступными для всех путем совместной разработки открытых моделей, наборов данных, систем и инструментов оценки.
Chatbot Arena - это онлайн-платформа, ориентированная на бенчмаркинг и сравнение производительности различных больших языковых моделей (LLM). Платформа была создана исследователями, чтобы предоставить пользователям анонимную, случайную среду для взаимодействия и оценки различных ИИ-чатботов бок о бок. Благодаря детальному анализу качества, производительности и цен Chatbot Arena помогает пользователям найти ИИ-решение, которое наилучшим образом соответствует их потребностям.


Модель PK: https://lmarena.ai/
Список функций
- Vicuna: чатбот с качеством 90% ChatGPT, доступный в размерах 7B/13B/33B.
- Чатбот Арена: масштабируемая и геймифицированная оценка LLM с помощью краудсорсинга и рейтинговой системы Эло.
- SGLang: эффективный интерфейс и время выполнения для сложных LLM-программ.
- LMSYS-Chat-1M: крупномасштабный набор данных реальных диалогов LLM.
- FastChat: открытая платформа для обучения, обслуживания и оценки чат-ботов на основе LLM.
- MT-Bench: сложный, многораундовый, открытый набор вопросов для оценки чат-ботов.
Использование помощи
- сравнение моделей::
- Посетите страницу сравнения моделей.
- Выберите модели, которые вы хотите сравнить, и нажмите кнопку "Добавить к сравнению".
- Просмотрите результаты сравнения, включая качество, производительность, цену и другие показатели.
- контроль качества::
- Ознакомьтесь с результатами тестирования качества на странице "Сведения о модели".
- Узнайте о конкретных оценках и рейтингах по различным параметрам теста.
- Анализ цен::
- На странице подробной информации о модели просмотрите анализ цен.
- Сравните цены на разные модели, чтобы найти наиболее экономичный вариант.
- Оценка производительности::
- На странице "Сведения о модели" просмотрите результаты оценки производительности.
- Поймите скорость вывода модели, задержку и другие показатели производительности.
- анализ контекстного окна::
- На странице Сведения о модели просмотрите Анализ контекстного окна.
- Понимание размера контекстного окна модели для различных сценариев применения.
Следуя этим шагам, пользователи смогут получить полное представление о производительности и характеристиках различных крупномасштабных языковых моделей и сделать выбор, который наилучшим образом соответствует их потребностям.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...