ChatGPT остается на вершине многих чартов ИИ, но конкуренты находятся прямо за ним

Новости ИИОбновлено 10 месяцев назад Круг обмена ИИ
19.9K 00
堆友AI

Как определить самые мощные модели искусственного интеллекта, существующие на данный момент? Ознакомьтесь с рейтингом, чтобы узнать это.

В последние месяцы в Интернете набирают популярность составленные сообществом таблицы лидеров для моделей искусственного интеллекта, позволяющие в режиме реального времени наблюдать за борьбой крупнейших технологических гигантов в сфере ИИ.

Различные таблицы лидеров документируют, какие модели ИИ наиболее продвинуты в выполнении определенных задач.Модели ИИ - это, по сути, набор математических формул, завернутых в код, предназначенный для достижения определенной цели.

Например, Gemini от Google (ранее Bard) и парижские стартапы. Мистраль ИИ Новые участники, такие как Mistral-Medium, всколыхнули сообщество ИИ и борются за место в верхней части таблицы лидеров.

Однако GPT-4 от OpenAI по-прежнему доминирует.

Людям небезразличны передовые технологии, - говорит Йинг Шенг, аспирант факультета информатики Стэнфордского университета и один из создателей таблицы лидеров Chatbot Arena. Я думаю, людям нравится, когда таблицы постоянно меняются. Это показывает, что игра все еще продолжается и есть куда совершенствоваться".

Рейтинги основаны на тестах возможностей моделей ИИ, которые призваны выяснить, на что обычно способен ИИ и какие модели могут быть наиболее эффективны в конкретных приложениях, например, в распознавании речи. Эти тесты, которые иногда называют бенчмаркинговыми, оценивают производительность ИИ с помощью таких показателей, как степень приближения вокализации ИИ к человеческому голосу или насколько человечно отвечает ИИ-чатбот.

Поскольку ИИ продолжает развиваться, постоянное совершенствование этих тестов не менее важно.

Ванесса Парли, директор по исследованиям Института искусственного интеллекта при Центре человеческого измерения Стэнфордского университета, говорит: "Эти эталоны не идеальны, но на данный момент это единственный способ оценить систему".

В ежегодном отчете Института "Стэнфордский индекс искусственного интеллекта" отслеживается техническая производительность моделей ИИ с течением времени по различным показателям. По словам Парли, в прошлогоднем отчете было исследовано 50 показателей, но в него вошли только 20. В этом году из отчета будут исключены некоторые устаревшие показатели, чтобы сосредоточиться на новых, более полных.

Таблица лидеров также дает представление о количестве моделей, находящихся в разработке.Open LLM [Large Language Model] Leaderboard, созданная Hugging Face, платформой машинного обучения с открытым исходным кодом, по состоянию на начало февраля оценила и ранжировала более 4200 моделей, все из которых были представлены членами сообщества.

Модели участвуют в семи ключевых контрольных тестах, призванных оценить их способности в различных категориях, таких как понимание прочитанного и решение математических задач. Процесс оценки включает в себя вопросы по математике и естественным наукам начальной школы, которые проверяют рассуждения моделей на основе здравого смысла и определяют их склонность к распространению дезинформации. Некоторые тесты имеют формат множественного выбора, в то время как другие требуют, чтобы модели сами генерировали ответы на основе подсказок.

 

在众多 AI 排行榜中,ChatGPT 依然位居榜首,但竞争者紧随其后

 

ChatGPT-4 от OpenAI можно увидеть на вершине таблицы лидеров LMSYS Chatbot Arena, за ней вплотную следует Geminivia от Google. LMSYS

Посетители могут просмотреть конкретные показатели каждой модели в том или ином бенчмарке, а также их средний суммарный балл. До сих пор ни одна модель не набрала 100 баллов ни в одном бенчмарке. Smaug-72B, новая модель искусственного интеллекта, разработанная стартапом Abacus.AI из Сан-Франциско, стала первой моделью, набравшей в среднем 80 баллов.

Многие крупномасштабные языковые модели уже превзошли человеческие эталоны в таких тестах, и это явление исследователи называют "насыщением", - говорит Томас Вольф, соучредитель и главный научный сотрудник компании Hugging Face. Обычно это происходит, когда способности модели выходят за рамки конкретного теста, как, например, когда ученик переходит из средней школы в старшую и постепенно преодолевает предыдущий этап обучения; или когда модель запоминает, как отвечать на определенные вопросы теста, что известно как "переподгонка".

© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...