ChatGPT остается на вершине многих чартов ИИ, но конкуренты находятся прямо за ним
Как определить самые мощные модели искусственного интеллекта, существующие на данный момент? Ознакомьтесь с рейтингом, чтобы узнать это.
В последние месяцы в Интернете набирают популярность составленные сообществом таблицы лидеров для моделей искусственного интеллекта, позволяющие в режиме реального времени наблюдать за борьбой крупнейших технологических гигантов в сфере ИИ.
Различные таблицы лидеров документируют, какие модели ИИ наиболее продвинуты в выполнении определенных задач.Модели ИИ - это, по сути, набор математических формул, завернутых в код, предназначенный для достижения определенной цели.
Например, Gemini от Google (ранее Bard) и парижские стартапы. Мистраль ИИ Новые участники, такие как Mistral-Medium, всколыхнули сообщество ИИ и борются за место в верхней части таблицы лидеров.
Однако GPT-4 от OpenAI по-прежнему доминирует.
Людям небезразличны передовые технологии, - говорит Йинг Шенг, аспирант факультета информатики Стэнфордского университета и один из создателей таблицы лидеров Chatbot Arena. Я думаю, людям нравится, когда таблицы постоянно меняются. Это показывает, что игра все еще продолжается и есть куда совершенствоваться".
Рейтинги основаны на тестах возможностей моделей ИИ, которые призваны выяснить, на что обычно способен ИИ и какие модели могут быть наиболее эффективны в конкретных приложениях, например, в распознавании речи. Эти тесты, которые иногда называют бенчмаркинговыми, оценивают производительность ИИ с помощью таких показателей, как степень приближения вокализации ИИ к человеческому голосу или насколько человечно отвечает ИИ-чатбот.
Поскольку ИИ продолжает развиваться, постоянное совершенствование этих тестов не менее важно.
Ванесса Парли, директор по исследованиям Института искусственного интеллекта при Центре человеческого измерения Стэнфордского университета, говорит: "Эти эталоны не идеальны, но на данный момент это единственный способ оценить систему".
В ежегодном отчете Института "Стэнфордский индекс искусственного интеллекта" отслеживается техническая производительность моделей ИИ с течением времени по различным показателям. По словам Парли, в прошлогоднем отчете было исследовано 50 показателей, но в него вошли только 20. В этом году из отчета будут исключены некоторые устаревшие показатели, чтобы сосредоточиться на новых, более полных.
Таблица лидеров также дает представление о количестве моделей, находящихся в разработке.Open LLM [Large Language Model] Leaderboard, созданная Hugging Face, платформой машинного обучения с открытым исходным кодом, по состоянию на начало февраля оценила и ранжировала более 4200 моделей, все из которых были представлены членами сообщества.
Модели участвуют в семи ключевых контрольных тестах, призванных оценить их способности в различных категориях, таких как понимание прочитанного и решение математических задач. Процесс оценки включает в себя вопросы по математике и естественным наукам начальной школы, которые проверяют рассуждения моделей на основе здравого смысла и определяют их склонность к распространению дезинформации. Некоторые тесты имеют формат множественного выбора, в то время как другие требуют, чтобы модели сами генерировали ответы на основе подсказок.

ChatGPT-4 от OpenAI можно увидеть на вершине таблицы лидеров LMSYS Chatbot Arena, за ней вплотную следует Geminivia от Google. LMSYS
Посетители могут просмотреть конкретные показатели каждой модели в том или ином бенчмарке, а также их средний суммарный балл. До сих пор ни одна модель не набрала 100 баллов ни в одном бенчмарке. Smaug-72B, новая модель искусственного интеллекта, разработанная стартапом Abacus.AI из Сан-Франциско, стала первой моделью, набравшей в среднем 80 баллов.
Многие крупномасштабные языковые модели уже превзошли человеческие эталоны в таких тестах, и это явление исследователи называют "насыщением", - говорит Томас Вольф, соучредитель и главный научный сотрудник компании Hugging Face. Обычно это происходит, когда способности модели выходят за рамки конкретного теста, как, например, когда ученик переходит из средней школы в старшую и постепенно преодолевает предыдущий этап обучения; или когда модель запоминает, как отвечать на определенные вопросы теста, что известно как "переподгонка".
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...