Отечественная большая модель дебютирует китайским логическим мышлением, "Tiangong большая модель 4.0" o1 версия уже здесь!

Новости ИИОпубликовано 9 месяцев назад Круг обмена ИИ
7.7K 00

Я и не подозревал, что технологии развиваются так быстро. В последнее время люди уже представляют себе жизнь после эпохи ИИ.

В выходные генеральный директор JPMorgan Chase Джейми Даймон заявил, что благодаря технологиям искусственного интеллекта будущие поколения смогут работать всего три с половиной дня в неделю и доживать до 100 лет.

Некоторые исследования показывают, что такие технологии, как генеративный ИИ, могут автоматизировать задачи, которые в настоящее время занимают 60-70% рабочего времени людей. Откуда возьмутся технологии, необходимые для этих изменений? Это должен быть прорывной ИИ, и кое-кто составил список прогнозов различных деятелей ИИ о том, когда появится общий искусственный интеллект (AGI). Хассабис из DeepMind, например, считает, что до появления AGI осталось от двух до трех крупных технологических инноваций.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Например, генеральный директор OpenAI Сэм Альтман, который даже считает, что AGI появится уже в следующем году. Если подумать.Причина такой уверенности может заключаться в том, что люди недавно сделали большие модели, научившись "рассуждать"..

Только в сентябре OpenAI официально обнародовала беспрецедентную большую модель сложных рассуждений o1, которая стала большим прорывом в том, что новая модель обладает как возможностями общего назначения, так и способностью решать более сложные задачи, чем это было возможно с помощью предыдущих научных, кодовых и математических моделей. Результаты экспериментов показывают, что o1 значительно превосходит GPT-4o в подавляющем большинстве задач рассуждения.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

OpenAI открыл новое направление для способностей больших моделей: "могут ли они думать и рассуждать как человек" стало важным показателем для оценки их способностей. Если новые модели, выпускаемые производителями, не будут обладать некоторой цепочкой мышления, боюсь, им будет неловко их показывать.

Однако до сих пор официальная версия o1 все еще задерживается. ИИ-сообщество, особенно крупные модельные компании в Китае, оказывают влияние на превосходство o1 и начинают брать верх в некоторых авторитетных обзорах.

Сегодня.Первая в Китае модель o1 с китайской способностью к логическому мышлению уже здесь, это версия "Skywork 4.0" o1 (английское название: Skywork o1), выпущенная компанией Kunlun MSI.. Это уже третий крупный шаг компании в области больших моделей и связанных с ними приложений за последний месяц, послеSkyworks AI Расширенный поиск, иГолосовой диалог в реальном времени ИИ-ассистент Skyo Первые появления подряд.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

С этого момента Skywork o1 открывает внутренний тест, если вы хотите испытать его, подайте заявку прямо сейчас.

Подайте заявку на сайте www.tiangong.cn

Три модели рядом друг с другом

Новое поле битвы для рассуждений

На этот раз Skywork o1 включает следующие три модели: как открытую версию, чтобы поддержать сообщество разработчиков с открытым исходным кодом, так и более мощную специализированную версию.

Среди прочего, версия с открытым исходным кодом Skywork o1 Открытый В то же время Skywork o1 Open открывает возможности для решения задач математического анализа (например, вычислений по 24 точкам), которые невозможны в моделях большего масштаба, таких как GPT-4o. Это также открывает возможность развертывания моделей вывода на легких устройствах.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Кроме того, Kunlun откроет исходный код двух моделей "процесс - награда" (PRM) для задач рассуждения, а именно Skywork o1 Open-PRM-1.5B ответить пением Skywork o1 Open-PRM-7BВ предыдущей модели Skywork-Reward-Model с открытым исходным кодом оценивается только весь ответ модели. В то время как ранее открытая модель Skywork-Reward-Model оценивает только весь ответ модели, Skywork o1 Open-PRM может быть доработана для оценки каждого этапа ответа модели.

По сравнению с существующими в сообществе PRM с открытым исходным кодом, Skywork o1 Open-PRM-1.5B может достигать результатов на 8Б моделях, таких как RLHFlow's Llama3.1-8B-PRM-Deepseek-Data и OpenR's Math-psa-7B. Skywork o1 Open-PRM-7B является более мощным, способным одновременно приблизиться к Qwen2.5-Math-RM-72B или даже превзойти его в 10 раз в большинстве бенчмарков.

Сообщается, чтоSkywork o1 Open-PRM также является первым PRM с открытым исходным кодом для задач, основанных на коде.. В следующей таблице приведены результаты оценки с использованием Skywork-o1-Open-8B в качестве базовой модели, с применением различных PRM на наборах Maths и Code Review.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Примечание: За исключением Skywork-o1-Open-PRM, другие PRM с открытым исходным кодом не оптимизированы специально для задач, основанных на коде, поэтому сравнение для задач, основанных на коде, не проводится.

Подробный технический отчет также будет опубликован в ближайшее время. Модель и связанная с ней презентация в настоящее время находятся в открытом доступе на сайте Huggingface.

Адрес с открытым исходным кодом: https://tinyurl.com/skywork-o1

Skywork o1 Lite Обладая способностью мыслить комплексно и достигая более высокой скорости рассуждений и мышления, он или она особенно хорошо справляется с задачами по китайской логике и рассуждениям, математике и так далее.Skywork o1 Preview Это полная версия модели рассуждений, с самостоятельно разработанными алгоритмами онлайн рассуждений, по сравнению с версией Lite может представить более разнообразный и глубокий мыслительный процесс, для достижения более полного и качественного рассуждения.

Вы можете спросить, чем Skywork o1 отличается от текущих работ по воспроизведению моделей o1, которые все работают на уровне умозаключений.

По словам Куньлуня, серия моделей эндогенно развивает способность думать, планировать и размышлять над результатами моделирования, рассуждая, размышляя и проверяя шаг за шагом в медленном мышлении, раскрывая типичные продвинутые версии сложных человеческих мыслительных способностей, таких как "глубокое мышление", и обеспечивая качество и глубину ответов.

Конечно, нам предстоит увидеть, как Skywork o1 проявит себя в полевых условиях.

личный опыт

На этот раз Skywork o1 полностью оправдала себя.

Я заранее получил тестовую квалификацию и изучил все аспекты рассудочных способностей моделей серии Skywork o1, особенно версий Lite и Preview. На следующем рисунке показан интерфейс Skywork o1 Lite.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Начнем с того, что позволим Skywork o1 Lite составить собственный отчет, и мы увидим, что модель не дает ответа напрямую, а скорееВизуализация полного процесса мышления, включая ориентацию на проблему, профилирование самокомпетентности и т.д. для пользователяи будетПокажите время для размышленийчто является отличительной особенностью современных моделей рассуждений.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Переходя к официальному тесту, мы проанализировали различные типы вопросов, чтобы понять, сможем ли мы разобраться в устройстве Skywork o1.

Сравнивайте размеры и считайте "r" - больше никаких проблем!

Раньше крупные модели часто терпели фиаско, когда сталкивались с простыми, на первый взгляд, задачами сравнения размеров и подсчета. Теперь эти проблемы перестали быть проблемой для Skywork o1 Lite.

Сравнивая, больше ли 13,8, чем 13,11, Skywork o1 Lite выстраивает целую цепочку размышлений и приходит к выводу, что ключ к решению задачи лежит в размере десятичных знаков. Модель также занимается самоанализом, перепроверяя сделанные выводы и напоминая о легких моментах, на которые можно ответить неверно.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Аналогично, при правильном ответе на вопрос "Сколько букв "r" в клубнике?" Skywork o1 Lite также представляет собой полную цепочку размышлений, проверок и подтверждений при правильном ответе на вопрос "Сколько букв "r" в клубнике?".

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

При ответе на вопросы с зашифрованными элементами Skywork o1 Lite быстро очищает сознание от отвлекающих факторов.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Играйте с мозговыми головоломками, не попадая в языковые ловушки

Большие модели иногда путаются в вопросах-головоломках в китайском контексте, что приводит к неправильным ответам. На этот раз Skywork o1 Lite легко справится с такими вопросами.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Две пары, состоящие из отца и сына, поймали всего по три рыбы, но каждому досталось по одной, и Skywork o1 Lite удалось выяснить, в чем дело.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Приобретайте здравый смысл и прощайтесь с дебильными атрибутами

Способность большой модели приблизиться к человеческому уровню рассуждений на основе здравого смысла - один из важнейших показателей ее способности повышать достоверность, расширять возможности принятия решений и применения в различных областях. skywork o1 Lite и Preview демонстрируют хорошие результаты в этом отношении.

Например, различие между длиной (дюймы, сантиметры, ярды) и единицами массы (килограммы).

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Например, почему кубики льда из соленой воды тают легче, чем кубики льда из обычной воды.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Другой пример - человек, стоящий на совершенно неподвижной лодке, которая движется вперед при прыжке назад. Skywork o1 Lite наглядно объясняет физику, лежащую в основе этого явления.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Станьте решателем проблем, и у вас не будет проблем с вопросами GCSE!

Математические рассуждения являются фундаментальной способностью для решения сложных задач, и большие модели с сильными возможностями математических рассуждений помогают пользователям эффективно решать сложные междисциплинарные задачи.

Чему равен 10-й член последовательности "2, 6, 12, 20, 30..." в задаче о последовательности "2, 6, 12, 20, 30..."? Каков 10-й член этой последовательности?". Skywork o1 Lite наблюдает за расположением чисел, находит закономерность, проверяет ее и, наконец, дает правильный ответ.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

При решении задачи на комбинации (сколько вариантов составить команду из 3 человек из 10), Skywork o1 Preview получил правильный ответ после обдумывания его в полной связи.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Для другой задачи динамического программирования (монеты достоинством 1, 3 и 5, сколько монет нужно, чтобы получилось 11?) Skywork o1 Lite дает оптимальное решение.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Мы немного усложним Skywork o1 Lite, дав ему два вопроса по математике из GCSE National Paper A Maths (Wen) 2024 года.

Она начинается с вопроса о вероятности (какова вероятность того, что A, B, C и D расположены в ряд, C не находится в начале ряда, а A или B - в конце ряда), и Skywork o1 Lite быстро дает правильный ответ.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Затем идут вопросы о функциях ( 国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了 ), Skywork o1 Lite - все решения и ответы в одном месте.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Дотошность и умение логически мыслить

Логические рассуждения с использованием больших моделей - одна из основных возможностей для создания более мощного ИИ общего назначения, и Skywork o1 Lite умеет отвечать на такие вопросы. Например, в классической задаче о лжи Skywork o1 Lite способен определить, кто говорит правду, а кто лжет, с логически самосогласованной точки зрения.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Skywork o1 Lite также не ослеплен парадоксами.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Беспристрастность перед лицом моральных дилемм

Принятие этических решений является важным фактором, обеспечивающим безопасное развитие ИИ, соблюдение общественных норм морали и повышение доверия и благожелательности пользователей, поэтому большим моделям тем более важно быть осторожными в своих высказываниях.

Вместо того чтобы дать абсолютный ответ на извечную дилемму "спасать жену или спасать маму", Skywork o1 Lite взвешивает все "за" и "против" и дает разумный совет.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Существует также дилемма "экономить больше или меньше", и Skywork o1 Preview не делает поспешных выводов, а предлагает несколько более глубоких мыслей.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Это дебильный тест, и он держится.

Skywork o1 Lite способен с легкостью отвечать на отсталые вопросы, которые часто используются для проверки интеллекта больших моделей, например, о разнице между идеальным результатом 750 баллов на вступительном экзамене в колледж и 985 баллами на экзамене.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

А вот вопрос "Можно ли есть мясо на обед ночью?" Skywork o1 Lite явно не введен в заблуждение названием еды.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Проблемы с кодом также могут быть исправлены

Skywork o1 Lite способен решать некоторые проблемы с кодом, например, проблему Number of islands на LeetCode.

Вопрос звучит так: "Учитывая двумерную карту с сеткой, где "1" (суша) и "0" (вода), подсчитайте количество островов. Острова окружены водой и образуются путем соединения соседних земель по горизонтали или вертикали, и вы можете предположить, что все четыре стороны сетки окружены водой".

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

На этом этапе мы можем сделать следующую волну выводов:

С одной стороны, "мелкие" проблемы, которые большие модели обычно обходят стороной, в глазах Skywork o1 с его способностью к рассуждениям - сущий пустяк. С другой стороны, благодаряПолная цепочка размышлений и планирования, самоанализ и самооценкаSkywork o1 также способен продумывать сложные сценарии решения задач и получать более точные и эффективные результаты.

Таким образом, гораздо более сильные, чем раньше, способности к рассуждениям позволят Skywork o1 использовать потенциал в более разнообразных задачах и доменах, особенно в логических рассуждениях и сложных научно-математических задачах, которые легко перевернуть. Запуск Skywork также должен способствовать дальнейшей оптимизации эффективности задач по созданию высококачественного контента и глубокому поиску, таких как творческое письмо.

Отечественная модель o1

Самостоятельное исследование на основе технологий

Ранее мы уже наблюдали серию генеративных вертикальных приложений ИИ, предложенных Kunlun Wanwei, включая, но не ограничиваясь направлением поиска, музыки, игр, социальных сетей и коротких пьес ИИ. За этим, в исследовании и разработке базовой технологии большой модели, Kunlun Wanwei уже давно имеет макет.

С 2020 года компания Kunlun Wanwei постоянно наращивает инвестиции в создание крупных моделей ИИ: компания выпустила собственную серию моделей AIGC всего через месяц после начала работы ChatGPT. Во многих вертикалях Kunlun уже запустила приложения, включая Melodio, первую в мире платформу потоковой музыки с искусственным интеллектом, Mureka, платформу для создания музыки с искусственным интеллектом, и Mureka, платформу для создания короткометражных драматических фильмов с искусственным интеллектом. SkyReels И так далее.

На уровне базовых технологий компания Kunlun уже выстроила целую промышленную цепочку "арифметическая инфраструктура - алгоритм большой модели - приложение ИИ", ядром которой является серия больших моделей "Tiangong".

В апреле прошлого года компания Kunlun World Wide выпустила самостоятельно разработанную модель "Tiangong 1.0". В апреле этого года модель Tiangong была обновлена до версии 3.0, приняв гибридную экспертную модель MoE с 400 миллиардами параметров и одновременно сделав выбор в пользу открытого исходного кода. В настоящее время версия Tiangong 4.0 основана на методе интеллектуального возникновения для достижения улучшения возможностей в задачах логического мышления.

В техническом плане производительность Skywork o1 при выполнении заданий на логическое мышление значительно повышается благодаря трем этапам самостоятельного обучения, разработанным компанией Skywork, в том числе следующим:

во-первых,Обучение навыкам рассуждения и размышленияSkywork o1 создает высококачественные пошаговые данные для размышлений, размышлений и проверки с помощью саморазвивающейся мультиинтеллектуальной системы тела, дополненной высококачественными, разнообразными данными длительного размышления для непрерывного предварительного обучения и контролируемой тонкой настройки базовой модели.

во-вторыхИнтенсивное обучение рассуждениямКоманда Skywork o1 разработала новейшую модель Skywork o1 Process Reward Model (PRM) для пошагового улучшения рассуждений, которая не только эффективно отражает влияние промежуточных и мыслительных шагов на окончательный ответ сложной задачи рассуждения, но и сочетается с самостоятельно разработанными алгоритмами пошагового улучшения рассуждений для дальнейшего усиления возможностей модели рассуждения и мышления.

в-третьихРассуждения. Основанный на собственной разработке Тяньгуна алгоритм онлайн-рассуждений Q* работает с моделью, чтобы думать в режиме онлайн и находить наилучший путь рассуждения. Это также первый случай в мире, когда алгоритм Q * реализован и обнародован, что может значительно улучшить способность LLM к умозаключениям на таких наборах данных, как MATH, и снизить потребность в вычислительных ресурсах.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

На наборе данных MATH Q * помогает DeepSeek-Math-7b улучшить точность до 55,4%, превзойдя Близнецы Ультра.

Q * Адрес газеты "Алгоритм": https://arxiv.org/abs/2406.14283

Как видно, технология Kunlun Wanwei достигла передового уровня в отрасли и постепенно заняла прочные позиции в высококонкурентной области генеративного ИИ.

По сравнению с нынешним расцветом генеративных приложений ИИ, исследования начали входить в "глубокую воду" на уровне базовых технологий. Только компании с долгосрочными накоплениями смогут создать новое поколение приложений, которые изменят нашу жизнь.

Мы надеемся, что в будущем Kunlun Wanwei будет предлагать нам все более и более мощные технологии.

© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...