Baidu выпускает Wenxin Big Model 4.5 и X1: двойная эволюция мультимодальных возможностей и глубокого мышления

Новости ИИОбновлено 5 месяцев назад Круг обмена ИИ
7.6K 00

16 марта компания Baidu официально выпустила две новые большие модели: Wenshin Big Model 4.5 и Wenshin Big Model X1. Обе модели были выпущены водним словомОфициальный сайт находится в сети, и пользователи могут ознакомиться с ним бесплатно. В то же время Wenshin Big Model 4.5 появилась на платформе Baidu Intelligent Cloud Qianfan Big Model Platform, которая может быть вызвана корпоративными пользователями и разработчиками через API. Wenshin Big Model X1 также скоро будет доступна на платформе Chifan. Кроме того, Baidu Search, Wenshin Yiyin APP и другие продукты также будут подключены к этим двум новым моделям, предоставляя пользователям более разнообразные возможности.

百度发布文心大模型 4.5 与 X1:多模态能力与深度思考双重进化

 

Wenshin Big Model 4.5: нативная мультимодальность, более широкие возможности

Wenshin Big Model 4.5 - это новое поколение нативной мультимодальной базовой большой модели, разработанной компанией Baidu. Она обеспечивает совместную оптимизацию за счет совместного мультимодального моделирования и превосходит возможности мультимодального понимания. По сравнению с предыдущей версией, Wenshin Big Model 4.5 значительно улучшила языковые способности, понимание, генерацию, логику и память, а также сокращение количества сообщений об ошибках, логические рассуждения и способность к кодированию.

百度发布文心大模型 4.5 与 X1:多模态能力与深度思考双重进化

мультимодальные возможности

百度发布文心大模型 4.5 与 X1:多模态能力与深度思考双重进化

Текстовая компетентность

Wenxin Big Model 4.5 способен всесторонне понимать текст, картинки, аудио, видео и другие виды контента. Например, при решении сложных задач, содержащих диаграммы, он способен точно выделить ключевую информацию на диаграммах, подробно описать шаги и анализ для решения задач и, в конце концов, прийти к правильному ответу.

 

Помимо "высокого IQ", Wenshin Big Model 4.5 также демонстрирует "высокий EQ", когда дело доходит до понимания остроумных картинок и сатирических карикатур в Интернете. Он может точно улавливать скрытые послания и юмористические элементы в этих материалах и подробно объяснять их. Например, он может четко объяснить математические концепции и логику некоторых "терьерских картинок", которые содержат математическую концепцию "непрерывность не обязательно ведет к непрерывности, а непрерывность обязательно ведет к непрерывности".

 

Расширенные возможности Wenshin Big Model 4.5 обусловлены несколькими ключевыми технологиями:

  • FlashMask Динамическая маска внимания: Эта техника ускоряет вычисление масок внимания для больших моделей, улучшает возможности моделирования длинных последовательностей и эффективность обучения, а значит, оптимизирует работу модели при обработке длинных текстов и многораундовых диалогов.
  • Мультимодальные гетерогенные методы расширения экспертных знаний: Создавая гетерогенные эксперты для различных модальных характеристик и комбинируя адаптивную функцию потерь для модального восприятия, мы решаем проблему дисбаланса различных модальных градиентов и улучшаем возможности мультимодального слияния.
  • Методы сжатия пространственно-временных представлений: Эта техника позволяет эффективно сжимать семантические представления изображений и видео в пространственно-временном измерении, значительно повысить эффективность обучения мультимодальных данных и расширить возможности моделей по получению знаний из длинных видео.
  • Методы построения крупномасштабных данных на основе точек знаний: С помощью методов иерархической выборки знаний, сжатия и объединения данных, а также целенаправленного синтеза дефицитных точек знаний создаются данные предварительного обучения с высокой плотностью знаний, что позволяет повысить эффективность обучения модели и снизить вероятность генерации моделью ошибочной информации.
  • Посттренировочные техники на основе самообратной связи: Итеративная техника посттренинга с самообратной связью, включающая в себя несколько способов оценки, всесторонне улучшает стабильность и устойчивость обучения с подкреплением, позволяя предварительно обученным моделям лучше соответствовать намерениям человека.

Literary Mind Big Model X1: более глубокое мышление, более широкие возможности

Большая модель литературного разума X1 обладает расширенными возможностями для понимания, планирования, размышления и эволюции, а также поддерживает мультимодальность. Это первая модель глубокого мышления, которая может самостоятельно использовать инструменты. Wenshin Big Model X1 демонстрирует отличные результаты в викторине на знание китайского языка, литературном творчестве, написании рукописей, ежедневном диалоге, логических рассуждениях, сложных вычислениях и вызове инструментов.

Wenxin Big Model X1 уже поддерживает различные инструменты, включая расширенный поиск, викторину по документам, понимание изображений, рисование AI, интерпретатор кода, чтение ссылок на веб-страницы, карту деревьев TreeMind, академический поиск Baidu, запрос бизнес-информации, запрос информации о присоединении и так далее.

Например, при создании переписанной версии "Фуги из холодной печи" Wenshin Big Model X1 демонстрирует четкую цепочку мышления: сначала он находит аллюзии на исторические фигуры, похожие на оригинальный текст, затем обращает внимание на стиль письма и синтаксис, затем проверяет уместность аллюзий и, наконец, сохраняет гладкую структуру текста, чтобы создать текст, который в основном повторяет оригинальный текст с точки зрения намерений и стиля письма и синтаксиса.

百度发布文心大模型 4.5 与 X1:多模态能力与深度思考双重进化

Расширенные возможности Wenshin Big Model X1 обусловлены несколькими ключевыми технологиями:

  • Прогрессивные и интенсивные методы обучения и тренировки: Этот инновационный подход улучшает комплексное применение моделей в таких сценариях, как создание, поиск, вызов инструментов и рассуждения.
  • Сплошное обучение, основанное на цепочке мыслей и действий: Для глубокого поиска, вызова инструментов и других сценариев сквозное обучение модели выполняется на основе обратной связи с результатами, что значительно повышает эффект обучения.
  • Разнообразная и единообразная система вознаграждений: Создайте единую систему вознаграждения, включающую в себя несколько типов механизмов вознаграждения, чтобы обеспечить более надежную обратную связь для обучения модели.

Цены и перспективы

В настоящее время пользователи могут бесплатно ознакомиться с Wuxin Big Model 4.5 и Wuxin Big Model X1 на официальном сайте WuxinYiYin, а на платформе Baidu Intelligent Cloud Qianfan Big Model входная цена API Wuxin Big Model 4.5 составляет всего 0,004 юаня за тысячу слов, а выходная цена - 0,016 юаня за тысячу слов. Wenshin Big Model X1 скоро будет запущен на платформе Chifan, его входная цена составляет 0,002 юаня за тысячу слов, а выходная цена - 0,008 юаня за тысячу слов.

百度发布文心大模型 4.5 与 X1:多模态能力与深度思考双重进化

Baidu заявила, что 2024 год - это год полной итерации технологии больших моделей, и что она будет делать более смелые инвестиции в ИИ, центры обработки данных и облачную инфраструктуру для создания лучших и более умных моделей следующего поколения.

© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...