Baichuan Intelligence выпускает омнимодальную крупную модель Baichuan-Omni-1.5, превосходящую GPT-4o Mini по нескольким показателям

Новости ИИОпубликовано 7 месяцев назад Круг обмена ИИ
6.6K 00

Ближе к концу года отечественное поле больших моделей вновь облетела хорошая новость. BCinks Intelligence недавно выпустила ряд больших моделей, следуя заПолноэкранная модель глубокого вывода Baichuan-M1-previewответить пениемМедицинское усовершенствование с открытым исходным кодом Модель Baichuan-M1-14BЗатем последовал перезапускПолная модальная модель Байчуань-Омни-1,5.

Baichuan-Omni-1.5 известен как "Большая модель-генералист", что знаменует значительный прогресс отечественной большой модели в технологии мультимодального слияния. Baichuan-Omni-1.5 оснащен превосходной способностью к омни-модальному пониманию и генерации, которая не только способна одновременно обрабатыватьТекст, изображения, аудио, видеои другой мультимодальной информации, а также больше поддержки дляТекст и аудиоБимодальная генерация контента.

В то же время компания Baichuan Intelligence открыла открытый доступ к информации.OpenMM-Medicalответить пениемOpenAudioBenchЭти два высококачественных набора оценочных данных призваны способствовать процветающему развитию отечественной экосистемы технологий мультимодальных моделей. Согласно обнародованным результатам комплексной оценки, Baichuan-Omni-1.5 обладает рядом мультимодальных возможностейОбщая производительность превышает производительность GPT-4o MiniОсобенно в области медицины, где BCinks Intelligence продолжает все глубже и глубже погружаться.Оценки за просмотр медицинских изображений являются значительным преимуществомЭто в полной мере демонстрирует мощную силу и решимость BCinks Intelligence как лидера в области больших моделей. Это в полной мере демонстрирует Байчуань Интеллект как отечественный лидер в области больших моделей, сильную силу и твердую решимость в технологических инновациях и отраслевом применении посадки.

 

Адрес веса модели:

Байчуань-Омини-1.5: https://huggingface.co/baichuan-inc/Baichuan-Omni-1d5 https://modelers.cn/models/Baichuan/Baichuan-Omni-1d5

Baichuan-Omini-1.5-Base: https://huggingface.co/baichuan-inc/Baichuan-Omni-1d5-Base https://modelers.cn/models/Baichuan/Baichuan- База Omni-1d5

Адрес GitHub: https://github.com/baichuan-inc/Baichuan-Omni-1.5

Технический отчет: https://github.com/baichuan-inc/Baichuan-Omni-1.5/blob/main/baichuan_omni_1_5.pdf

 

01 . Всеобъемлющий прорыв в области мультимодальных возможностей: выдающиеся результаты в оценке обработки текста, графики, аудио и видео.

Основные характеристики Baichuan-Omni-1.5 можно кратко описать так: "Широкие возможности и высокая производительность". Наиболее примечательной особенностью модели является еевсестороннеВозможность мультимодального понимания и генерации, в частности, он не только понимает мультимодальный контент, такой как текст, изображение, видео и аудио, но и поддерживает бимодальную генерацию текста и аудио.

Что касается понимания изображений, то, согласно результатам тестирования на распространенных эталонах оценки изображений, таких как MMBench-dev, TextVQA val и т.д., производительность Baichuan-Omni-1.5Лучше, чем GPT-4o Mini. Особый интерес представляет тот факт, что, помимо общих возможностей, универсальная модель Baichuan Intelligence особенно сильна в сфере здравоохранения. На сайтеНабор данных для просмотра медицинских изображений Обзоры на GMAI-MMBench и Openmm-Medical показали, что возможности Baichuan-Omni-1.5 в понимании медицинских изображений былиЗначительно превосходит GPT-4o Mini.

百川智能发布Baichuan-Omni-1.5全模态大模型,多项测评超越GPT-4o Mini

Что касается обработки звука, Baichuan-Omni-1.5 не только поддерживаетмногоязычный диалогОн также опирается на свои возможности сквозного синтеза звука, интегрируя ASR (автоматическое распознавание речи) ответить пением TTS (преобразование текста в речь) функции. Кроме того, модель также поддерживает реализациюАудио-видео взаимодействие в режиме реального времени. Что касается конкретных показателей производительности, то общая производительность Baichuan-Omni-1.5 на таких наборах данных, как lamma question и AlpacaEvalзначительно лучше, чем Qwen2-VL-2B-Instruct, VITA-1.5 и MiniCPM-o 2.6 - похожие модели.

百川智能发布Baichuan-Omni-1.5全模态大模型,多项测评超越GPT-4o Mini

ВидеопониманиеНа уровне Baichuan-Omni-1.5 компания Baichuan Intelligence провела глубокую оптимизацию по нескольким ключевым аспектам, таким как архитектура кодера, качество обучающих данных и стратегия метода обучения. Результаты оценки показывают, что понимание видеоОбщая производительность также значительно выше, чем у GPT-4o-mini..

百川智能发布Baichuan-Omni-1.5全模态大模型,多项测评超越GPT-4o Mini

Таким образом, Baichuan-Omni-1.5 не только превосходит GPT4o-mini по возможностям общего назначения в целом, но и, что более важно, реализуетЕдинство полного модального понимания и генерациичто закладывает основу для создания более обобщенных систем ИИ.

Для дальнейшего развития исследований в области мультимодального моделирования компания Baichuan Intelligence выложила в открытый доступ два набора данных профессиональных рецензий:OpenMM-Medical и OpenAudioBench. Среди них OpenMM-Medical набор данныхПредназначен для оценки производительности модели в медицинских мультимодальных задачахОн объединяет данные из 42 общедоступных наборов данных медицинских изображений, таких как ACRIMA (изображения фундуса), BioMediTech (изображения микроскопа) и CoronaHack (рентгеновские снимки), в общей сложности 88 996 изображений.

Адрес для скачивания:

https://huggingface.co/datasets/baichuan-inc/OpenMM_Medical

OpenAudioBench тогда этоКомплексная платформа оценки для эффективной оценки навыков понимания аудиозаписей моделейОн содержит 5 поднаборов оценок для сквозного понимания аудио, 4 из которых получены из публичных наборов данных оценки (Llama Question, WEB QA, TriviaQA, AlpacaEval), а еще один - самостоятельно созданный набор оценки логического мышления речи от Baichuan Intelligence, содержащий 2701 единицу данных.

Адрес для скачивания:

https://huggingface.co/datasets/baichuan-inc/OpenAudioBench

Компания BCinks Intelligence активно участвует в создании и процветании отечественной экосистемы с открытым исходным кодом. Набор оценочных данных с открытым исходным кодом предоставляет исследователям и разработчикам унифицированный и стандартизированный инструмент оценки, который помогает проводить объективный и честный сравнительный анализ эффективности различных мультимодальных моделей, способствуя инновационному развитию алгоритмов понимания языка и архитектур моделей нового поколения.

 

02 . Всесторонняя оптимизация технологий: синергия данных, архитектуры и процессов для преодоления узких мест мультимодальных моделей

От раннего развития унимодальных моделей к мультимодальному слиянию, а затем к сегодняшним всемодальным моделям, этот технологический эволюционный путь расширил пространство для наземного применения технологии ИИ в различных отраслях. Однако по мере углубленного развития технологии ИИКак эффективно достичь единства понимания и генерации в мультимодальных моделях стало ключевой горячей точкой и технической трудностью в современных мультимодальных полевых исследованиях.

С одной стороны, единство понимания и генерации является ключом к моделированию естественного человеческого взаимодействия и достижению более естественной и эффективной коммуникации между человеком и компьютером, а также важным звеном общего искусственного интеллекта (AGI); с другой стороны, существуют значительные различия между различными модальными данными с точки зрения представления признаков, структур данных, семантических коннотаций и т.д., поэтому эффективное извлечение мультимодальных признаков и достижение эффективного взаимодействия и слияния кросс-модальной информации признается как одна из одной из самых больших проблем, стоящих перед обучением всех модальных моделей.

Выпуск Baichuan-Omni-1.5 показывает, что Baichuan Intelligence добилась значительного прогресса в решении вышеупомянутых технических проблем и нашла эффективный технический путь. Чтобы преодолеть общую проблему "интеллектуальной деградации" при обучении омнимодальных моделей, исследовательская группа Baichuan провела глубокую оптимизацию всего процесса, начиная с разработки структуры модели, оптимизации стратегии обучения и построения обучающих данных, и в итоге добилась эффективного объединения понимания и генерации.

первый вмоделированиеВходной уровень Baichuan-Omni-1.5 поддерживает различные модальные данные, которые поступают в крупномасштабную языковую модель для обработки через соответствующие кодировщики/токенизаторы; на выходном уровне модель использует схему чередования текста и аудио, которая может одновременно генерировать как текстовый, так и аудиоконтент через текстовый токенизатор и аудиодекодер. На выходном уровне модель использует схему чередования текста и аудио, которая позволяет одновременно генерировать текстовый и аудио контент с помощью текстового токенизатора и аудиодекодера. Аудиодекодер основан на модели распознавания и перевода речи OpenAI с открытым исходным кодом. Шепот Модель постепенно обучается, чтобы обеспечить расширенное семантическое извлечение и высокоточное восстановление звука. Для того чтобы модель могла работать с изображениями различного разрешения, в Baichuan-Omni-1.5 внедрена модель NaViT, поддерживающая ввод изображений с разрешением до 4K и вывод информации по нескольким изображениям, что обеспечивает полный захват информации об изображении и точное понимание его содержания.

百川智能发布Baichuan-Omni-1.5全模态大模型,多项测评超越GPT-4o Mini

Во-вторых, вУровень данныхBCI создала массивную базу данных, содержащую 340 миллионов высококачественных изображений/видео-текстовых данных и почти 1 миллион часов аудиоданных, из которых 17 миллионов фрагментов полномодальных данных были отобраны для этапа SFT (supervised fine-tuning) модели. В отличие от составления данных для традиционных моделей, обучение полномодальных моделей требует не только большого объема данных, но и разнообразия типов данных и межмодального чередования. В реальном мире информация обычно представлена в виде слияния нескольких модальностей, и данные разных модальностей содержат взаимодополняющую информацию, а эффективное слияние мультимодальных данных помогает модели узнать более общие закономерности и законы, тем самым улучшая обобщающую способность модели. Это один из ключевых элементов в построении высокопроизводительных всемодальных моделей.

Чтобы улучшить способность модели к кросс-модальному пониманию, Baichuan Intelligence создала высококачественные визуально-аудио-текстовые чередующиеся данные и обучила модель с выравниванием, используя 16 миллионов графических данных, 300 000 обычных текстовых данных, 400 000 аудиоданных, а также кросс-модальные данные, упомянутые выше. Кроме того, чтобы модель могла одновременно выполнять различные аудиозадачи, такие как ASR, TTS, переключение тембров и сквозной Q&A, исследовательская группа также создала образцы данных, специально относящиеся к этим задачам, в выровненных данных.

Третий ключевой технологический моментПроцесс обученияОптимальный дизайн модели является основным звеном, обеспечивающим эффективное повышение производительности модели за счет высококачественных данных. BCinks Intelligence использует многоступенчатую схему обучения на этапах предварительного обучения и SFT, чтобы всесторонне улучшить эффект модели. Процесс обучения разделен на четыре этапа: первый этап основан на обучении графическим данным; на втором этапе добавляются аудиоданные для предварительного обучения; на третьем этапе вводятся видеоданные для обучения; и последний этап - это этап мультимодального выравнивания, который в конечном итоге позволяет модели иметь комплексное понимание всемодального контента.

百川智能发布Baichuan-Omni-1.5全模态大模型,多项测评超越GPT-4o Mini

Благодаря всесторонней технической оптимизации общие возможности Baichuan-Omni-1.5 были значительно улучшены по сравнению с традиционной одномодальной моделью большого языка или многомодальной моделью. Выпуск Baichuan-Omni-1.5 - это не только еще одна важная веха в технологических исследованиях и разработках Baichuan Intelligence, но и знак того, что центр развития ИИ ускоряется от улучшения базовых возможностей модели до практического применения.

 

Ранее расширение возможностей большой модели было сосредоточено в основном на базовых возможностях, таких как понимание языка и распознавание образов, в то время как мощная способность Baichuan-Omni-1.5 к мультимодальному слиянию поможет технологии достичь более тесной интеграции с реальными сценариями применения. Благодаря расширению возможностей модели в области обработки мультимодальной информации, такой как язык, зрение, аудио и т. д., Baichuan-Omni-1.5 может эффективно решать более сложные и разнообразные практические задачи. Например, в медицинской отрасли мощные возможности омнимодальной модели по восприятию и генерации информации могут быть использованы для помощи врачам в диагностике заболеваний, повышая точность и эффективность диагностики, что имеет большое исследовательское значение в продвижении глубокого применения технологий ИИ в медицинской сфере. Забегая вперед, отметим, что выпуск Baichuan-Omni-1.5 может стать началом применения технологии ИИ в медицине и здравоохранении в эпоху AGI, и у нас есть основания ожидать, что в ближайшем будущем ИИ будет играть все большую роль в медицине и других областях, глубоко меняя нашу жизнь.

© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...