GLM-4.6V - Серия мультимодальных моделей большого языка с открытым исходным кодом Wisdom Spectrum AI
Что такое GLM-4.6V?
GLM-4.6V - это серия мультимодальных больших языковых моделей с открытым исходным кодом от Smart Spectrum AI, которая содержит две версии:GLM-4.6V (106B-A12B)Базовая версия для облачных и высокопроизводительных кластерных сценариев с архитектурой Mixed Expert (MoE) имеет около 106 миллиардов общих параметров и 12 миллиардов активных параметров и подходит для решения масштабных мультимодальных задач.GLM-4.6V-Flash (9B).Облегченная версия для локального развертывания и приложений с низкой задержкой, содержащая 9 миллиардов параметров, может работать на аппаратном обеспечении потребительского класса и поддерживает быстрое умозаключение и взаимодействие в реальном времени. Модель демонстрирует хорошие результаты в более чем 30 основных мультимодальных оценочных бенчмарках, таких как MMBench и MathVista, а ее производительность при одинаковой шкале параметров достигает уровня SOTA, что является передовым достижением в области современных мультимодальных больших моделей.

Функциональные особенности GLM-4.6V
- Встроенные возможности мультимодального вызова инструментовИзображения, скриншоты и т.д. могут использоваться непосредственно в качестве параметров инструмента без преобразования в текст, а визуальные результаты, возвращаемые инструментом, также могут непосредственно участвовать в последующих рассуждениях, образуя полный замкнутый цикл "восприятие-понимание-исполнение".
- Удлиненное контекстное окно: Контекстное окно расширяется до 128 тыс. лексем во время обучения и способно обрабатывать мультимодальный контент, такой как длинные документы, видео и сложные диаграммы, сохраняя память о предыдущих вводах и кросс-модальных рассуждениях.
- Высокая производительность и низкая стоимость: По сравнению с предыдущим поколением GLM-4.5V, цена вызова API снижена на 50%, при входе $1/миллион токенов и выходе $3/миллион токенов, что позволяет сбалансировать производительность и стоимость.
- Широко используемые сценарии: Поддерживая такие задачи, как создание графики в смешанной аранжировке, визуальные руководства по покупкам, репликация и разработка взаимодействия с внешним миром, а также длительное восприятие документов и видео, он обеспечивает технологический пьедестал для мультимодальных приложений Agent.
Основные преимущества GLM-4.6V
- Возможности вызова нативных инструментов: Впервые возможность вызова инструмента встроена в визуальную модель, что позволяет использовать мультимодальные данные, такие как изображения и скриншоты, непосредственно в качестве входных параметров для инструмента без необходимости их предварительного преобразования в текстовые описания. Визуальные результаты, возвращаемые инструментом (например, графики, скриншоты веб-страниц), могут быть напрямую разобраны моделью и включены в цепочку умозаключений, образуя полный замкнутый цикл "восприятие-понимание-исполнение", что значительно повышает эффективность и точность обработки мультимодальных задач.
- Возможность обработки контекста в течение длительного времени: Контекстное окно расширяется до 128 тыс. лексем и может обрабатывать сложные документы объемом до 150 страниц, 200 страниц PPT или 1 час видео, сохраняя память о ранних вводах и выполняя кросс-изображения и кросс-документные рассуждения для таких сценариев, как анализ длинных документов и понимание видео.
- Высокоточное визуальное восприятие: Отличная производительность при решении визуальных задач, таких как распознавание графиков, рукописного текста, символов, определение материала объекта и т. д., со значительным снижением иллюзий. Поддерживает ввод изображений с произвольным соотношением сторон и разрешением 4K, а также обладает широкими возможностями обработки изображений нестандартного размера (например, скриншотов пользовательского интерфейса, отсканированных документов).
- Возможность мультимодального выводаВыходные данные больше не ограничиваются текстом, а могут генерировать смешанный текстовый контент, включая изображения, таблицы, скриншоты веб-страниц и т. д., а также экранировать, интегрировать и контролировать качество этих результатов, что подходит для создания контента, создания графических отчетов и других сценариев.
- Поддержка программирования и фронт-энд разработки: Оптимизированный для фронтенд-сценариев, он может загружать скриншоты или дизайн веб-страниц для генерации пиксельно точного HTML/CSS-кода, поддерживать несколько раундов визуальной отладки взаимодействия на основе скриншотов, а также автоматически находить и исправлять фрагменты кода для повышения эффективности фронтенд-разработки.
- Преимущества экономичности: По сравнению с моделью предыдущего поколения, стоимость вызова API снижена на 50%, всего 1 доллар за миллион токенов для ввода и 3 доллара для вывода, что делает ее более подходящей для крупномасштабных сценариев ввода изображений. Облегченная версия (параметр 9b) может работать на потребительских графических процессорах, что снижает порог развертывания.
- Открытый исходный код и экологическая поддержка: Он имеет полностью открытый исходный код, предоставляет веса моделей, код выводов и примеры проектов, поддерживает основные фреймворки выводов (например, VLLM, SGLang, XLLM) и может быть развернут в среде GPU и бытовых NPU, что позволяет разработчикам легко адаптировать свои разработки и интегрировать их в существующие системы.
- высокая производительностьВерсия GLM-4.6V-Flash 9b превосходит Qwen3-VL-8B по общей производительности, а версия с параметрами 106b превосходит Qwen3-VL-235B при вдвое большем количестве параметров.
Какой официальный сайт у GLM-4.6V?
- Репозиторий GitHub:: https://github.com/zai-org/GLM-V
- Библиотека моделей HuggingFace:: https://huggingface.co/collections/zai-org/glm-46v
- Технические документы:: https://z.ai/blog/glm-4.6v
Люди, для которых предназначен GLM-4.6V
- фронтенд-разработчикМодель оптимизирует возможности фронтенд-воспроизведения и разработки многостороннего визуального взаимодействия, что позволяет загружать скриншоты или дизайн веб-страниц для генерации высококачественного HTML/CSS/JS-кода, поддерживать многостороннюю модификацию взаимодействия, сокращать путь от "дизайна до запускаемой страницы" и повышать эффективность фронтенд-разработки.
- Процессоры для обработки документов и видеоОн может обрабатывать длинные документы (например, финансовые отчеты компаний) и длинные видео, извлекать основные показатели из документов, понимать скрытые сигналы в отчетах и графиках и автоматически сводить их в таблицу сравнительного анализа; он может выполнять глобальное прочесывание и тонкое рассуждение на длинных видео, точно определяя ключевые моменты во времени, что подходит для понимания и исследования сложного содержания.
- Разработчик мультимодального интеллектуального обслуживания клиентов: Сочетание визуальной и текстовой информации для предоставления точных ответов и предложений, а также поддержка многостороннего диалога позволяют повысить эффективность обслуживания клиентов и предоставлять пользователям более полные и точные услуги.
- Исследователи и аналитики данных: В области научных исследований и анализа данных он может обрабатывать сложные мультимодальные данные, такие как документы и исследовательские отчеты, помогая извлекать ключевую информацию, выполнять анализ данных и рассуждения, а также содействовать научным исследованиям и принятию решений.
- педагог: Он может использоваться для создания и поддержки учебного контента, например, для создания иллюстрированных учебных материалов, разбора сложных учебных документов и т. д., чтобы помочь студентам лучше понять и освоить свои знания.
- Разработчики и исследователи искусственного интеллектаКак модель с открытым исходным кодом, она обеспечивает мощный технологический пьедестал для разработчиков и исследователей ИИ, который они могут использовать для дальнейших исследований и разработок, чтобы изучить новые приложения и технологические инновации в области мультимодального ИИ.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...




