GLM-4.6V - Серия мультимодальных моделей большого языка с открытым исходным кодом Wisdom Spectrum AI

Последние ресурсы по искусственному интеллектуОпубликовано 4 месяца назад Круг обмена ИИ

24.9K 01

Что такое GLM-4.6V?

GLM-4.6V - это серия мультимодальных больших языковых моделей с открытым исходным кодом от Smart Spectrum AI, которая содержит две версии:GLM-4.6V (106B-A12B)Базовая версия для облачных и высокопроизводительных кластерных сценариев с архитектурой Mixed Expert (MoE) имеет около 106 миллиардов общих параметров и 12 миллиардов активных параметров и подходит для решения масштабных мультимодальных задач.GLM-4.6V-Flash (9B).Облегченная версия для локального развертывания и приложений с низкой задержкой, содержащая 9 миллиардов параметров, может работать на аппаратном обеспечении потребительского класса и поддерживает быстрое умозаключение и взаимодействие в реальном времени. Модель демонстрирует хорошие результаты в более чем 30 основных мультимодальных оценочных бенчмарках, таких как MMBench и MathVista, а ее производительность при одинаковой шкале параметров достигает уровня SOTA, что является передовым достижением в области современных мультимодальных больших моделей.

GLM-4.6V - 智谱AI开源的多模态大语言模型系列

Функциональные особенности GLM-4.6V

Встроенные возможности мультимодального вызова инструментовИзображения, скриншоты и т.д. могут использоваться непосредственно в качестве параметров инструмента без преобразования в текст, а визуальные результаты, возвращаемые инструментом, также могут непосредственно участвовать в последующих рассуждениях, образуя полный замкнутый цикл "восприятие-понимание-исполнение".
Удлиненное контекстное окно: Контекстное окно расширяется до 128 тыс. лексем во время обучения и способно обрабатывать мультимодальный контент, такой как длинные документы, видео и сложные диаграммы, сохраняя память о предыдущих вводах и кросс-модальных рассуждениях.
Высокая производительность и низкая стоимость: По сравнению с предыдущим поколением GLM-4.5V, цена вызова API снижена на 50%, при входе $1/миллион токенов и выходе $3/миллион токенов, что позволяет сбалансировать производительность и стоимость.
Широко используемые сценарии: Поддерживая такие задачи, как создание графики в смешанной аранжировке, визуальные руководства по покупкам, репликация и разработка взаимодействия с внешним миром, а также длительное восприятие документов и видео, он обеспечивает технологический пьедестал для мультимодальных приложений Agent.

Основные преимущества GLM-4.6V

Возможности вызова нативных инструментов: Впервые возможность вызова инструмента встроена в визуальную модель, что позволяет использовать мультимодальные данные, такие как изображения и скриншоты, непосредственно в качестве входных параметров для инструмента без необходимости их предварительного преобразования в текстовые описания. Визуальные результаты, возвращаемые инструментом (например, графики, скриншоты веб-страниц), могут быть напрямую разобраны моделью и включены в цепочку умозаключений, образуя полный замкнутый цикл "восприятие-понимание-исполнение", что значительно повышает эффективность и точность обработки мультимодальных задач.
Возможность обработки контекста в течение длительного времени: Контекстное окно расширяется до 128 тыс. лексем и может обрабатывать сложные документы объемом до 150 страниц, 200 страниц PPT или 1 час видео, сохраняя память о ранних вводах и выполняя кросс-изображения и кросс-документные рассуждения для таких сценариев, как анализ длинных документов и понимание видео.
Высокоточное визуальное восприятие: Отличная производительность при решении визуальных задач, таких как распознавание графиков, рукописного текста, символов, определение материала объекта и т. д., со значительным снижением иллюзий. Поддерживает ввод изображений с произвольным соотношением сторон и разрешением 4K, а также обладает широкими возможностями обработки изображений нестандартного размера (например, скриншотов пользовательского интерфейса, отсканированных документов).
Возможность мультимодального выводаВыходные данные больше не ограничиваются текстом, а могут генерировать смешанный текстовый контент, включая изображения, таблицы, скриншоты веб-страниц и т. д., а также экранировать, интегрировать и контролировать качество этих результатов, что подходит для создания контента, создания графических отчетов и других сценариев.
Поддержка программирования и фронт-энд разработки: Оптимизированный для фронтенд-сценариев, он может загружать скриншоты или дизайн веб-страниц для генерации пиксельно точного HTML/CSS-кода, поддерживать несколько раундов визуальной отладки взаимодействия на основе скриншотов, а также автоматически находить и исправлять фрагменты кода для повышения эффективности фронтенд-разработки.
Преимущества экономичности: По сравнению с моделью предыдущего поколения, стоимость вызова API снижена на 50%, всего 1 доллар за миллион токенов для ввода и 3 доллара для вывода, что делает ее более подходящей для крупномасштабных сценариев ввода изображений. Облегченная версия (параметр 9b) может работать на потребительских графических процессорах, что снижает порог развертывания.
Открытый исходный код и экологическая поддержка: Он имеет полностью открытый исходный код, предоставляет веса моделей, код выводов и примеры проектов, поддерживает основные фреймворки выводов (например, VLLM, SGLang, XLLM) и может быть развернут в среде GPU и бытовых NPU, что позволяет разработчикам легко адаптировать свои разработки и интегрировать их в существующие системы.
высокая производительностьВерсия GLM-4.6V-Flash 9b превосходит Qwen3-VL-8B по общей производительности, а версия с параметрами 106b превосходит Qwen3-VL-235B при вдвое большем количестве параметров.

Какой официальный сайт у GLM-4.6V?

Репозиторий GitHub:: https://github.com/zai-org/GLM-V
Библиотека моделей HuggingFace:: https://huggingface.co/collections/zai-org/glm-46v
Технические документы:: https://z.ai/blog/glm-4.6v

Люди, для которых предназначен GLM-4.6V

фронтенд-разработчикМодель оптимизирует возможности фронтенд-воспроизведения и разработки многостороннего визуального взаимодействия, что позволяет загружать скриншоты или дизайн веб-страниц для генерации высококачественного HTML/CSS/JS-кода, поддерживать многостороннюю модификацию взаимодействия, сокращать путь от "дизайна до запускаемой страницы" и повышать эффективность фронтенд-разработки.
Процессоры для обработки документов и видеоОн может обрабатывать длинные документы (например, финансовые отчеты компаний) и длинные видео, извлекать основные показатели из документов, понимать скрытые сигналы в отчетах и графиках и автоматически сводить их в таблицу сравнительного анализа; он может выполнять глобальное прочесывание и тонкое рассуждение на длинных видео, точно определяя ключевые моменты во времени, что подходит для понимания и исследования сложного содержания.
Разработчик мультимодального интеллектуального обслуживания клиентов: Сочетание визуальной и текстовой информации для предоставления точных ответов и предложений, а также поддержка многостороннего диалога позволяют повысить эффективность обслуживания клиентов и предоставлять пользователям более полные и точные услуги.
Исследователи и аналитики данных: В области научных исследований и анализа данных он может обрабатывать сложные мультимодальные данные, такие как документы и исследовательские отчеты, помогая извлекать ключевую информацию, выполнять анализ данных и рассуждения, а также содействовать научным исследованиям и принятию решений.
педагог: Он может использоваться для создания и поддержки учебного контента, например, для создания иллюстрированных учебных материалов, разбора сложных учебных документов и т. д., чтобы помочь студентам лучше понять и освоить свои знания.
Разработчики и исследователи искусственного интеллектаКак модель с открытым исходным кодом, она обеспечивает мощный технологический пьедестал для разработчиков и исследователей ИИ, который они могут использовать для дальнейших исследований и разработок, чтобы изучить новые приложения и технологические инновации в области мультимодального ИИ.

Последние ресурсы по искусственному интеллекту

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.

Wondercraft: инструмент преобразования текста в звук, ориентированный на озвучивание рекламы, многопользовательские аудиокниги и подкасты

Последние ресурсы по искусственному интеллекту # AI преобразование текста в речь

1 год назад

049.5K

Сканер-конвертер: сканирование пленки в формат RAW для преобразования в готовые изображения

Последние ресурсы по искусственному интеллекту # AI Image Style Control

1 год назад

054.2K

TreeGPT: интерфейс чата с искусственным интеллектом для визуализации разговоров на основе деревьев

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct Локализованное чат-приложение # AI

1 год назад

069.2K

RSSFlow Reader: RSS-фидер для сводок ИИ и интеллектуальных потоков контента

Последние ресурсы по искусственному интеллекту # AI Помощник по повышению эффективности жизни

1 год назад

058.4K

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!

Войти сейчас

Нет комментариев...

GLM-4.6V - Серия мультимодальных моделей большого языка с открытым исходным кодом Wisdom Spectrum AI

Что такое GLM-4.6V?

Функциональные особенности GLM-4.6V

Основные преимущества GLM-4.6V

Какой официальный сайт у GLM-4.6V?

Люди, для которых предназначен GLM-4.6V

InkSight - инструмент распознавания рукописного текста с открытым исходным кодом от Google

SurfSense - инструмент для исследования ИИ с открытым исходным кодом и управления знаниями, самый сильный пинто NotebookLM

Похожие статьи

Wondercraft: инструмент преобразования текста в звук, ориентированный на озвучивание рекламы, многопользовательские аудиокниги и подкасты

Сканер-конвертер: сканирование пленки в формат RAW для преобразования в готовые изображения

TreeGPT: интерфейс чата с искусственным интеллектом для визуализации разговоров на основе деревьев

RSSFlow Reader: RSS-фидер для сводок ИИ и интеллектуальных потоков контента

Нет комментариев

Последние коллекции

Последние статьи

GLM-4.6V - Серия мультимодальных моделей большого языка с открытым исходным кодом Wisdom Spectrum AI

Что такое GLM-4.6V?

Функциональные особенности GLM-4.6V

Основные преимущества GLM-4.6V

Какой официальный сайт у GLM-4.6V?

Люди, для которых предназначен GLM-4.6V

InkSight - инструмент распознавания рукописного текста с открытым исходным кодом от Google

SurfSense - инструмент для исследования ИИ с открытым исходным кодом и управления знаниями, самый сильный пинто NotebookLM

Похожие статьи

Wondercraft: инструмент преобразования текста в звук, ориентированный на озвучивание рекламы, многопользовательские аудиокниги и подкасты

Сканер-конвертер: сканирование пленки в формат RAW для преобразования в готовые изображения

TreeGPT: интерфейс чата с искусственным интеллектом для визуализации разговоров на основе деревьев

RSSFlow Reader: RSS-фидер для сводок ИИ и интеллектуальных потоков контента

Нет комментариев

Избранные инструменты искусственного интеллекта

Последние коллекции

Последние статьи