dots.vlm1 - Маленькая красная книга hi lab с открытым исходным кодом мультимодальная большая модель
dots.vlm1 - это первая мультимодальная большая модель, открытая лабораторией Little Red Book hi lab. Основанная на NaViT, визуальном кодере с 1,2 миллиардами параметров, обученном с нуля, и DeepSeek V3 Large Language Model (LLM), она обладает мощным визуальным восприятием и текстовыми выводами...
LangExtract - библиотека Google с открытым исходным кодом на языке Python для извлечения структурированной информации.
LangExtract - это библиотека Google с открытым исходным кодом на языке Python, которая использует большие языковые модели (LLM) для извлечения структурированной информации из неструктурированного текста. С помощью пользовательских команд и небольшого количества примеров она может эффективно определять и организовывать ключевые детали, такие как клинические записи из...
Qwen-Image - Tongyi Qianqian запускает базовую модель Qwen-Image с открытым исходным кодом
Qwen-Image - это базовая модель генерации изображений с открытым исходным кодом, выпущенная командой Alibaba Tongyi Qianqian. Имея 20 миллиардов параметров, она использует архитектуру мультимодального диффузионного трансформатора (MMDiT), которая включает в себя три модуля: мультимодальное понимание, кодирование высокого разрешения и диффузионное моделирование.Qwen-Image...
Gemini 2.5 Deep Think - модель искусственного интеллекта от Google
Gemini 2.5 Deep Think - это модель искусственного интеллекта от Google, предназначенная для решения сложных задач. Это вариант модели, завоевавшей золотую медаль на Международной математической олимпиаде (IMO) 2025 года, и предназначен для решения сложных задач с помощью параллельных ...
MindLink - Большая модель рассуждений с открытым исходным кодом от KunlunWei
MindLink - это большая модель рассуждений с открытым исходным кодом, запущенная Kunlun World Wide Web. С адаптивным механизмом рассуждения, в зависимости от сложности задачи может быть гибко переключен режим вывода, простые задачи быстро генерируется, сложные задачи глубокое рассуждение, с учетом эффективности и точности. Планово-управляемая парадигма рассуждений позволяет удалить тег "думать", уменьшить ...
MirageLSD - Decart AI запускает первую модель генерации видео с помощью искусственного интеллекта в режиме реального времени
MirageLSD - первая в мире модель потокового диффузионного AI-видео в реальном времени от команды Decart AI, позволяющая неограниченно генерировать видео в реальном времени с задержкой до 40 миллисекунд и плавным выводом со скоростью 24 кадра в секунду.
k2 - Темная сторона Луны Последняя базовая модель Кими для архитектуры MoE
k2 - это базовая модель архитектуры MoE с превосходным кодом и возможностями агента от Moonshot AI, имеющая 1T общих параметров и 32B параметров активации. В эталонных тестах производительности в основных категориях "Общие знания", "Программирование", "Математика" и "Агент" модель k2...
Grok 4 - последняя большая модель от xAI Маска
Grok 4 - это новейшая модель большого искусственного интеллекта от xAI. Grok 4 обеспечивает 10-кратное улучшение способности к рассуждению по сравнению со своей предшественницей. Превосходные способности модели к рассуждениям позволяют ей получать почти идеальные оценки на таких сложных экзаменах, как SAT и GRE, и превосходить другие передовые модели в ряде эталонных тестов...
GenFlow Super Hitchhiker - универсальный агент искусственного интеллекта из библиотеки литературы Baidu
GenFlow Super Hitchhiker - это ИИ-агент общего назначения, запущенный Библиотекой литературы Baidu. Пользователям достаточно вводить команды на естественном языке, и они могут самостоятельно разбирать задачи, обращаться к 1,4 млрд библиотек документов и онлайн-ресурсов Библиотеки литературы Baidu, а также чрезвычайно быстро генерировать PPT, отчеты, диаграммы, плакаты и другой полномодальный контент.
Step-Audio-AQAA - сквозная модель большого аудиоязыка от StepFun
Step-Audio-AQAA - это сквозная крупномасштабная модель аудиоязыка для задач "аудиозапрос-аудиоответ" (AQAA) от команды StepFun. Она может напрямую обрабатывать аудиоданные для генерации естественных и точных речевых ответов, не полагаясь на традиционное автоматическое распознавание речи (A...