Компания DeepSeek выпустила первую версию модели v3 с открытым исходным кодом, теперь с самой сильной кодовой способностью (в Китае)
DeepSeek-V3 - это мощная языковая модель Mixture-of-Experts (MoE) с 671 миллиардом общих параметров и 3,7 миллиарда параметров, активируемых для каждой лексемы. В модели используется инновационная система многоголового потенциального внимания (Mu...
CogAgent: интеллектуальная модель визуального языка Smart Spectrum с открытым исходным кодом для автоматизации графических интерфейсов
Всеобъемлющее введение CogAgent - это визуальная языковая модель с открытым исходным кодом, разработанная исследовательской группой Tsinghua University Data Mining Research Group (THUDM) и предназначенная для автоматизации работы графического интерфейса пользователя (GUI) на разных платформах. Модель основана на CogVLM (GLM-4V-9B) и поддерживает двуязычный китайский и английский...
Полный обзор платформы для создания видео "Прожектор" Института Дхармы
Ранее сегодня я получил уведомление о том, что моя заявка на внутреннее тестирование "Прожектора" была одобрена, поэтому перед сном я опубликую краткий обзор. Платформа позиционируется как "платформа для применения возможностей визуальных технологий" Института Дхармы, и в настоящее время приложений меньше (по сравнению с запуском), но мы надеемся постепенно открыть больше визуальных приложений. Поиск света разделен на два адреса: https...
DisPose: генерирование видео с точным контролем человеческих поз, создание танцующих дам
Общее представление DisPose - это инновационный проект искусственного интеллекта с открытым исходным кодом, ориентированный на создание управляемой анимации изображений персонажей. Разработанный командой исследователей и размещенный на GitHub, проект использует передовые методы глубокого обучения для достижения точного управления анимацией персонажей путем декомпозиции информации о скелетных позах.D...
Smolagents: проект с открытым исходным кодом для быстрой разработки ИИ-интеллектов и легкого конструирования интеллектов
Всеобъемлющее введение Smolagents - это легкая библиотека интеллектуальных агентов, разработанная компанией HuggingFace, которая фокусируется на упрощении процесса разработки систем AI-агентов. Проект известен своей простотой в философии дизайна, всего около 1000 строк основного кода, но при этом предлагает мощные возможности интеграции функций. Это наиболее ...
Комбинированные команды cue word для визуального извлечения документов в формат Markdown
Эта команда взята из проекта Vision Parse и извлекает документы в формате markdown в два этапа. Подсказка для анализа изображения (img_analysis.prompt): Проанализируйте это изображение и верните...
Руководство по началу работы с салфеткой AI Chinese
Как начать генерировать визуальный контент с помощью Napkin AI? (Создание аккаунта, создание визуального контента, экспорт в pdf или графические файлы...) Добро пожаловать в Napkin AI, инструмент, который позволяет легко преобразовывать текст в красивые визуальные образы. Это руководство поможет...
Vision Parse: интеллектуальное преобразование PDF-документов в формат Markdown с помощью моделей визуального языка
Всеобъемлющее введение Vision Parse - это революционный инструмент для обработки документов, он разумно сочетает в себе самые передовые технологии визуальных языковых моделей (Vision Language Models), возможность интеллектуального преобразования PDF-документов в высококачественный формат Markdown...
InvSR: проект суперразрешения изображений с открытым исходным кодом для улучшения качества разрешения изображений
Общее представление InvSR - это инновационный проект с открытым исходным кодом по сверхразрешению изображений, основанный на методах диффузионной инверсии, способных преобразовывать изображения низкого разрешения в высококачественные изображения высокого разрешения. Проект использует богатые предварительные знания об изображениях, заложенные в предварительно обученных крупномасштабных диффузионных моделях, и, благодаря гибкому механизму выборки, поддерживает...
Infinity: побитовое авторегрессионное моделирование генерации изображений высокого разрешения для неограниченной генерации изображений высокого разрешения
Общее представление Infinity - это революционный фреймворк для генерации изображений высокого разрешения, разработанный командой FoundationVision. Проект преодолевает ограничения традиционных моделей генерации изображений благодаря инновационному подходу к визуальному авторегрессионному моделированию на уровне битов.Основные особенности Infinity...







