Последние ресурсы по искусственному интеллекту

共 2968 篇文章
混元Motion1.0 - 腾讯混元团队开源的文本生成3D动作模型

Mixed Motion 1.0 - Команда Tencent Mixed Motion с открытым исходным кодом для генерации текстовых 3D-моделей движения

Hybrid Motion1.0 (HY-Motion1.0) является открытым исходным кодом Tencent Hybrid команды текст генерируется 3D модель действий, используя 1 миллиард параметров Diffusion Transformer архитектуры, может быть непосредственно генерируется через естественный язык описания высококачественной 3D анимации персонажа.
2 месяца назад
027K
Yume1.5 - 上海AI Lab联合复旦大学开源的交互式世界生成模型

Yume1.5 - интерактивная модель генерации мира с открытым исходным кодом от Шанхайской лаборатории искусственного интеллекта и Фуданьского университета

Yume 1.5 - это интерактивная модель генерации мира с открытым исходным кодом, разработанная совместно Шанхайской лабораторией искусственного интеллекта, Фуданьским университетом и Шанхайским инновационным исследовательским институтом, способная осуществлять интерактивный рендеринг в реальном времени (12 кадров в секунду на одной карте). В ней используется технология совместного пространственно-временного моделирования каналов (TSCM), даже если длина контекста увеличивается...
2 месяца назад
021.2K
AutoMV - M-A-P联合北邮、南大等开源的免费音乐视频生成系统

AutoMV - M-A-P - бесплатная система генерации музыкального видео с открытым исходным кодом, созданная совместно с Beipiao, NU и другими.

AutoMV - это система генерации музыкальных видеоклипов с открытым исходным кодом, разработанная командой M-A-P в сотрудничестве с несколькими университетами, которая может автоматически генерировать последовательные музыкальные видеоклипы на основе полных песен без обучения. Она использует многоинтеллектуальную совместную модель, включающую модули анализа музыки, написания сценария, режиссуры и контроля качества, и может точно анализировать тексты, ритмы...
2 месяца назад
022.6K
Tencent-HY-MT1.5 - 腾讯混元开源的翻译模型系列

Tencent-HY-MT1.5 - Серия гибридных моделей перевода с открытым исходным кодом Tencent

Tencent-HY-MT1.5 - это гибридная модель перевода Tencent с открытым исходным кодом версии 1.5, включающая две модели 1.8B и 7B, поддерживающая 33 международных языка и 5 видов китайского и китайско-диалектного перевода.Модель 1.8B специально оптимизирована для мобильных телефонов и других устройств потребительского класса, только 1 ГБ оперативной памяти может быть достигнуто на конечной стороне...
2 месяца назад
030.3K
PersonaLive - 澳门大学等开源的实时AI人像动画生成直播框架

PersonaLive - Университет Макао и другие открытые источники для создания портретной анимации в реальном времени с помощью ИИ.

PersonaLive - это фреймворк для прямых трансляций с открытым исходным кодом с искусственным интеллектом в реальном времени, разработанный совместно Университетом Макао, dzine.ai и лабораторией GVC при Университете Большого залива. Он позволяет добиться низких задержек и высокой частоты смены кадров на обычных видеокартах потребительского класса (12 ГБ видеопамяти), а также поддерживает работу в режиме реального времени через камеру...
2 месяца назад
022K
Computer Use Preview - Google开源的AI浏览器自动化工具

Computer Use Preview - инструмент автоматизации браузера с открытым исходным кодом AI от Google

Computer Use Preview - это инструмент автоматизации браузера Google с открытым исходным кодом AI, основанный на модели Gemini, с помощью команд естественного языка для достижения взаимодействия с веб-страницами. Используя "снимок экрана → анализ → выполнение" процесса визуального распознавания, поддержка Playwrigh...
2 месяца назад
020.9K
ClipSketch AI - 开源的AI视频转手绘分镜工具,支持B站、小红书

ClipSketch AI - инструмент с открытым исходным кодом для преобразования видео в нарисованное от руки с разделенным экраном, поддержка станции B, маленькая красная книга

ClipSketch AI - это инструмент с открытым исходным кодом, предназначенный для создания коротких видеороликов. Он может конвертировать видео с B station, Xiaohongshu и других платформ в нарисованные от руки раскадровки в один клик, поддерживает маркировку ключевых кадров, автоматическое создание субсцен и социальных копий, а также может интегрировать определенные пользователем роли.
2 месяца назад
024K
MAI-UI - 阿里通义实验室开源的通用GUI智能体基座模型

MAI-UI - Открытая универсальная графическая модель тела с интеллектуальным интерфейсом от Ali Tongyi Labs

MAI-UI - это универсальная базовая модель интеллектуального тела с открытым исходным кодом от Alibaba Tongyi Labs, обладающая четырьмя основными возможностями: работа с кросс-приложениями, нечеткое семантическое понимание, активное взаимодействие с пользователем и многоступенчатая координация процессов. Применяя архитектуру взаимодействия "конец-облако", легкая модель размещается в устройстве для решения повседневных задач, а сложные задачи могут вызывать облачные...
2 месяца назад
029.3K
MiniMax M2.1 - MiniMax开源的编码和代理模型

MiniMax M2.1 - MiniMax с открытым исходным кодом и модели агентов

MiniMax M2.1 - это модель кодирования и агентов MiniMax с открытым исходным кодом, 10 миллиардами активаций и поддержкой многих основных языков программирования, таких как Rust, Java, Golang, C++, Kotlin, Objective-C, TypeS...
2 месяца назад
017.2K
InstanceAssemble - 小红书联合复旦大学开源的布局控制生成技术

InstanceAssemble - технология генерации управления компоновкой с открытым исходным кодом от Little Red Book и Фуданьского университета

InstanceAssemble - это технология генерации управляющих макетов, совместно созданная Xiaohongshu и Фуданьским университетом, которая обеспечивает точную генерацию изображений от простых до сложных и от разреженных до плотных макетов с помощью механизма "Instance Assemble Attention". Применяется двухступенчатая каскадная архитектура, сначала в фон изображения, а затем по очереди ...
2 месяца назад
014.4K
Zen Browser - 基于Firefox内核的开源AI网页浏览器

Zen Browser - веб-браузер с открытым исходным кодом, основанный на ядре Firefox.

Zen Browser - это браузер с открытым исходным кодом, основанный на ядре Firefox и ориентированный на простой и эффективный просмотр веб-страниц, с такими основными функциями, как вертикальная панель вкладок и изоляция рабочего пространства. Благодаря боковой панели он может четко отображать полный заголовок 50+ вкладок и поддерживать многооконный просмотр с разделенным экраном.
2 месяца назад
024.1K
QwenLong-L1.5 - 阿里通义实验室开源的长文本推理模型

QwenLong-L1.5 - модель вывода длинных текстов с открытым исходным кодом лаборатории Али Тонги

QwenLong-L1.5 - это модель вывода длинных текстов с открытым исходным кодом от Alibaba Tongyi Lab, ориентированная на решение сложных задач вывода со сверхдлинными контекстами (например, 1M-4M лексем). Основной прорыв заключается в трех основных инновациях на этапе пост-обучения: с помощью графа знаний, синтаксического анализа SQL и мультиинтеллектуального...
2 месяца назад
019.7K
Infographic - 阿里AntV团队开源的信息图生成框架

Инфографика - фреймворк для создания инфографики с открытым исходным кодом от команды Ali AntV

Infographic - это новое поколение открытого исходного кода команды Ali AntV, основанного на G2 и разработке Ant Design, ориентированного на быстрое создание высококачественной инфографики, предоставляющего 30 + шаблонов макетов, 120 + предустановленных тем и интеллектуальные возможности генерации AI.
2 месяца назад
020.8K
opcode - 专为Claude Code设计的开源图形化桌面应用

opcode - графическое настольное приложение с открытым исходным кодом, разработанное для Claude Code

opcode предназначен для графического настольного приложения Claude Code с открытым исходным кодом, разработчик winfunc на основе Tauri 2 + React 18 + Rust разработки. Предоставляет визуальный интерфейс для управления проектами Claude Code, поддержку создания ...
2 месяца назад
021.5K
TurboDiffusion - 生数科技联合清华等开源的视频生成加速框架

TurboDiffusion - фреймворк ускорения генерации видео с открытым исходным кодом от Raw Digital Technology, Tsinghua и других компаний.

TurboDiffusion - это фреймворк для ускорения генерации видео, созданный совместно Университетом Цинхуа, BioDigital Technology и Калифорнийским университетом в Беркли, который способен повысить скорость генерации видео в 100-200 раз при сохранении качества изображения практически без потерь. Благодаря разреженному линейному вниманию, пошаговой дистилляции образцов и 8-битному...
2 месяца назад
023.8K
MedASR - 谷歌开源的医疗语音识别模型

MedASR - модель распознавания медицинской речи с открытым исходным кодом от Google

MedASR - это модель распознавания медицинской речи с 105 миллионами параметров, открытая компанией Google, отлаженная на 5000-часовом десенсибилизированном клиническом корпусе, оптимизированная для терминологии лекарств, дозировок и анатомической терминологии, со встроенной 6-граммовой моделью медицинского языка и коэффициентом ошибок в словах всего 4,6 на частном наборе данных по радиологии RAD-DICT...
2 месяца назад
025.2K
Fun-Audio-Chat-8B - 阿里通义开源的端到端语音交互大模型

Fun-Audio-Chat-8B - макромодель сквозного речевого взаимодействия с открытым исходным кодом от Али Тонги

Fun-Audio-Chat-8B - это модель сквозной речи с открытым исходным кодом на 8 миллиардов параметров, разработанная командой Ali Tongyi. Прямая речь в речи, без необходимости сращивания ASR+LLM+TTS, двуязычная, свободно говорящая на китайском и английском языках, с низкой задержкой и естественным тембром. Использование общего LLM двойного разрешения с частотой 25 Гц...
2 месяца назад
020K
PromptFill - 开源的结构化提示词生成AI工具,专为AI绘画设计

PromptFill - ИИ-инструмент с открытым исходным кодом для создания структурированных слов, предназначенный для рисования ИИ.

PromptFill - это инструмент структурированной генерации подсказок, предназначенный для рисования ИИ, который помогает пользователям быстро создавать, управлять и повторять сложные подсказки через визуальное взаимодействие "заполни пустое место", повышая эффективность и качество генерации изображений ИИ.Основные возможности PromptFill...
2 месяца назад
021.3K
GLM-4.7 - 智谱AI开源的最新一代旗舰大模型

GLM-4.7 - последнее поколение флагманских больших моделей Wisdom Spectrum AI Open Source

GLM-4.7 - это последнее поколение флагманской модели Grand Model, выпущенной и выложенной в открытый доступ компанией Smart Spectrum AI, которая глубоко оптимизирована для программирования ИИ, сложных рассуждений и задач интеллектуального тела. Модель поддерживает длину контекста 200k и максимальный выход 128k, имеет многоязыковое кодирование, возможности долгосрочного планирования задач и совместной работы с инструментами...
2 месяца назад
035.3K
NitroGen - 英伟达联合斯坦福大学、加州理工等开源的游戏AI模型

NitroGen - модель игрового ИИ с открытым исходным кодом от NVIDIA в сотрудничестве со Стэнфордом, Калифорнийским технологическим институтом и другими.

NitroGen - это модель игрового ИИ с открытым исходным кодом, разработанная NVIDIA совместно со Стэнфордским университетом, Калифорнийским технологическим институтом и другими учреждениями, способная играть в более чем 1000 различных типов игр. Модель основана на архитектуре GROOT N1.5 и достигается путем анализа 40 000 часов игровых видеоданных (включая аннотацию операций с джойстиком)...
2 месяца назад
027.2K
Qwen-Image-Layered - 阿里团队开源的AI图像编辑模型

Qwen-Image-Layered - модель редактирования изображений с искусственным интеллектом, открытая командой Ali

Qwen-Image-Layered - это модель редактирования изображений с открытым исходным кодом от команды Ali, которая интеллектуально разбивает обычные изображения на независимые прозрачные слои для достижения точности редактирования, подобной Photoshop. Модель имеет открытый исходный код по протоколу Apache 2.0 и поддерживает гибкое управление слоями...
2 месяца назад
030.2K
VTP - MiniMax海螺视频团队开源的视觉生成模型技术

VTP - технология визуального генеративного моделирования с открытым исходным кодом MiniMax Conch Video Team

VTP (Visual Tokenizer Pre-training) - это ключевая технология для визуальных генеративных моделей, предложенная командой MiniMax Conch Video для повышения производительности генеративной системы путем улучшения метода предварительного обучения визуального токенизатора (tokenizer). Традиционный метод...
2 месяца назад
023.6K
T5Gemma 2 - 谷歌开源的新一代编码器-解码器模型

T5Gemma 2 - модель кодера-декодера следующего поколения с открытым исходным кодом от Google

T5Gemma 2 - это модель кодера-декодера нового поколения, открытая компанией Google, основанная на архитектуре Gemma 3 и дополненная возможностями мультимодальной обработки и обработки длинных контекстов. Она поддерживает широкий спектр типов данных, включая текст и изображения, и способна обрабатывать очень длинные контексты (до 128 К) при генерации...
2 месяца назад
023.4K
FunctionGemma - 谷歌开源专为函数调用优化的轻量级AI模型

FunctionGemma - открытая модель ИИ от Google, оптимизированная для вызова функций

FunctionGemma - это облегченная модель искусственного интеллекта, оптимизированная для вызова функций Google, разработанная на основе базовой модели Gemma 3 с 270 миллионами параметров, которая преобразует естественный язык в исполняемые инструкции API в режиме реального времени на мобильных телефонах, браузерах и других устройствах. Основной особенностью является поддержка локальных офф...
2 месяца назад
022.2K
SHARP - 苹果开源的单目视图3D场景合成技术

SHARP - технология создания 3D-сцен с монокулярным обзором с открытым исходным кодом от Apple

SHARP (Sharp Monocular View Synthesis in Less Than a Second) - технология синтеза монокулярного изображения с открытым исходным кодом от Apple. Она позволяет быстро генерировать реалистичное 3D-представление сцены на основе одной фотографии менее чем за секунду...
2 месяца назад
025.7K
TRELLIS.2 - 微软开源的大型3D生成模型

TRELLIS.2 - крупномасштабные генеративные 3D-модели с открытым исходным кодом от Microsoft

TRELLIS.2 - это крупномасштабная генеративная 3D-модель Microsoft с открытым исходным кодом и 4 миллиардами параметров, ориентированная на высокоточную генерацию изображений в 3D. Используя инновационную "O-Voxel" разреженную воксельную структуру, может эффективно обрабатывать сложную топологию и резкие особенности, генерировать высококачественную 3D информацию с полным PBR материалом ...
2 месяца назад
029.4K
Step-GUI - 阶跃星辰开源的AI Agent系列模型

Step-GUI - Step-Star - модели серии агентов ИИ с открытым исходным кодом

Step-GUI - это серия моделей агентов искусственного интеллекта с открытым исходным кодом от Step-Star, включающая облачную модель Step-GUI, первый протокол MCP для агентов GUI, и первую в отрасли модель Step-GUI Edge с открытым исходным кодом для поддержки развертывания мобильных телефонов.Специализированная...
2 месяца назад
029.2K
A2UI - 谷歌开源的Agent驱动型用户交互界面声明式协议

A2UI - декларативный протокол с открытым исходным кодом от Google для интерфейсов взаимодействия с пользователем, управляемых агентами

A2UI (Agent-to-User Interface) - это протокол интерфейса с открытым исходным кодом от Google, который решает проблемы создания сложных интерактивных интерфейсов для агентов искусственного интеллекта. Благодаря декларативному формату JSON, позволяющему агентам ИИ описывать структуру пользовательского интерфейса, клиентские приложения ...
2 месяца назад
035.9K
SAM Audio - Meta推出的开源多模态音频分割模型

SAM Audio - Мультимодальная модель сегментации аудио с открытым исходным кодом из Meta

SAM Audio - это мультимодальная модель сегментации звука с открытым исходным кодом, представленная компанией Meta для точного выделения произвольных целевых звуков из сложных аудиомиксов. Объединяя текстовые, визуальные и временные сигналы, она обеспечивает гибкую и эффективную обработку звука для таких задач, как редактирование, денуазинг, извлечение звука и...
2 месяца назад
024.1K
混元世界模型1.5 - 腾讯混元开源的实时世界模型生成框架

Mixed World Model 1.5 - Tencent Mixed Open Source Real-time World Model Generation Framework

Hybrid World Model 1.5 (Tencent HY WorldPlay) - это первый в отрасли фреймворк с открытым исходным кодом для моделирования мира в реальном времени, выпущенный компанией Tencent и охватывающий всю цепочку развертывания данных, обучения и потокового вывода. В основе лежит авторегрессионная диффузионная модель WorldPlay, которая использует Next-F...
2 месяца назад
023.6K
Molmo 2 - Ai2开源的多模态视频图像理解模型系列

Molmo 2 - семейство моделей мультимодального понимания видеоизображений с открытым исходным кодом Ai2

Molmo 2 - это мультимодальная модель с открытым исходным кодом, выпущенная Институтом искусственного интеллекта Аллена (Ai2) для улучшения понимания видео и мультиизображений. Включены три варианта: Molmo 2 (8B), Molmo 2 (4B) и Molmo 2-O...
2 месяца назад
028.3K
LongCat-Video-Avatar - 美团开源的虚拟人视频生成模型

LongCat-Video-Avatar - модель генерации видео аватаров с открытым исходным кодом Meituan

LongCat-Video-Avatar - это продвинутая модель создания видео на основе звука, построенная на базе LongCat-Video с открытым исходным кодом от Meituan, ориентированная на создание гиперреалистичных, синхронизированных по губам длинных видео с естественной динамикой и последовательной идентичностью.
2 месяца назад
029.3K