Круг обмена ИИ

ИИ меняет мир!
Logics-Parsing - 阿里开源的文档解析模型

Logics-Parsing - модель разбора документов с открытым исходным кодом на Ali

Logics-Parsing - это модель сквозного разбора документов с открытым исходным кодом, основанная на Qwen2.5-VL-7B. Оптимизация анализа макета документа и вывода порядка чтения с помощью обучения с усилением, PDF-изображения могут быть преобразованы в структурированный HTML-вывод, поддержка разнообразного контента ...
1 неделя назад
011.9K
Ring-1T-preview - 蚂蚁集团开源的万亿参数大模型

Ring-1T-preview - Большая модель с триллионом параметров от Ant Group с открытым исходным кодом

Ring-1T-preview - макромодель с открытым исходным кодом на триллион параметров от Ant Group, основанная на архитектуре Ling 2.0 MoE, предварительно обученная на корпусе 20T и натренированная на способность рассуждать с помощью ASystem, самостоятельно разработанной системы обучения с подкреплением. В рассуждениях на естественном языке ...
1 неделя назад
011.5K
RoboBrain-X0 - 智源研究院开源的零样本跨本体泛化具身模型

RoboBrain-X0 - исследовательский институт Wisdom Source Research Institute с открытым исходным кодом и нулевым образцом кросс-онтологической обобщенной модели воплощения

RoboBrain-X0 - первая в мире воплощенная модель с открытым исходным кодом, поддерживающая кросс-онтологическое обобщение с нулевой выборкой, открытая исследовательским институтом Wisdom Source Research Institute и имеющая большое промышленное значение. Она может управлять несколькими реальными роботами различных конфигураций для выполнения базовых задач без тонкой настройки, а после небольшой тонкой настройки образца демонстрирует способность воспроизводить ...
1 неделя назад
09.6K
Lynx - 字节跳动开源的高保真视频生成模型

Lynx - модель генерации видео высокой точности с открытым исходным кодом от ByteHop

Lynx - это модель генерации персонализированного видео с высокой точностью и открытым исходным кодом от ByteDance, которая может генерировать видео, соответствующее личности, используя только одну портретную фотографию. Построенная на основе базовой модели диффузионного трансформатора (DiT), введение ID-адаптера и Ref-адаптера...
2 недели назад
010.8K
DeepSeek-V3.2-Exp - DeepSeek最新开源的实验性AI模型

DeepSeek-V3.2-Exp - новейшая экспериментальная модель искусственного интеллекта DeepSeek с открытым исходным кодом

DeepSeek-V3.2-Exp - экспериментальная модель искусственного интеллекта с открытым исходным кодом от компании DeepSeek, которая значительно повышает эффективность обработки длинных текстов за счет внедрения механизма DeepSeek Sparse Attention (DSA). Модель основана на DeepSeek...
2 недели назад
011.1K
HunyuanImage 3.0 - 腾讯开源的免费多模态图像生成模型

HunyuanImage 3.0 - бесплатная мультимодальная модель генерации изображений с открытым исходным кодом от Tencent

HunyuanImage 3.0 (Hunyuan Image 3.0) - нативная мультимодальная модель генерации изображений, выпущенная и открытая компанией Tencent. Размер параметров модели составляет 80B, на данный момент это лучшие результаты оценки, самое большое количество параметров среди моделей генерации изображений с открытым исходным кодом. Hybrid Image 3.0 поддерживает генерацию изображений в режиме реального времени, пользователи могут...
2 недели назад
015.5K
Hunyuan3D-Part - 腾讯开源的免费3D组件生成模型

Hunyuan3D-Part - бесплатная модель генерации 3D-компонентов с открытым исходным кодом от Tencent

Hunyuan3D-Part (Hybrid 3D-Part) - это модель 3D-генерации, выпущенная и открытая компанией Tencent. Состоящая из P3 - SAM и X - Part, она впервые достигла высокой точности и управляемости 3D-генерации на основе компонентов, поддерживая 50+ автоматически генерируемых компонентов. Пользователи могут использовать...
2 недели назад
013.4K
AudioFly - 科大讯飞开源的文本生成音效AI模型

AudioFly - модель искусственного интеллекта KU Xunfei с открытым исходным кодом для генерации текста и звука

AudioFly - это модель искусственного интеллекта с открытым исходным кодом для генерации звуковых эффектов из текста, разработанная компанией KDDI. Основана на архитектуре потенциальной диффузионной модели с 1 миллиардом параметров, обучена на крупномасштабных разнообразных аудиотекстовых наборах данных, включая публичные наборы данных, такие как AudioSet, AudioCaps, TUT и внутренние...
2 недели назад
012.9K
Hunyuan3D-Omni - 腾讯混元开源的3D模型生成框架

Hunyuan3D-Omni - Tencent Mixed Source Open Source 3D Model Generation Framework

Hunyuan3D-Omni (Hybrid 3D-Omni) - это фреймворк с открытым исходным кодом для создания 3D-активов, разработанный командой Tencent's Hybrid 3D, который позволяет точно генерировать 3D-модели с помощью нескольких управляющих сигналов. Основанный на архитектуре Hunyuan3D 2.1, он представляет унифицированный кодер управления, который может обрабатывать точечные...
2 недели назад
012.7K
FLM-Audio - 智源联合南洋理工开源的全双工音频对话模型

FLM-Audio - Модель полнодуплексного аудиодиалога (FLM-Audio) с открытым исходным кодом от WisdomSource в сотрудничестве с Наньянгским технологическим институтом (NTI)

FLM-Audio - это нативная полнодуплексная макромодель аудиодиалога, выпущенная Пекинским исследовательским институтом искусственного интеллекта Zhiyuan совместно с Spin Matrix и Наньянгским технологическим университетом Сингапура и поддерживающая китайский и английский языки. Используя родную полнодуплексную архитектуру, она может объединять слушание, говорение и монолог на каждом временном шаге...
2 недели назад
011.7K