Последние ресурсы по искусственному интеллекту

共 2972 篇文章
LongCat-Flash-Omni - 美团开源的全模态大语言模型

LongCat-Flash-Omni - полностью модальная модель большого языка для Meituan с открытым исходным кодом

LongCat-Flash-Omni - это полностью модальная модель большого языка с открытым исходным кодом, выпущенная командой LongCat из Meituan. С масштабом параметров 560 миллиардов (27 миллиардов активированных параметров) она позволяет достичь миллисекундного уровня взаимодействия в реальном времени с аудио и видео при сохранении большого количества параметров.
4 месяца назад
027.5K
Petri - Anthropic开源的 AI 安全审计框架

Petri - система аудита безопасности ИИ с открытым исходным кодом от Anthropic

Petri - это система аудита безопасности ИИ с открытым исходным кодом, разработанная компанией Anthropic, которая систематически оценивает безопасность и поведенческую согласованность моделей ИИ. Имитируя реальный сценарий, в котором автоматический аудитор проводит несколько раундов диалога с целевой моделью, а затем агент-судья действует на...
4 месяца назад
024K
Kimi Linear - 月之暗面开源的新型混合线性注意力架构

Kimi Linear - новая гибридная архитектура линейного внимания с открытым исходным кодом на темной стороне Луны

Kimi Linear - это новая гибридная архитектура линейного внимания с открытым исходным кодом от Dark Side of the Moon, в основе которой лежит Kimi Delta Attention (KDA), оптимизирующая традиционную модель внимания за счет более тонкого механизма регулировки, значительно повышающего эффективность аппаратного обеспечения и возможности управления памятью...
4 месяца назад
035.8K
FIBO - 全球首个开源原生支持JSON的文本生成图像模型

FIBO - первая в мире программа с открытым исходным кодом, поддерживающая JSON-текст для создания моделей изображений.

FIBO - это первая в мире модель изображений для генерации текста с открытым исходным кодом и поддержкой JSON, разработанная компанией Bria AI. Основанная на архитектуре DiT (Diffusion Transformer) с 8B параметрами, она использует метод обучения Flow Matching...
4 месяца назад
028.3K
SoulX-Podcast - Soul AI Lab开源的对话式语音合成模型

SoulX-Podcast - модель синтеза разговорной речи от Soul AI Lab с открытым исходным кодом

SoulX-Podcast - это продвинутая модель синтеза разговорной речи с открытым исходным кодом от Soul AI Lab, предназначенная для создания высококачественного подкаст-контента. SoulX-Podcast способна генерировать несколько раундов диалога и имитировать плавный диалог в реальных сценариях подкастинга, поддерживая мандаринский, английский и несколько китайских...
4 месяца назад
036.9K
GigaBrain-0 - 开源的具身基础模型,由世界模型生成数据驱动

GigaBrain-0 - базовая воплощенная модель с открытым исходным кодом, управляемая данными генерации модели мира

GigaBrain-0 - первая в Китае сквозная воплощенная базовая модель Vision-Language-Action (VLA), использующая мировые данные о генерации моделей для достижения реального машинного обобщения и совместно выпущенная с открытым исходным кодом компаниями GigaVision и Hubei Humanoid Robotics Innovation Centre. В ней используется гибридная архитектура Transformer, объединяющая ...
4 месяца назад
023.7K
Ming-flash-omni-Preview - 蚂蚁集团开源的全模态大模型

Ming-flash-omni-Preview - макромодель Ant Group с открытым исходным кодом и полной модальностью

Ming-flash-omni-Preview - полномодальная макромодель с открытым исходным кодом, выпущенная Ant Group inclusionAI, с масштабом параметров в сотни миллиардов, основанная на разреженной MoE архитектуре Ling 2.0, с общими параметрами 103B и активациями 9B...
4 месяца назад
029.3K
OmniVinci - NVIDIA开源的全模态大语言模型

OmniVinci - Омнимодальная модель большого языка с открытым исходным кодом от NVIDIA

OmniVinci - это крупномасштабная языковая модель с открытым исходным кодом, полностью модальная, разработанная NVIDIA, которая решает проблему модальной фрагментации в мультимодальных моделях с помощью архитектурных инноваций и оптимизации данных. Выравнивание визуальных и аудио вкраплений улучшено с помощью OmniAlignNet, которая использует временной групповой захват...
4 месяца назад
028.8K
olmOCR 2 - AI2开源的多模态文档解析模型

olmOCR 2 - модель мультимодального разбора документов с открытым исходным кодом AI2

olmOCR 2 - это мультимодальная модель разбора документов с открытым исходным кодом от Института искусственного интеллекта Аллена (AI2), которая является обновленной версией olmOCR. Оцифрованные печатные документы (например, PDF) будут иметь высокую...
4 месяца назад
035.4K
ValueCell - 开源的多智能体金融平台,多个Agent分工协作

ValueCell - многоинтеллектуальная финансовая платформа с открытым исходным кодом и совместной работой нескольких агентов

ValueCell - это финансовая платформа с открытым исходным кодом, повышающая эффективность финансового анализа и управления инвестициями с помощью технологии искусственного интеллекта. Имитируя профессиональную инвестиционную команду, множество интеллектов ИИ работают вместе, охватывая анализ рынка, анализ настроений, фундаментальные исследования, автоматическую торговлю и другие функции, предоставляя пользователям всесторонний...
4 месяца назад
053.6K
Dexbotic - 原力灵机开源的具身智能VLA模型一站式科研服务平台

Dexbotic - машина Силы Духа с открытым исходным кодом воплощенного интеллекта VLA модель универсальной платформы исследовательских услуг

Dexbotic - это сервисная платформа с открытым исходным кодом Visual-Linguistic-Action (VLA) model of embodied intelligence one-stop research service platform компании Dexmal, которая решает проблемы фрагментации и низкой эффективности исследований в области воплощенного интеллекта. Основанная на PyTorch, Dexbotic является универсальной платформой исследовательского сервиса для решения проблем фрагментации и низкой эффективности исследований в области воплощенного интеллекта...
4 месяца назад
026K
LongCat-Video - 美团LongCat开源的视频生成模型

LongCat-Video - LongCat - модель генерации видео с открытым исходным кодом Mission

LongCat-Video - это модель генерации видео с открытым исходным кодом на 1,36 миллиарда параметров, созданная командой LongCat по протоколу MIT с открытым исходным кодом и поддерживающая три основные задачи: генерация видео с текстом, генерация видео с графом и продолжение видео. Модель, благодаря стратегии генерации "от грубого к тонкому" и блочному механизму разреженного внимания, может в течение нескольких минут ...
4 месяца назад
047.9K
DreamOmni2 - 港科大开源的多模态AI图像编辑与生成模型

DreamOmni2 - модель редактирования и генерации мультимодальных изображений ИИ с открытым исходным кодом HKUST

DreamOmni2 - это мультимодальная модель редактирования и генерации изображений с открытым исходным кодом, созданная командой Цзяцзя в HKUST. Она может одновременно обрабатывать текстовые и графические команды, а также поддерживает несколько опорных изображений, предоставляя создателям более гибкие возможности для творчества. Модель обучается с помощью трехэтапного процесса синтеза данных, совместного обучения генерации/редактирования...
5 месяцев назад
032.9K
混元世界模型1.1 - 腾讯混元发布的开源3D重建大模型

Модель смешанного мира 1.1 - Tencent Mixed World выпустила открытую 3D-реконструированную большую модель

WorldMirror 1.1 (WorldMirror) - это 3D-реконструкция больших моделей с открытым исходным кодом, выпущенная командой Tencent's WorldMirror, которая является обновленной версией серии WorldMirror. Она поддерживает многоракурсные изображения, видео и мультимодальные априорные данные, такие как положение камеры, внутренняя ссылка, карта глубины и т. д. Она преодолевает традиционную 3D-реконструкцию, которая полагается только на...
5 месяцев назад
032.1K
DeepSeek-OCR - DeepSeek开源的光学字符识别模型

DeepSeek-OCR - модель оптического распознавания символов с открытым исходным кодом DeepSeek

DeepSeek-OCR - это усовершенствованная модель оптического распознавания символов (OCR), открытая командой DeepSeek, которая преобразует текст в изображения с помощью технологии "контекстного оптического сжатия" и использует визуальные маркеры для сжатия и декодирования для эффективной обработки длинных текстов.
5 месяцев назад
037.3K
VitaBench - 美团LongCat开源的交互式Agent评测基准

VitaBench - бенчмарки MMT LongCat Open Source Interactive Agent Review

VitaBench - это первый интерактивный эталон оценки агентов для сложных жизненных сценариев, выпущенный командой LongCat компании Meituan и оценивающий всесторонние возможности больших модельных интеллектов в реальных жизненных сценариях. В качестве носителей для создания пакетов используются три высокочастотных жизненных сценария: заказ еды на вынос, обед в ресторане и путешествие...
5 месяцев назад
029K
MinerU2.5 - 上海AI Lab联合北大开源的文档解析模型

MinerU2.5 - открытая модель синтаксического анализа документов из Шанхайской лаборатории искусственного интеллекта и Пекинского университета

MinerU2.5 - это модель визуального языка, разработанная совместно Шанхайской лабораторией искусственного интеллекта и командой Пекинского университета и направленная на эффективный разбор изображений документов высокого разрешения. Основная инновация заключается в двухфазном дизайне "обнаружение глобального расположения с последующим распознаванием локального содержания": первая фаза представляет собой низкое разрешение...
5 месяцев назад
041.5K
LongCat-Audio-Codec - 美团LongCat开源的语音编解码方案

LongCat-Audio-Codec - голосовой кодек LongCat с открытым исходным кодом для Meituan

LongCat-Audio-Codec - это речевой кодек с открытым исходным кодом от команды LongCat из Meituan. Решение предназначено для Speech Large Language Model (Speech LLM), посредством семантического и акустического механизма параллельного извлечения Token, учитывающего семантические и акустические особенности речи ...
5 месяцев назад
027.2K
PaddleOCR-VL - 百度开源的超轻量级视觉-语言模型

PaddleOCR-VL - ультралегкие визуально-лингвистические модели с открытым исходным кодом от Baidu

PaddleOCR-VL - это ультралегкая визуально-лингвистическая модель Baidu с открытым исходным кодом, оптимизированная для сценариев парсинга документов. Модель содержит всего 0,9 Б параметров, благодаря слиянию динамического визуального кодера высокого разрешения и легкой языковой модели ERNIE, сохраняя при этом высокую точность и значительно снижая вычислительные затраты.
5 месяцев назад
043.3K
UniPixel - 香港理工、腾讯、中科院等开源的像素级多模态模型

UniPixel - мультимодальная модель на уровне пикселя с открытым исходным кодом от Гонконгского политехнического института, Tencent, CAS и др.

UniPixel - это новая мультимодальная модель, совместно предложенная Гонконгским политехническим университетом, компанией Tencent, Китайской академией наук и компанией Vivo для достижения понимания визуального языка на уровне пикселей. Объединяя возможности привязки к объектам и сегментации, она поддерживает различные тонкие задачи, такие как сегментация изображений, сегментация видео, понимание регионов и пи...
5 месяцев назад
032.4K
DiaMoE-TTS - 清华联合巨人网络开源的多方言语音合成框架

DiaMoE-TTS - фреймворк для синтеза речи с открытым исходным кодом из нескольких диалектов, разработанный компаниями Tsinghua и Giant Network

DiaMoE-TTS - это система синтеза речи для нескольких диалектов, созданная совместно Университетом Цинхуа и Giant Network на основе Международного фонетического алфавита (IPA) для решения проблем нехватки диалектных данных, несоответствия орфографии и сложности фонологических изменений. Благодаря единому стандартизированному представлению фонем на основе IPA, устраняются междиалектные различия ...
5 месяцев назад
033.8K
Kandinsky 5.0 - 俄罗斯AI团队开源的视频生成模型系列

Кандинский 5.0 - серия моделей генерации видео с открытым исходным кодом от российской команды ИИ

Kandinsky 5.0 - это новейшая серия моделей поколения видео, разработанная российской командой искусственного интеллекта и ориентированная на легкий дизайн и высокую производительность. Первая модель серии, Kandinsky 5.0 Video Lite, имеет всего 2 миллиарда параметров, но превосходит аналогичные модели 14B, особенно...
5 месяцев назад
041.3K
SongBloom - 腾讯联合港中文、南大开源的歌曲生成模型

SongBloom - модель генерации песен с открытым исходным кодом от Tencent в сотрудничестве с HKCS и NTU

SongBloom - это модель генерации песен с открытым исходным кодом, разработанная Tencent AI Lab в сотрудничестве с Китайским университетом Гонконга (Шэньчжэнь) и Нанкинским университетом, которая решает проблему "пластичности" в генерации музыки ИИ и обеспечивает высококачественную, структурно полную генерацию песен. Просто введите 10 секунд эталонного аудио и соответствующий текст, и вы сможете...
5 месяцев назад
033.3K
Pyscn - 专为Python开发者开源的免费AI代码质量分析工具

Pyscn - бесплатный инструмент анализа качества AI-кода с открытым исходным кодом для разработчиков на Python

Pyscn - это интеллектуальный инструмент анализа качества кода, предназначенный для разработчиков на Python для обнаружения потенциальных проблем в коде с целью улучшения его сопровождаемости. Он анализирует мертвый код с помощью диаграмм потока управления, выявляет дубликаты кода с помощью алгоритма APTED+LSH, вычисляет такие метрики, как связь модулей и сложность круга...
5 месяцев назад
025.6K
Youtu-Embedding - 腾讯优图开源的通用文本表示模型

Youtu-Embedding - Tencent Youtu Open Source Универсальная модель представления текста

Youtu-Embedding - это универсальная модель представления текста с открытым исходным кодом от Tencent's Youtu Labs, предназначенная для корпоративных приложений. Текст отображается в векторное пространство высокой размерности с помощью глубоких нейронных сетей, так что семантически схожие предложения оказываются ближе друг к другу в этом пространстве, что позволяет добиться точного семантического поиска.
5 месяцев назад
031.4K
SAIL-VL2 - 字节跳动开源的多模态视觉语言模型

SAIL-VL2 - мультимодальная модель визуального языка с открытым исходным кодом от ByteHop

SAIL-VL2 - это мультимодальная модель визуального языка с открытым исходным кодом, разработанная командой Byte Jump и ориентированная на совместное моделирование мультимодальных входных данных, таких как изображения и текст. Используя архитектуру разреженной смеси экспертов (MoE) и стратегию прогрессивного обучения, она достигает высокой производительности при масштабах параметров от 2B до 8B, особенно в областях графического понимания, математического...
5 месяцев назад
023.9K
MineContext - 字节开源的主动式上下文感知AI伙伴

MineContext - байтовый партнер по ИИ с открытым исходным кодом и активным контекстом

MineContext - это активный контекстно-ориентированный ИИ-партнер с открытым исходным кодом от команды ByteDance Viking, призванный помочь пользователям эффективно управлять огромными объемами информации и повысить эффективность работы со знаниями. С помощью технологии понимания скриншотов и контента, автоматической записи ежедневных операций пользователя (таких как просмотр веб-страниц, редактирование документов и т.д.), поддержки...
5 месяцев назад
042.3K
nanochat - Karpathy免费开源的低成本模型训练项目

nanochat - бесплатный и открытый проект Карпати по обучению недорогим моделям

nanochat - это проект с открытым исходным кодом, созданный легендой ИИ и бывшим директором Tesla AI Андреем Карпати, который позволяет людям быстро обучить небольшую языковую модель, подобную ChatGPT, при очень низких затратах и простоте. Весь проект использует всего около 800...
5 месяцев назад
029.8K
LLaVA-OneVision-1.5 - 免费开源的多模态模型,高性能多模态理解

LLaVA-OneVision-1.5 - бесплатная мультимодальная модель с открытым исходным кодом для высокопроизводительного мультимодального понимания

LLaVA-OneVision-1.5 - мультимодальная модель с открытым исходным кодом, разработанная командой EvolvingLMMS-Lab, использующая шкалу параметров 8B и прошедшая компактный трехэтапный процесс обучения (выравнивание языка и изображения, концептуальное уравновешивание и введение знаний, а также тонкая настройка инструкций) на 128 A800...
5 месяцев назад
029.1K
Paper2Video - 新加坡国立开源的学术论文自动生成演示视频项目

Paper2Video - проект NUS с открытым исходным кодом для автоматического создания демонстрационных видеороликов научных статей

Paper2Video - это проект с открытым исходным кодом для автоматизированного создания презентационных видеороликов для научных работ в лаборатории Show Lab, Национальный университет Сингапура. С помощью мультиинтеллектуального фреймворка PaperTalker статьи превращаются в полноценные презентационные видеоролики, содержащие слайды, субтитры, голос за кадром и аватар докладчика...
5 месяцев назад
031.4K
NeuTTS Air - 支持离线CPU运行的免费轻量级语音合成模型

NeuTTS Air - бесплатная и легкая модель синтеза речи с поддержкой автономной работы на процессоре

NeuTTS Air - это модель синтеза речи с открытым исходным кодом, разработанная командой Neuphonic, которая может работать в режиме реального времени на локальных устройствах (например, мобильных телефонах, ноутбуках, Raspberry Pi), не завися от облака. Используя 0,5B-параметрическую архитектуру Qwen и самостоятельно разработанный кодек NeuCodec...
5 месяцев назад
036.3K
KAT-Dev-72B-Exp - 快手开源的免费编程专用模型

KAT-Dev-72B-Exp - модель Racer с открытым исходным кодом для свободного программирования

KAT-Dev-72B-Exp - это модель большого языка программирования с открытым исходным кодом, созданная командой Racer, оптимизированная на основе методов обучения с подкреплением, которая достигла точности 74,6% в бенчмарке SWE-Bench Verified, что на данный момент является лучшим показателем среди моделей с открытым исходным кодом. Модель использует инновационные...
5 месяцев назад
028.4K
Jamba Reasoning 3B - 以色列AI21 Labs开源的轻量级推理模型

Jamba Reasoning 3B - израильская модель рассуждений с открытым исходным кодом от AI21 Labs

Jamba Reasoning 3B - это легкая модель умозаключений с открытым исходным кодом, созданная израильским ИИ-стартапом AI21 Labs, обладающая высокой производительностью и потенциалом для широкого спектра приложений. Она использует гибридную архитектуру SSM-Transformer, которая сочетает в себе транс...
5 месяцев назад
025.7K
吴恩达的《Agentic AI》最新智能体免费课程

Бесплатный курс по новейшим интеллектам от Agentic AI Эрнста Ву

Agentic AI - это новейший курс по интеллектуальным телам, запущенный Эрнестом Нг. Курс посвящен проектированию и созданию интеллектуальных тел, охватывая четыре паттерна проектирования: размышление, использование инструментов, планирование и совместная работа нескольких интеллектуальных тел. Учащиеся узнают, как сделать интеллектуальные тела, проверяющие выходы, автономно настраивающиеся с помощью теоретических объяснений и практического кода...
5 месяцев назад
046.2K
OpenAgents - 开源免费的构建AI Agent网络开放协作项目

OpenAgents - бесплатный проект с открытым исходным кодом для создания сетей агентов искусственного интеллекта

OpenAgents - это проект с открытым исходным кодом, который создает сеть агентов искусственного интеллекта и способствует открытому сотрудничеству между ними. Предоставляется базовая сетевая инфраструктура, позволяющая агентам ИИ легко соединяться и сотрудничать. Пользователи могут быстро создать свою собственную сеть агентов, расширить функциональность за счет модульной архитектуры, поддерживать...
5 месяцев назад
027.6K
Androidify - 谷歌开源如何在Android上构建AI应用的免费资源

Androidify - бесплатные ресурсы Google по созданию приложений с искусственным интеллектом на Android

Androidify - это проект Google с открытым исходным кодом, помогающий разработчикам научиться создавать приложения с искусственным интеллектом на Android. В проекте используются новейшие технологии Google, такие как Jetpack Compose, Gemini API (через Fire...
5 месяцев назад
029K
Ling-1T - 蚂蚁集团开源的万亿参数通用语言模型

Ling-1T - универсальная модель языка с открытым исходным кодом от Ant Group с триллионами параметров

Ling-1T - универсальная языковая модель с триллионом параметров, открытая компанией Ant Group и являющаяся флагманским продуктом серии больших моделей Ling 2.0 компании Bering. Модель использует высокоэффективную архитектуру MoE, поддерживает 128K контекстных окон и превосходит GPT в 7 бенчмарках, включая генерацию кода, математические рассуждения и логические тесты...
5 месяцев назад
052.6K
聆音EchoCare - 香港科学院开源的超声基座大模型

EchoCare - Гонконгская академия наук с открытым исходным кодом Большая модель ультразвуковой базы

EchoCare - это большая модель ультразвуковой базы, разработанная Центром искусственного интеллекта и робототехники (CAIR) Гонконгского института инноваций и исследований Китайской академии наук (CAS), обученная на крупнейшем в мире наборе данных ультразвуковых изображений (более 4,5 миллионов изображений), охватывающем мультицентровые, мультирегиональные, мультиэтнические и более 50 индивидуальных...
5 месяцев назад
029.6K
Code2Video - Show Lab开源的AI教学视频生成框架

Code2Video - открытый фреймворк для создания обучающего видео с искусственным интеллектом от Show Lab

Code2Video - это инновационный проект с открытым исходным кодом, который автоматически преобразует фрагменты кода в высококачественный видеоконтент (формат mp4). Проект использует уникальную парадигму, ориентированную на код, используя инструменты carbon-now-cli для генерации кода в красивые изображения, использование ffmpeg будет этим ...
5 месяцев назад
035.1K
SceneGen - 上海交大开源的单图像生成3D场景框架

SceneGen - открытая платформа для генерации 3D-сцены из одного изображения, созданная Шанхайским университетом Цзяо Тун.

SceneGen - это метод генерации 3D-сцен из одного изображения, разработанный в Шанхайском университете Цзяо Тун. Из одного изображения сцены и маски целевого ресурса эффективно генерируется полная сцена, содержащая множество 3D-ресурсов, включая геометрическую структуру ресурсов, текстуру и относительное пространственное расположение.
5 месяцев назад
026.2K
Ming-UniAudio - 蚂蚁开源的统一音频多模态生成模型

Ming-UniAudio - Ant Open Source Unified Audio Multimodal Generation Model

Ming-UniAudio - это унифицированная мультимодальная модель генерации звука с открытым исходным кодом от Ant Group, которая поддерживает смешанный ввод и вывод текста, аудио, изображений и видео. Используя многомасштабную архитектуру трансформатора и смешанного эксперта (MoE), с помощью механизма маршрутизации с учетом модальностей для эффективной обработки кросс-модальных ...
5 месяцев назад
032.9K
AIMangaStudio - 免费的AI漫画创作工具,提供完整创作流程

AIMangaStudio - бесплатный инструмент для создания манги в формате AI для полного процесса создания!

AIMangaStudio - это бесплатный инструмент для создания манги с искусственным интеллектом, который предоставляет авторам полный цикл создания манги, включая генерацию сюжета, разработку субсцен, создание персонажей и другие функции, что позволяет упростить процесс создания от сценария до страницы манги. Поддержка генерации сценариев комиксов на естественном языке, включая сюжет, диалоги...
5 месяцев назад
038.7K
FireRedChat - 小红书开源的全双工语音交互系统

FireRedChat - система полнодуплексного голосового взаимодействия с открытым исходным кодом от Little Red Book

FireRedChat - это полнодуплексная система голосового взаимодействия с открытым исходным кодом для Xiaohongshu с возможностью двунаправленного диалога в реальном времени и поддержкой контролируемых прерываний. Используя модульный дизайн, включая модуль управления транскрипцией, модуль взаимодействия и менеджер диалога и т.д., поддерживает каскадную и полукаскадную архитектуру, гибкое развертывание.
5 месяцев назад
038.5K
Logics-Parsing - 阿里开源的文档解析模型

Logics-Parsing - модель разбора документов с открытым исходным кодом на Ali

Logics-Parsing - это модель сквозного разбора документов с открытым исходным кодом, основанная на Qwen2.5-VL-7B. Оптимизация анализа макета документа и вывода порядка чтения с помощью обучения с усилением, PDF-изображения могут быть преобразованы в структурированный HTML-вывод, поддержка разнообразного контента ...
5 месяцев назад
038.2K
Ring-1T-preview - 蚂蚁集团开源的万亿参数大模型

Ring-1T-preview - Большая модель с триллионом параметров от Ant Group с открытым исходным кодом

Ring-1T-preview - макромодель с открытым исходным кодом на триллион параметров от Ant Group, основанная на архитектуре Ling 2.0 MoE, предварительно обученная на корпусе 20T и натренированная на способность рассуждать с помощью ASystem, самостоятельно разработанной системы обучения с подкреплением. В рассуждениях на естественном языке ...
5 месяцев назад
045.7K
RoboBrain-X0 - 智源研究院开源的零样本跨本体泛化具身模型

RoboBrain-X0 - исследовательский институт Wisdom Source Research Institute с открытым исходным кодом и нулевым образцом кросс-онтологической обобщенной модели воплощения

RoboBrain-X0 - первая в мире воплощенная модель с открытым исходным кодом, поддерживающая кросс-онтологическое обобщение с нулевой выборкой, открытая исследовательским институтом Wisdom Source Research Institute и имеющая большое промышленное значение. Она может управлять несколькими реальными роботами различных конфигураций для выполнения базовых задач без тонкой настройки, а после небольшой тонкой настройки образца демонстрирует способность воспроизводить ...
5 месяцев назад
030.7K
Lynx - 字节跳动开源的高保真视频生成模型

Lynx - модель генерации видео высокой точности с открытым исходным кодом от ByteHop

Lynx - это модель генерации персонализированного видео с высокой точностью и открытым исходным кодом от ByteDance, которая может генерировать видео, соответствующее личности, используя только одну портретную фотографию. Построенная на основе базовой модели диффузионного трансформатора (DiT), введение ID-адаптера и Ref-адаптера...
5 месяцев назад
033.4K
Claude Sonnet 4.5 - Anthropic推出的最强AI编程模型

Claude Sonnet 4.5 - самая мощная модель программирования ИИ от Anthropic

Claude Sonnet 4.5 - модель искусственного интеллекта от компании Anthropic, предназначенная для программирования, работы с компьютером и автоматизации сложных задач. Модель отлично справляется с генерацией кода, обработкой длинных задач, рассуждениями и математическими вычислениями, поддерживая все - от начального планирования...
5 месяцев назад
038.2K
DeepSeek-V3.2-Exp - DeepSeek最新开源的实验性AI模型

DeepSeek-V3.2-Exp - новейшая экспериментальная модель искусственного интеллекта DeepSeek с открытым исходным кодом

DeepSeek-V3.2-Exp - экспериментальная модель искусственного интеллекта с открытым исходным кодом от компании DeepSeek, которая значительно повышает эффективность обработки длинных текстов за счет внедрения механизма DeepSeek Sparse Attention (DSA). Модель основана на DeepSeek...
5 месяцев назад
035.2K
HunyuanImage 3.0 - 腾讯开源的免费多模态图像生成模型

HunyuanImage 3.0 - бесплатная мультимодальная модель генерации изображений с открытым исходным кодом от Tencent

HunyuanImage 3.0 (Hunyuan Image 3.0) - нативная мультимодальная модель генерации изображений, выпущенная и открытая компанией Tencent. Размер параметров модели составляет 80B, на данный момент это лучшие результаты оценки, самое большое количество параметров среди моделей генерации изображений с открытым исходным кодом. Hybrid Image 3.0 поддерживает генерацию изображений в режиме реального времени, пользователи могут...
5 месяцев назад
044.2K
Hunyuan3D-Part - 腾讯开源的免费3D组件生成模型

Hunyuan3D-Part - бесплатная модель генерации 3D-компонентов с открытым исходным кодом от Tencent

Hunyuan3D-Part (Hybrid 3D-Part) - это модель 3D-генерации, выпущенная и открытая компанией Tencent. Состоящая из P3 - SAM и X - Part, она впервые достигла высокой точности и управляемости 3D-генерации на основе компонентов, поддерживая 50+ автоматически генерируемых компонентов. Пользователи могут использовать...
5 месяцев назад
044.2K
AudioFly - 科大讯飞开源的文本生成音效AI模型

AudioFly - модель искусственного интеллекта KU Xunfei с открытым исходным кодом для генерации текста и звука

AudioFly - это модель искусственного интеллекта с открытым исходным кодом для генерации звуковых эффектов из текста, разработанная компанией KDDI. Основана на архитектуре потенциальной диффузионной модели с 1 миллиардом параметров, обучена на крупномасштабных разнообразных аудиотекстовых наборах данных, включая публичные наборы данных, такие как AudioSet, AudioCaps, TUT и внутренние...
5 месяцев назад
038.4K
Hunyuan3D-Omni - 腾讯混元开源的3D模型生成框架

Hunyuan3D-Omni - Tencent Mixed Source Open Source 3D Model Generation Framework

Hunyuan3D-Omni (Hybrid 3D-Omni) - это фреймворк с открытым исходным кодом для создания 3D-активов, разработанный командой Tencent's Hybrid 3D, который позволяет точно генерировать 3D-модели с помощью нескольких управляющих сигналов. Основанный на архитектуре Hunyuan3D 2.1, он представляет унифицированный кодер управления, который может обрабатывать точечные...
5 месяцев назад
042.5K
FLM-Audio - 智源联合南洋理工开源的全双工音频对话模型

FLM-Audio - Модель полнодуплексного аудиодиалога (FLM-Audio) с открытым исходным кодом от WisdomSource в сотрудничестве с Наньянгским технологическим институтом (NTI)

FLM-Audio - это нативная полнодуплексная макромодель аудиодиалога, выпущенная Пекинским исследовательским институтом искусственного интеллекта Zhiyuan совместно с Spin Matrix и Наньянгским технологическим университетом Сингапура и поддерживающая китайский и английский языки. Используя родную полнодуплексную архитектуру, она может объединять слушание, говорение и монолог на каждом временном шаге...
5 месяцев назад
035.4K
CWM - Meta FAIR开源的代码世界语言模型

CWM - Meta FAIR Open Source Code World Language Model

CWM (Code World Model) - это 32-миллиардная модель языка мира с открытым исходным кодом, выпущенная командой Meta FAIR и предназначенная для генерации и обоснования кода. Она вводит понятие "модель мира", которая может имитировать процесс выполнения кода, предсказывать изменения состояния переменных и продвигать...
6 месяцев назад
032.2K
Neovate Code - 蚂蚁开源的智能编程助手

Neovate Code - интеллектуальный помощник программиста Ant Open Source

Neovate Code - это интеллектуальный помощник программирования с открытым исходным кодом от отдела технологий Alipay Experience компании Ant Group, который повышает эффективность разработки с помощью технологии искусственного интеллекта. Благодаря функциям разговорной разработки разработчики могут описывать требования на естественном языке, Neovate Code понимает и генерирует соответствующие...
6 месяцев назад
035.9K
Audio2Face - NVIDIA开源的AI 3D面部动画生成模型

Audio2Face - открытая модель генерации 3D-анимации лица с искусственным интеллектом от NVIDIA

Audio2Face - это инструмент ИИ с открытым исходным кодом от NVIDIA, способный преобразовывать аудиосигнал в реалистичную 3D-анимацию лица. Анализируя особенности речи в аудио, такие как фонемы и интонации, он генерирует точную синхронизацию губ и тонкие эмоциональные выражения, чтобы придать виртуальным персонажам яркую человеческую мимику.
6 месяцев назад
037.5K
Qwen3-VL - 阿里云通义千问开源的多模态视觉语言大模型

Qwen3-VL - макромодели мультимодального визуального языка с открытым исходным кодом AliCloud Tongyi Qianqian

Qwen3-VL - это мультимодальная модель визуального языка с открытым исходным кодом, разработанная командой AliCloud Tongyi Qianqian, содержащая 235 миллиардов ссылок и около 471 ГБ файлов модели. Содержащая инструкции и версии мышления, она использует улучшенную чередующуюся компоновку MRope, DeepStack и другие технологии, которые могут эффективно использовать визуальные преобразования...
6 месяцев назад
049.5K
Qwen3Guard - 阿里Qwen开源的安全模型

Qwen3Guard - модель безопасности с открытым исходным кодом от Ali Qwen

Qwen3Guard - это модель тонкой защиты, основанная на базовой модели Qwen3 и предназначенная для обнаружения угроз безопасности. Она обеспечивает точную категоризацию запросов и ответов, предоставляет уровни риска и поддерживает английский, китайский и мультиязычные среды.Qwen3Guard доступен в двух про...
6 месяцев назад
039.8K
Qwen3-TTS-Flash - 阿里通义推出的语音合成模型

Qwen3-TTS-Flash - модели синтеза речи от Али Тонги

Qwen3-TTS-Flash - это передовая модель синтеза речи, разработанная Али Тонги, поддерживающая 17 тонов и 10 языков, включая мандаринский, английский, диалекты и т.д. Она обладает отличной стабильностью и высокой выразительностью китайской и английской речи, а также может автоматически регулировать тон голоса, чтобы сделать его более ярким.
6 месяцев назад
049.8K
Qwen3-Omni - 阿里通义推出的全模态AI模型

Qwen3-Omni - омнимодальная модель искусственного интеллекта, представленная Али Тонги

Qwen3-Omni - это полностью модальная модель ИИ, представленная командой Ali Tongyi, которая может работать с несколькими типами данных, такими как текст, изображения, аудио и видео, и поддерживает текстовое взаимодействие на 119 языках с низкой задержкой и высокой управляемостью.
6 месяцев назад
035.2K
DeepSeek-V3.1-Terminus - DeepSeek推出的最新版AI模型

DeepSeek-V3.1-Terminus - последняя версия модели искусственного интеллекта, представленная компанией DeepSeek.

DeepSeek-V3.1-Terminus - это обновленная версия DeepSeek-V3.1, языковой модели искусственного интеллекта от команды DeepSeek. Модель была оптимизирована с точки зрения согласованности языка, генерации кода и возможностей поиска для более точного...
6 месяцев назад
033.6K
Granite-Docling-258M - IBM开源的视觉语言模型

Гранит-Доклинг-258М - Визуальные языковые модели IBM с открытым исходным кодом

Granite-Docling-258M - это ультракомпактная модель визуального языка с открытым исходным кодом от IBM, предназначенная для эффективного преобразования документов. Модель преобразует документы в машиночитаемый формат, сохраняя при этом макет, таблицы, формулы и другие элементы в неизменном виде.
6 месяцев назад
030.9K
Lucy Edit - 开源的AI视频编辑工具,自然语言描述编辑

Lucy Edit - инструмент для редактирования видео с открытым исходным кодом и искусственным интеллектом, редактирование описаний на естественном языке

Lucy Edit - это инструмент для редактирования видео с открытым исходным кодом, разработанный компанией Decart AI. Позволяет пользователям редактировать видео с помощью простых описаний на естественном языке, таких как "изменить персонажа на белого медведя" или "превратить сцену в 2D-мультфильм", без необходимости сложной тонкой настройки или использования масок ...
6 месяцев назад
041.1K
LongCat-Flash-Thinking - 美团开源的高效推理模型

LongCat-Flash-Thinking - эффективная модель рассуждений для Meituan с открытым исходным кодом

LongCat-Flash-Thinking - это эффективная модель рассуждений, выпущенная командой LongCat в рамках Mission LongCat, которая становится все более мощной и профессиональной, сохраняя при этом экстремальную скорость LongCat-Flash-Chat. Модель основана на логике, математике, коде, интеллекте...
6 месяцев назад
031.2K
Ling-V2 - 蚂蚁百灵开源的MoE架构语言模型系列

Ling-V2 - Серия моделей языка архитектуры MoE с открытым исходным кодом Ant-Belling

Ling-V2 - это семейство крупномасштабных языковых моделей, основанных на архитектуре MoE, представленной командой Ant-Belling. Первая версия, Ling-mini-2.0, имеет 16 миллиардов общих параметров, при этом на одну входную лексему активируется только 1,4 миллиарда параметров.
6 месяцев назад
032.3K
Kronos - 清华和微软联合开源的金融K线图基础模型

Kronos - совместная открытая базовая модель финансовой K-диаграммы от Tsinghua и Microsoft

Kronos - это первая базовая модель K-линейного графика для финансового рынка, созданная совместно Университетом Цинхуа и Microsoft Research Asia. Анализируя данные K-линии акций, криптовалют и других активов, включая цену открытия, высокую цену, низкую цену, цену закрытия и объем, она может предсказывать будущее движение цен.
6 месяцев назад
053.2K
Wan2.2-Animate - 通义万相开源的动作生成模型

Wan2.2-Animate - генеративная модель для генерации действий из тунъи Ваньсяна с открытым исходным кодом

Wan2.2-Animate - это модель генерации действий с открытым исходным кодом от Tongyi Wanxiang, поддерживающая два режима: имитацию действий и ролевую игру. Пользователям нужно только ввести изображение персонажа и эталонное видео, модель может перенести движения и выражения видео персонажа на изображение персонажа, придавая изображению персонажа динамическое выражение...
6 месяцев назад
034.4K
Xiaomi-MiMo-Audio - 小米开源的首个原生端到端语音大模型

Xiaomi-MiMo-Audio - первая нативная сквозная речевая модель Xiaomi с открытым исходным кодом

Xiaomi-MiMo-Audio - это макромодель сквозной речи Xiaomi с открытым исходным кодом и 7 миллиардами параметров, обладающая такими мощными функциями, как многоязычный диалог, продолжение речи, обобщение с меньшим количеством образцов и понимание звука, которая способна достичь уровня SOTA в тестах на интеллект речи и понимание звука, превосходя Google Gemi...
6 месяцев назад
037K
InternVLA-A1 - 上海AI Lab开源一体化操作能力的具身大模型

InternVLA-A1 - Shanghai AI Lab Интеграция операционных возможностей для воплощенных больших моделей с открытым исходным кодом

InternVLA-A1 - это большая модель воплощенной работы, открытая Шанхайской лабораторией искусственного интеллекта. Она способна понимать, представлять и выполнять интеграцию, а также точно выполнять поставленные задачи. Модель объединяет реальные и симулированные операционные данные и автоматизирует построение массивных мультимодальных через крупномасштабные виртуально-реальные гибридные активы сцены...
6 месяцев назад
037.4K
VoxCPM - 面壁智能联合清华开源的端到端TTS模型

VoxCPM - Facing Intelligence и Tsinghua Open Source End-to-End TTS Model

VoxCPM - это модель генерации речи, совместно созданная Facade Intelligence и Шэньчжэньской международной высшей школой Университета Цинхуа. VoxCPM использует сквозную диффузионную авторегрессионную архитектуру для генерации непрерывных речевых представлений непосредственно из текста, преодолевая ограничения традиционной дискретной деамбигуации. Благодаря иерархическому моделированию языка и квантованию конечных состояний...
6 месяцев назад
042K
InternVLA·N1 - 上海AI Lab开源的端到端双系统导航大模型

InternVLA-N1 - Shanghai AI Lab Open Source End-to-End Dual System Navigation Large Model

InternVLA-N1 - это сквозная двухсистемная навигационная макромодель, открытая Шанхайской лабораторией искусственного интеллекта. Используя двухсистемную архитектуру, система 2 отвечает за понимание лингвистических команд и планирование дальних маршрутов, в то время как система 1 фокусируется на высокочастотной реакции и маневренном обходе препятствий. Модель обучается полностью на основе синтетических данных с помощью крупномасштабных цифровых ...
6 месяцев назад
036.4K
WebWeaver - 阿里通义开源的新型双智能体框架

WebWeaver - Ali Tongyi открыл новый фреймворк для тела с двойным интеллектом

WebWeaver - это новый фреймворк с двумя интеллектами, представленный командой Alibaba Tongyi, который в основном используется в открытых глубоких исследованиях и может имитировать процесс исследования человека, который делится на два интеллекта: планирование и письмо.
6 месяцев назад
036.1K
MCP Registry - GitHub推出的官方MCP服务器管理平台

MCP Registry - официальная платформа управления серверами MCP с GitHub.

MCP Registry - это централизованная платформа от GitHub, которая помогает разработчикам легче находить и устанавливать MCP-серверы. С помощью MCP Registry разработчики могут быстро найти необходимые им инструменты искусственного интеллекта в одном месте, что значительно упрощает...
6 месяцев назад
034.3K
VLAC - 上海AI Lab开源的具身奖励大模型

VLAC - большая модель воплощенных вознаграждений с открытым исходным кодом от Shanghai AI Lab

VLAC - это макромодель воплощенного вознаграждения с открытым исходным кодом от Шанхайской лаборатории искусственного интеллекта. Основанная на мультимодальной макромодели InternVL, она объединяет данные интернет-видео и данные о работе робота, чтобы обеспечить вознаграждение за процесс и оценку выполнения задачи для обучения робота с подкреплением в реальном мире.VLAC может эффективно ...
6 месяцев назад
030.8K
通义DeepResearch - 阿里通义开源的深度研究智能体

Tongyi DeepResearch - Орган глубокой разведки с открытым исходным кодом Ali Tongyi

Tongyi DeepResearch (Tongyi DeepResearch) - интеллектуальный орган с открытым исходным кодом, запущенный компанией Alibaba, предназначенный для глубокого поиска информации и рассуждений о сложных задачах, с 30 миллиардами параметров, поддерживающий несколько режимов рассуждений, включая режим ReAct и режим глубины...
6 месяцев назад
039.2K
InternVLA·M1 - 上海AI Lab开源的具身双系统操作“大脑”

InternVLA-M1 - открытый исходный код воплощенной двойной системы управления "мозг" Шанхайской лаборатории искусственного интеллекта

InternVLA-M1 - это воплощенный операционный "мозг" Шанхайской лаборатории искусственного интеллекта с открытым исходным кодом, который представляет собой большую модель двухсистемной работы, ориентированной на следование инструкциям. Она строит полный замкнутый цикл "думать-действовать-учиться" и отвечает за высокоуровневые пространственные рассуждения и планирование задач. Модель использует двухэтапную политику обучения...
6 месяцев назад
030.4K
OpenAI《在AI时代保持领先》PDF指南 - 附下载链接

PDF-руководство OpenAI о том, как оставаться впереди в эпоху ИИ - со ссылками для скачивания

Оставаясь впереди в эпоху ИИ - это руководство по ИИ от OpenAI, которое помогает бизнес-лидерам сохранять конкурентные преимущества в эпоху ИИ. В руководстве отмечается быстрый рост ИИ, ускорение выпуска моделей, снижение затрат и ускорение внедрения на предприятиях...
6 месяцев назад
037K
浙江大学免费PDF资料《大模型基础》 - 附下载链接

Бесплатные PDF-файлы по основам больших моделей из Чжэцзянского университета - с ссылкой на скачивание

Книга "Основы больших моделей" содержит глубокий анализ основных технологий и практических путей создания больших языковых моделей (LLM). Начиная с фундаментальной теории моделирования языка, он систематически объясняет принципы построения моделей на основе статистических, рекуррентных нейросетевых (RNN) и трансформаторных архитектур, фокусируясь на трех основных больших языковых моделях...
6 месяцев назад
039.1K
PromptEnhancer - 腾讯混元开源的AI提示词增强工具

PromptEnhancer - Tencent Mixed Meta Open Source AI Prompt Word Enhancement Tool

PromptEnhancer - это инструмент с открытым исходным кодом для улучшения слов подсказок, разработанный командой Tencent's Mixed Meta для улучшения генерации моделей "текст в изображение" (Text-to-Image, T2I). Благодаря цепочке рассуждений (Chain-of-Thought, CoT) подход к использованию ...
6 месяцев назад
035.7K
LLaSO - 逻辑智能推出的业界首个全面开源的语音模型

LLaSO - первая в отрасли речевая модель с открытым исходным кодом от Logic Intelligence

LLaSO - это модель речи с открытым исходным кодом, созданная компанией Beijing Depth Logic Intelligence Technology Co. Ltd., которая решает проблемы разброса данных и недостаточного охвата задач в области крупномасштабного моделирования языка речи путем интеграции речи и текстовых данных и предоставления наборов данных для выравнивания, наборов данных для тонкой настройки команд и эталонов оценки.
6 месяцев назад
027K
混元3D 3.0 - 腾讯推出的3D生成模型,支持超高清建模

Hybrid 3D 3.0 - 3D-генерируемые модели от Tencent с поддержкой UHD-моделирования

Hybrid 3D 3.0 - это передовая 3D-модель от Tencent, основанная на технологии иерархического скульптинга 3D-DiT, с геометрическим разрешением до 1536³, способная генерировать 3D-модели сверхвысокой четкости, богатые деталями, и превосходящая в моделировании персонажей, с возможностью точного формирования пяти чувств и формы тела.
6 месяцев назад
043.9K
UnifoLM-WMA-0 - 宇树科技开源的世界模型动作架构

UnifoLM-WMA-0 - Yushu Technology Open Source World Model Action Architecture

UnifoLM-WMA-0 - это архитектура модели мира и действий с открытым исходным кодом для нескольких классов онтологий роботов от компании Yu Shu Technology, предназначенная для общего обучения роботов. Состоит из модели мира и архитектуры действий, модель мира понимает физические законы взаимодействия робота с окружающей средой, а архитектура действий отвечает за конкретные...
6 месяцев назад
042.2K
InfiniteTalk - 美团视觉AI开源的音频驱动视频生成工具

InfiniteTalk - инструмент для создания видео с открытым исходным кодом, управляемый звуком, для Mission Vision AI

InfiniteTalk - это инструмент для создания видео на основе звука, разработанный командой MeiGen-AI, который генерирует разговорные видео неограниченной длины на основе входного аудио. Основным преимуществом является технология точной синхронизации губ, которая идеально согласует звук с формой рта персонажа, создавая естественный и плавный...
6 месяцев назад
052.8K
Mini-o3 - 字节、港大联合开源的视觉推理模型

Mini-o3 - Bytes, HKU Joint Open Source Visual Reasoning Model

Mini-o3 - это модель с открытым исходным кодом, созданная совместно ByteDance и Университетом Гонконга и предназначенная для решения сложных задач визуального поиска. Модель обладает мощными возможностями многораундового интерактивного рассуждения и может находить цель путем глубокого исследования и проб и ошибок.
6 месяцев назад
031.7K
GPT-5-Codex - OpenAI推出的最强编程模型

GPT-5-Codex - самая сильная модель программирования, представленная OpenAI

GPT-5-Codex - это мощная модель оптимизации программирования от OpenAI, усовершенствованная GPT-5 и предназначенная для инженеров-программистов. Модель быстро генерирует высококачественный код, поддерживает множество языков программирования и оптимизирует существующий код для повышения производительности.
6 месяцев назад
028.5K
ROMA - 开源的元Agent框架,自动分解复杂任务并行处理

ROMA - мета-агентный фреймворк с открытым исходным кодом для автоматической декомпозиции сложных задач для параллельной обработки

ROMA (Recursive-Open-Meta-Agent) - это мета-агентский фреймворк с открытым исходным кодом, разработанный компанией Sentient AGI для эффективного решения сложных задач с помощью рекурсивной декомпозиции задач и параллельной обработки. Поддерживает Python 3.12+, Docker и...
6 месяцев назад
041.6K
Lumina-DiMOO - 上海AI Lab联合华为昇腾开源的多模态大模型

Lumina-DiMOO - мультимодальная большая модель с открытым исходным кодом от Shanghai AI Lab и Huawei Rise

Lumina-DiMOO - это унифицированная модель нового поколения для мультимодального генерирования и понимания, представленная Шанхайской лабораторией искусственного интеллекта (SAL) совместно с Huawei Rise на Всемирной конференции по искусственному интеллекту 2025. Основанная на базовой аппаратно-программной платформе Rise AI и наборе мультимодальных больших моделей MindSpeed MM, она завершает...
6 месяцев назад
036.9K
Hyprnote - 开源的本地优先AI会议笔记工具

Hyprnote - инструмент для ведения заметок на конференциях с искусственным интеллектом с открытым исходным кодом

Hyprnote - это инструмент для ведения заметок на совещаниях с открытым исходным кодом и искусственным интеллектом, разработанный для профессионалов с целью защиты конфиденциальности пользователей и повышения эффективности совещаний. В соответствии с принципом "сначала локально" все данные хранятся и обрабатываются на локальном устройстве пользователя, что обеспечивает безопасность данных и поддерживает работу в автономном режиме.
6 месяцев назад
037.3K
MobileLLM-R1 - Meta开源的专项高效推理模型系列

MobileLLM-R1 - серия специализированных эффективных моделей вывода с открытым исходным кодом Meta

MobileLLM-R1 - это серия эффективных моделей вывода с открытым исходным кодом от Meta, предназначенная для математических, программистских и научных рассуждений. Она содержит базовую и конечную модели, с версиями 140 миллионов, 360 миллионов и 950 миллионов параметров соответственно. Модели не являются типовыми моделями чатов и имеют тонкую настройку под наблюдением (SFT...
6 месяцев назад
029.9K
ERNIE-4.5-21B-A3B-Thinking - 百度开源的推理思考模型

ERNIE-4.5-21B-A3B-Thinking - модель мышления с открытым исходным кодом Baidu

ERNIE-4.5-21B-A3B-Thinking - это крупномасштабная языковая модель Baidu с открытым исходным кодом, ориентированная на задачи рассуждения. Используя архитектуру Mixed Expert (MoE), общее количество ссылок достигает 21 миллиарда, каждая лексема активирует 3 миллиарда параметров для поддержки 128K длинного контекстного окна ...
6 месяцев назад
027.4K
MobiAgent - 上海交大开源的移动端智能体全栈构建框架

MobiAgent - открытый фреймворк для создания полного стека мобильных интеллектуальных тел, разработанный Шанхайским университетом Цзяотун

MobiAgent - это инструментарий мобильного интеллектуального тела с открытым исходным кодом от IPADS Lab Шанхайского университета Цзяотун, который помогает пользователям создавать собственные мобильные интеллектуальные помощники. Записывая траекторию движения пользователя и генерируя высококачественные данные, он обучает интеллектуальные тела, способные понимать команды на естественном языке. Среди основных функций - эффективная...
6 месяцев назад
035.4K
ZipVoice - 小米开源的语音合成系列模型

ZipVoice - семейство моделей Xiaomi с открытым исходным кодом для синтеза речи

ZipVoice - это серия моделей синтеза речи (TTS) на основе архитектуры Flow Matching, выпущенная компанией Xiaomi, включая ZipVoice (модель синтеза речи с нулевой выборкой для одного диктора) и ZipVoice-Dialog (модель синтеза речи с нулевой выборкой для диалога...
6 месяцев назад
042.6K
PP-OCRv5 - 百度开源的新一代文字识别AI模型

PP-OCRv5 - модель ИИ с открытым исходным кодом от Baidu для распознавания текста нового поколения

PP-OCRv5 - это последнее поколение модели ИИ для распознавания текста, выпущенное компанией Baidu. Благодаря облегченной конструкции и объему памяти всего 0,07 ББ она подходит для эффективной работы на центральных процессорах и пограничных устройствах и может обрабатывать более 370 символов в секунду. Модель поддерживает упрощенный китайский, традиционный китайский, английский, японский и пиньинь...
6 месяцев назад
054.9K
Youtu-GraphRAG - 腾讯优图实验室开源的图检索增强生成框架

Youtu-GraphRAG - Tencent Youtu Labs Open Source Enhanced Graph Retrieval Generation Framework

Youtu-GraphRAG - это фреймворк с открытым исходным кодом для создания дополнений к графовому поиску от Tencent Youtu Labs, который помогает большим языковым моделям более точно обрабатывать сложные задачи вопросов и ответов. Построив четырехслойное дерево знаний, знания разбираются на четыре уровня: атрибуты, отношения, ключевые слова и сообщества, чтобы получить междоменные знания о самообладании акта...
6 месяцев назад
036.3K
Stand-In - 腾讯微信视觉开源的轻量级视频生成框架

Stand-In - Tencent WeChat Visual Open Source Lightweight Video Generation Framework

Stand-In - это легкий и простой в использовании фреймворк для создания видео с сохранением идентификационных данных от команды WeChat Vision компании Tencent. Сосредоточившись на сохранении специфических особенностей личности при генерации видео, он требует лишь обучения дополнительных параметров базовой модели 1% и позволяет добиться отличных результатов в схожести и естественности лиц.
6 месяцев назад
033.6K
IndexTTS2 - B站开源的免费TTS模型,首个支持精确时长控制

IndexTTS2 - свободная модель TTS с открытым исходным кодом, впервые поддерживающая точный контроль продолжительности.

IndexTTS2 - это новая свободная модель преобразования текста в речь (TTS) с открытым исходным кодом от команды озвучивания станции B, которая достигла значительного прорыва в эмоциональном выражении и контроле продолжительности, первая авторегрессионная модель TTS, поддерживающая точный контроль продолжительности. Поддержка клонирования голоса с нулевым образцом, только один аудиофайл может точно скопировать звук...
6 месяцев назад
094.1K
MiniMax Music 1.5 - MiniMax最新推出的AI音乐生成模型

MiniMax Music 1.5 - Новейшая модель генерации музыки с искусственным интеллектом от MiniMax!

MiniMax Music 1.5 - это продвинутый инструмент для генерации музыки с помощью искусственного интеллекта, который позволяет генерировать до 4 минут музыки на основе описания пользователя на естественном языке. Модель поддерживает широкий спектр музыкальных стилей и настроек, генерирует естественные и полные вокальные тона, плавные переходы и богатые многослойные аранжировки...
6 месяцев назад
035.3K
HuMo - 清华大学联合字节开源的多模态视频生成框架

HuMo - фреймворк для создания мультимодального видео с открытым исходным кодом от Университета Цинхуа United Bytes

HuMo - это мультимодальный фреймворк для генерации видео, совместно открытый Университетом Цинхуа и ByteDance Intelligent Creation Lab, ориентированный на генерацию видео с участием человека. Он может генерировать высококачественные, тонкие и управляемые человеческие видео из мультимодальных входных данных, таких как текст, изображения и аудио.HuMo поддерживает мощные возможности следования текстовым подсказкам...
6 месяцев назад
0114K