Не можете найти инструменты искусственного интеллекта? Попробуйте здесь!

Просто введите ключевое слово Доступность Bing SearchРаздел "Инструменты искусственного интеллекта" - это быстрый и простой способ найти все инструменты искусственного интеллекта на этом сайте.

RoboBrain-X0 - 智源研究院开源的零样本跨本体泛化具身模型

RoboBrain-X0 - исследовательский институт Wisdom Source Research Institute с открытым исходным кодом и нулевым образцом кросс-онтологической обобщенной модели воплощения

RoboBrain-X0 - первая в мире воплощенная модель с открытым исходным кодом, поддерживающая кросс-онтологическое обобщение с нулевой выборкой, открытая исследовательским институтом Wisdom Source Research Institute и имеющая большое промышленное значение. Она может управлять несколькими реальными роботами различных конфигураций для выполнения базовых задач без тонкой настройки, а после небольшой тонкой настройки образца демонстрирует способность воспроизводить ...
9 месяцев назад
042.6K
扩散模型(Diffusion Model)是什么,一文看懂

Диффузионная модель (Модель диффузии) что это такое, статья для чтения и понимания

Модель диффузии - это генеративная модель, специально разработанная для создания новых образцов данных, таких как изображения, аудио или текст. В основе модели лежит процесс диффузии в физике, который имитирует естественную диффузию частиц из области с высокой концентрацией в область с низкой концентрацией. В машине...
9 месяцев назад
052.2K
模型微调(Fine-tuning)是什么,一文看懂

Что такое тонкая настройка в одной статье?

Тонкая настройка модели (Fine-tuning) - это специфическая реализация трансферного обучения в машинном обучении. Основной процесс основан на предварительном обучении моделей, которые используют большие наборы данных для изучения общих закономерностей и развития широких возможностей извлечения признаков. Затем на этапе тонкой настройки вводятся наборы данных по конкретным задачам, чтобы ...
9 месяцев назад
043.4K
Lynx - 字节跳动开源的高保真视频生成模型

Lynx - модель генерации видео высокой точности с открытым исходным кодом от ByteHop

Lynx - это модель генерации персонализированного видео с высокой точностью и открытым исходным кодом от ByteDance, которая может генерировать видео, соответствующее личности, используя только одну портретную фотографию. Построенная на основе базовой модели диффузионного трансформатора (DiT), введение ID-адаптера и Ref-адаптера...
9 месяцев назад
045.1K
Claude Sonnet 4.5 - Anthropic推出的最强AI编程模型

Claude Sonnet 4.5 - самая мощная модель программирования ИИ от Anthropic

Claude Sonnet 4.5 - модель искусственного интеллекта от компании Anthropic, предназначенная для программирования, работы с компьютером и автоматизации сложных задач. Модель отлично справляется с генерацией кода, обработкой длинных задач, рассуждениями и математическими вычислениями, поддерживая все - от начального планирования...
9 месяцев назад
049.8K
DeepSeek-V3.2-Exp - DeepSeek最新开源的实验性AI模型

DeepSeek-V3.2-Exp - новейшая экспериментальная модель искусственного интеллекта DeepSeek с открытым исходным кодом

DeepSeek-V3.2-Exp - экспериментальная модель искусственного интеллекта с открытым исходным кодом от компании DeepSeek, которая значительно повышает эффективность обработки длинных текстов за счет внедрения механизма DeepSeek Sparse Attention (DSA). Модель основана на DeepSeek...
9 месяцев назад
045.3K
HunyuanImage 3.0 - 腾讯开源的免费多模态图像生成模型

HunyuanImage 3.0 - бесплатная мультимодальная модель генерации изображений с открытым исходным кодом от Tencent

HunyuanImage 3.0 (Hunyuan Image 3.0) - нативная мультимодальная модель генерации изображений, выпущенная и открытая компанией Tencent. Размер параметров модели составляет 80B, на данный момент это лучшие результаты оценки, самое большое количество параметров среди моделей генерации изображений с открытым исходным кодом. Hybrid Image 3.0 поддерживает генерацию изображений в режиме реального времени, пользователи могут...
9 месяцев назад
056.1K
Hunyuan3D-Part - 腾讯开源的免费3D组件生成模型

Hunyuan3D-Part - бесплатная модель генерации 3D-компонентов с открытым исходным кодом от Tencent

Hunyuan3D-Part (Hybrid 3D-Part) - это модель 3D-генерации, выпущенная и открытая компанией Tencent. Состоящая из P3 - SAM и X - Part, она впервые достигла высокой точности и управляемости 3D-генерации на основе компонентов, поддерживая 50+ автоматически генерируемых компонентов. Пользователи могут использовать...
9 месяцев назад
059.4K
AudioFly - 科大讯飞开源的文本生成音效AI模型

AudioFly - модель искусственного интеллекта KU Xunfei с открытым исходным кодом для генерации текста и звука

AudioFly - это модель искусственного интеллекта с открытым исходным кодом для генерации звуковых эффектов из текста, разработанная компанией KDDI. Основана на архитектуре потенциальной диффузионной модели с 1 миллиардом параметров, обучена на крупномасштабных разнообразных аудиотекстовых наборах данных, включая публичные наборы данных, такие как AudioSet, AudioCaps, TUT и внутренние...
9 месяцев назад
054.1K
Hunyuan3D-Omni - 腾讯混元开源的3D模型生成框架

Hunyuan3D-Omni - Tencent Mixed Source Open Source 3D Model Generation Framework

Hunyuan3D-Omni (Hybrid 3D-Omni) - это фреймворк с открытым исходным кодом для создания 3D-активов, разработанный командой Tencent's Hybrid 3D, который позволяет точно генерировать 3D-модели с помощью нескольких управляющих сигналов. Основанный на архитектуре Hunyuan3D 2.1, он представляет унифицированный кодер управления, который может обрабатывать точечные...
9 месяцев назад
054.2K
FLM-Audio - 智源联合南洋理工开源的全双工音频对话模型

FLM-Audio - Модель полнодуплексного аудиодиалога (FLM-Audio) с открытым исходным кодом от WisdomSource в сотрудничестве с Наньянгским технологическим институтом (NTI)

FLM-Audio - это нативная полнодуплексная макромодель аудиодиалога, выпущенная Пекинским исследовательским институтом искусственного интеллекта Zhiyuan совместно с Spin Matrix и Наньянгским технологическим университетом Сингапура и поддерживающая китайский и английский языки. Используя родную полнодуплексную архитектуру, она может объединять слушание, говорение и монолог на каждом временном шаге...
9 месяцев назад
048.4K
注意力机制(Attention Mechanism)是什么,一文看懂

Механизм внимания (Механизм внимания) - что это, статья для чтения и понимания

Механизм внимания (Attention Mechanism) - это вычислительная техника, имитирующая человеческие когнитивные процессы, которая изначально применялась в области машинного перевода, а затем стала важной частью глубокого обучения.
9 месяцев назад
049.7K
Transformer 架构(Transformer Architecture)是什么,一文看懂

Что такое архитектура трансформера в одной статье?

Архитектура Transformer - это модель глубокого обучения, предназначенная для обработки задач, связанных с переходом от последовательности к последовательности, таких как машинный перевод или резюмирование текста. Основная инновация заключается в том, что модель полагается исключительно на механизм самовнимания, отказываясь от традиционных циклов или конволюционных структур. Позволяя модели обрабатывать все элементы последовательности параллельно, большие...
9 месяцев назад
047.9K
预训练模型(Pre-trained Model)是什么,一文看懂

Предварительно обученная модель (Pre-trained Model) что это такое, статья для чтения и понимания

Предварительно обученные модели (PTM) - это фундаментальная и мощная техника в искусственном интеллекте, представляющая собой модели машинного обучения, предварительно обученные на больших массивах данных. Модели формируют широкую базу знаний, обрабатывая огромные объемы информации и изучая общие закономерности и особенности данных...
9 месяцев назад
045.6K
大语言模型(Large Language Model)是什么,一文看懂

Что такое Большая языковая модель (LLM) в одной статье?

Large Language Model (LLM) - это система глубокого обучения, обученная на массивных текстовых данных, в основе которой лежит архитектура Transformer. Механизм самовнимания этой архитектуры позволяет эффективно улавливать дальние зависимости в языке. Модель "большой ...
9 месяцев назад
045.6K
长短期记忆网络(Long Short-Term Memory)是什么,一文看懂

Что такое сеть долговременной памяти (LSTM), статья для чтения и понимания

Long Short-Term Memory (LSTM) - это вариант рекуррентной нейронной сети, специально разработанный для обработки данных о последовательности. В области искусственного интеллекта данные последовательности широко используются в таких задачах, как прогнозирование временных рядов, обработка естественного языка и распознавание речи.
9 месяцев назад
040.2K
CWM - Meta FAIR开源的代码世界语言模型

CWM - Meta FAIR Open Source Code World Language Model

CWM (Code World Model) - это 32-миллиардная модель языка мира с открытым исходным кодом, выпущенная командой Meta FAIR и предназначенная для генерации и обоснования кода. Она вводит понятие "модель мира", которая может имитировать процесс выполнения кода, предсказывать изменения состояния переменных и продвигать...
9 месяцев назад
044.5K
Neovate Code - 蚂蚁开源的智能编程助手

Neovate Code - интеллектуальный помощник программиста Ant Open Source

Neovate Code - это интеллектуальный помощник программирования с открытым исходным кодом от отдела технологий Alipay Experience компании Ant Group, который повышает эффективность разработки с помощью технологии искусственного интеллекта. Благодаря функциям разговорной разработки разработчики могут описывать требования на естественном языке, Neovate Code понимает и генерирует соответствующие...
9 месяцев назад
047.1K
Audio2Face - NVIDIA开源的AI 3D面部动画生成模型

Audio2Face - открытая модель генерации 3D-анимации лица с искусственным интеллектом от NVIDIA

Audio2Face - это инструмент ИИ с открытым исходным кодом от NVIDIA, способный преобразовывать аудиосигнал в реалистичную 3D-анимацию лица. Анализируя особенности речи в аудио, такие как фонемы и интонации, он генерирует точную синхронизацию губ и тонкие эмоциональные выражения, чтобы придать виртуальным персонажам яркую человеческую мимику.
9 месяцев назад
048.9K
Qwen3-VL - 阿里云通义千问开源的多模态视觉语言大模型

Qwen3-VL - макромодели мультимодального визуального языка с открытым исходным кодом AliCloud Tongyi Qianqian

Qwen3-VL - это мультимодальная модель визуального языка с открытым исходным кодом, разработанная командой AliCloud Tongyi Qianqian, содержащая 235 миллиардов ссылок и около 471 ГБ файлов модели. Содержащая инструкции и версии мышления, она использует улучшенную чередующуюся компоновку MRope, DeepStack и другие технологии, которые могут эффективно использовать визуальные преобразования...
9 месяцев назад
064.2K
Qwen3Guard - 阿里Qwen开源的安全模型

Qwen3Guard - модель безопасности с открытым исходным кодом от Ali Qwen

Qwen3Guard - это модель тонкой защиты, основанная на базовой модели Qwen3 и предназначенная для обнаружения угроз безопасности. Она обеспечивает точную категоризацию запросов и ответов, предоставляет уровни риска и поддерживает английский, китайский и мультиязычные среды.Qwen3Guard доступен в двух про...
9 месяцев назад
052.1K
Qwen3-TTS-Flash - 阿里通义推出的语音合成模型

Qwen3-TTS-Flash - модели синтеза речи от Али Тонги

Qwen3-TTS-Flash - это передовая модель синтеза речи, разработанная Али Тонги, поддерживающая 17 тонов и 10 языков, включая мандаринский, английский, диалекты и т.д. Она обладает отличной стабильностью и высокой выразительностью китайской и английской речи, а также может автоматически регулировать тон голоса, чтобы сделать его более ярким.
9 месяцев назад
061.5K
Qwen3-Omni - 阿里通义推出的全模态AI模型

Qwen3-Omni - омнимодальная модель искусственного интеллекта, представленная Али Тонги

Qwen3-Omni - это полностью модальная модель ИИ, представленная командой Ali Tongyi, которая может работать с несколькими типами данных, такими как текст, изображения, аудио и видео, и поддерживает текстовое взаимодействие на 119 языках с низкой задержкой и высокой управляемостью.
9 месяцев назад
048.1K
DeepSeek-V3.1-Terminus - DeepSeek推出的最新版AI模型

DeepSeek-V3.1-Terminus - последняя версия модели искусственного интеллекта, представленная компанией DeepSeek.

DeepSeek-V3.1-Terminus - это обновленная версия DeepSeek-V3.1, языковой модели искусственного интеллекта от команды DeepSeek. Модель была оптимизирована с точки зрения согласованности языка, генерации кода и возможностей поиска для более точного...
9 месяцев назад
045K
联邦学习(Federated Learning)是什么,一文看懂

Что такое федеративное обучение в одной статье?

Federated Learning (FL) - это инновационный подход к машинному обучению, впервые предложенный группой исследователей Google в 2016 году и направленный на решение проблем конфиденциальности данных и распределенных вычислений.
9 месяцев назад
046K
Granite-Docling-258M - IBM开源的视觉语言模型

Гранит-Доклинг-258М - Визуальные языковые модели IBM с открытым исходным кодом

Granite-Docling-258M - это ультракомпактная модель визуального языка с открытым исходным кодом от IBM, предназначенная для эффективного преобразования документов. Модель преобразует документы в машиночитаемый формат, сохраняя при этом макет, таблицы, формулы и другие элементы в неизменном виде.
9 месяцев назад
042.9K
Lucy Edit - 开源的AI视频编辑工具,自然语言描述编辑

Lucy Edit - инструмент для редактирования видео с открытым исходным кодом и искусственным интеллектом, редактирование описаний на естественном языке

Lucy Edit - это инструмент для редактирования видео с открытым исходным кодом, разработанный компанией Decart AI. Позволяет пользователям редактировать видео с помощью простых описаний на естественном языке, таких как "изменить персонажа на белого медведя" или "превратить сцену в 2D-мультфильм", без необходимости сложной тонкой настройки или использования масок ...
9 месяцев назад
053.6K
LongCat-Flash-Thinking - 美团开源的高效推理模型

LongCat-Flash-Thinking - эффективная модель рассуждений для Meituan с открытым исходным кодом

LongCat-Flash-Thinking - это эффективная модель рассуждений, выпущенная командой LongCat в рамках Mission LongCat, которая становится все более мощной и профессиональной, сохраняя при этом экстремальную скорость LongCat-Flash-Chat. Модель основана на логике, математике, коде, интеллекте...
9 месяцев назад
041.9K
Ling-V2 - 蚂蚁百灵开源的MoE架构语言模型系列

Ling-V2 - Серия моделей языка архитектуры MoE с открытым исходным кодом Ant-Belling

Ling-V2 - это семейство крупномасштабных языковых моделей, основанных на архитектуре MoE, представленной командой Ant-Belling. Первая версия, Ling-mini-2.0, имеет 16 миллиардов общих параметров, при этом на одну входную лексему активируется только 1,4 миллиарда параметров.
9 месяцев назад
043.1K
Kronos - 清华和微软联合开源的金融K线图基础模型

Kronos - совместная открытая базовая модель финансовой K-диаграммы от Tsinghua и Microsoft

Kronos - это первая базовая модель K-линейного графика для финансового рынка, созданная совместно Университетом Цинхуа и Microsoft Research Asia. Анализируя данные K-линии акций, криптовалют и других активов, включая цену открытия, высокую цену, низкую цену, цену закрытия и объем, она может предсказывать будущее движение цен.
9 месяцев назад
070.5K
Wan2.2-Animate - 通义万相开源的动作生成模型

Wan2.2-Animate - генеративная модель для генерации действий из тунъи Ваньсяна с открытым исходным кодом

Wan2.2-Animate - это модель генерации действий с открытым исходным кодом от Tongyi Wanxiang, поддерживающая два режима: имитацию действий и ролевую игру. Пользователям нужно только ввести изображение персонажа и эталонное видео, модель может перенести движения и выражения видео персонажа на изображение персонажа, придавая изображению персонажа динамическое выражение...
9 месяцев назад
045.4K
Xiaomi-MiMo-Audio - 小米开源的首个原生端到端语音大模型

Xiaomi-MiMo-Audio - первая нативная сквозная речевая модель Xiaomi с открытым исходным кодом

Xiaomi-MiMo-Audio - это макромодель сквозной речи Xiaomi с открытым исходным кодом и 7 миллиардами параметров, обладающая такими мощными функциями, как многоязычный диалог, продолжение речи, обобщение с меньшим количеством образцов и понимание звука, которая способна достичь уровня SOTA в тестах на интеллект речи и понимание звука, превосходя Google Gemi...
9 месяцев назад
050.4K
InternVLA-A1 - 上海AI Lab开源一体化操作能力的具身大模型

InternVLA-A1 - Shanghai AI Lab Интеграция операционных возможностей для воплощенных больших моделей с открытым исходным кодом

InternVLA-A1 - это большая модель воплощенной работы, открытая Шанхайской лабораторией искусственного интеллекта. Она способна понимать, представлять и выполнять интеграцию, а также точно выполнять поставленные задачи. Модель объединяет реальные и симулированные операционные данные и автоматизирует построение массивных мультимодальных через крупномасштабные виртуально-реальные гибридные активы сцены...
9 месяцев назад
052.7K
VoxCPM - 面壁智能联合清华开源的端到端TTS模型

VoxCPM - Facing Intelligence и Tsinghua Open Source End-to-End TTS Model

VoxCPM - это модель генерации речи, совместно созданная Facade Intelligence и Шэньчжэньской международной высшей школой Университета Цинхуа. VoxCPM использует сквозную диффузионную авторегрессионную архитектуру для генерации непрерывных речевых представлений непосредственно из текста, преодолевая ограничения традиционной дискретной деамбигуации. Благодаря иерархическому моделированию языка и квантованию конечных состояний...
9 месяцев назад
054.5K
InternVLA·N1 - 上海AI Lab开源的端到端双系统导航大模型

InternVLA-N1 - Shanghai AI Lab Open Source End-to-End Dual System Navigation Large Model

InternVLA-N1 - это сквозная двухсистемная навигационная макромодель, открытая Шанхайской лабораторией искусственного интеллекта. Используя двухсистемную архитектуру, система 2 отвечает за понимание лингвистических команд и планирование дальних маршрутов, в то время как система 1 фокусируется на высокочастотной реакции и маневренном обходе препятствий. Модель обучается полностью на основе синтетических данных с помощью крупномасштабных цифровых ...
9 месяцев назад
051.2K
WebWeaver - 阿里通义开源的新型双智能体框架

WebWeaver - Ali Tongyi открыл новый фреймворк для тела с двойным интеллектом

WebWeaver - это новый фреймворк с двумя интеллектами, представленный командой Alibaba Tongyi, который в основном используется в открытых глубоких исследованиях и может имитировать процесс исследования человека, который делится на два интеллекта: планирование и письмо.
9 месяцев назад
049.7K
MCP Registry - GitHub推出的官方MCP服务器管理平台

MCP Registry - официальная платформа управления серверами MCP с GitHub.

MCP Registry - это централизованная платформа от GitHub, которая помогает разработчикам легче находить и устанавливать MCP-серверы. С помощью MCP Registry разработчики могут быстро найти необходимые им инструменты искусственного интеллекта в одном месте, что значительно упрощает...
9 месяцев назад
047.3K
VLAC - 上海AI Lab开源的具身奖励大模型

VLAC - большая модель воплощенных вознаграждений с открытым исходным кодом от Shanghai AI Lab

VLAC - это макромодель воплощенного вознаграждения с открытым исходным кодом от Шанхайской лаборатории искусственного интеллекта. Основанная на мультимодальной макромодели InternVL, она объединяет данные интернет-видео и данные о работе робота, чтобы обеспечить вознаграждение за процесс и оценку выполнения задачи для обучения робота с подкреплением в реальном мире.VLAC может эффективно ...
9 месяцев назад
044.2K
通义DeepResearch - 阿里通义开源的深度研究智能体

Tongyi DeepResearch - Орган глубокой разведки с открытым исходным кодом Ali Tongyi

Tongyi DeepResearch (Tongyi DeepResearch) - интеллектуальный орган с открытым исходным кодом, запущенный компанией Alibaba, предназначенный для глубокого поиска информации и рассуждений о сложных задачах, с 30 миллиардами параметров, поддерживающий несколько режимов рассуждений, включая режим ReAct и режим глубины...
9 месяцев назад
051.5K
InternVLA·M1 - 上海AI Lab开源的具身双系统操作“大脑”

InternVLA-M1 - открытый исходный код воплощенной двойной системы управления "мозг" Шанхайской лаборатории искусственного интеллекта

InternVLA-M1 - это воплощенный операционный "мозг" Шанхайской лаборатории искусственного интеллекта с открытым исходным кодом, который представляет собой большую модель двухсистемной работы, ориентированной на следование инструкциям. Она строит полный замкнутый цикл "думать-действовать-учиться" и отвечает за высокоуровневые пространственные рассуждения и планирование задач. Модель использует двухэтапную политику обучения...
9 месяцев назад
041.1K
OpenAI《在AI时代保持领先》PDF指南 - 附下载链接

PDF-руководство OpenAI о том, как оставаться впереди в эпоху ИИ - со ссылками для скачивания

Оставаясь впереди в эпоху ИИ - это руководство по ИИ от OpenAI, которое помогает бизнес-лидерам сохранять конкурентные преимущества в эпоху ИИ. В руководстве отмечается быстрый рост ИИ, ускорение выпуска моделей, снижение затрат и ускорение внедрения на предприятиях...
9 месяцев назад
052.4K
浙江大学免费PDF资料《大模型基础》 - 附下载链接

Бесплатные PDF-файлы по основам больших моделей из Чжэцзянского университета - с ссылкой на скачивание

Книга "Основы больших моделей" содержит глубокий анализ основных технологий и практических путей создания больших языковых моделей (LLM). Начиная с фундаментальной теории моделирования языка, он систематически объясняет принципы построения моделей на основе статистических, рекуррентных нейросетевых (RNN) и трансформаторных архитектур, фокусируясь на трех основных больших языковых моделях...
9 месяцев назад
053.7K
循环神经网络(Recurrent Neural Network)是什么,一文看懂

Что такое рекуррентная нейронная сеть (РНС) в одной статье?

Рекуррентная нейронная сеть (РНС) - это нейросетевая архитектура, предназначенная для обработки последовательных данных. Под последовательными данными понимается набор данных с временным порядком или зависимостями, например, лингвистический текст, речевые сигналы или временные ряды.
9 месяцев назад
048.7K
PromptEnhancer - 腾讯混元开源的AI提示词增强工具

PromptEnhancer - Tencent Mixed Meta Open Source AI Prompt Word Enhancement Tool

PromptEnhancer - это инструмент с открытым исходным кодом для улучшения слов подсказок, разработанный командой Tencent's Mixed Meta для улучшения генерации моделей "текст в изображение" (Text-to-Image, T2I). Благодаря цепочке рассуждений (Chain-of-Thought, CoT) подход к использованию ...
9 месяцев назад
047.3K
LLaSO - 逻辑智能推出的业界首个全面开源的语音模型

LLaSO - первая в отрасли речевая модель с открытым исходным кодом от Logic Intelligence

LLaSO - это модель речи с открытым исходным кодом, созданная компанией Beijing Depth Logic Intelligence Technology Co. Ltd., которая решает проблемы разброса данных и недостаточного охвата задач в области крупномасштабного моделирования языка речи путем интеграции речи и текстовых данных и предоставления наборов данных для выравнивания, наборов данных для тонкой настройки команд и эталонов оценки.
9 месяцев назад
038.3K
混元3D 3.0 - 腾讯推出的3D生成模型,支持超高清建模

Hybrid 3D 3.0 - 3D-генерируемые модели от Tencent с поддержкой UHD-моделирования

Hybrid 3D 3.0 - это передовая 3D-модель от Tencent, основанная на технологии иерархического скульптинга 3D-DiT, с геометрическим разрешением до 1536³, способная генерировать 3D-модели сверхвысокой четкости, богатые деталями, и превосходящая в моделировании персонажей, с возможностью точного формирования пяти чувств и формы тела.
9 месяцев назад
056.8K
UnifoLM-WMA-0 - 宇树科技开源的世界模型动作架构

UnifoLM-WMA-0 - Yushu Technology Open Source World Model Action Architecture

UnifoLM-WMA-0 - это архитектура модели мира и действий с открытым исходным кодом для нескольких классов онтологий роботов от компании Yu Shu Technology, предназначенная для общего обучения роботов. Состоит из модели мира и архитектуры действий, модель мира понимает физические законы взаимодействия робота с окружающей средой, а архитектура действий отвечает за конкретные...
9 месяцев назад
058.7K
InfiniteTalk - 美团视觉AI开源的音频驱动视频生成工具

InfiniteTalk - инструмент для создания видео с открытым исходным кодом, управляемый звуком, для Mission Vision AI

InfiniteTalk - это инструмент для создания видео на основе звука, разработанный командой MeiGen-AI, который генерирует разговорные видео неограниченной длины на основе входного аудио. Основным преимуществом является технология точной синхронизации губ, которая идеально согласует звук с формой рта персонажа, создавая естественный и плавный...
9 месяцев назад
069.6K
Mini-o3 - 字节、港大联合开源的视觉推理模型

Mini-o3 - Bytes, HKU Joint Open Source Visual Reasoning Model

Mini-o3 - это модель с открытым исходным кодом, созданная совместно ByteDance и Университетом Гонконга и предназначенная для решения сложных задач визуального поиска. Модель обладает мощными возможностями многораундового интерактивного рассуждения и может находить цель путем глубокого исследования и проб и ошибок.
9 месяцев назад
043.6K
GPT-5-Codex - OpenAI推出的最强编程模型

GPT-5-Codex - самая сильная модель программирования, представленная OpenAI

GPT-5-Codex - это мощная модель оптимизации программирования от OpenAI, усовершенствованная GPT-5 и предназначенная для инженеров-программистов. Модель быстро генерирует высококачественный код, поддерживает множество языков программирования и оптимизирует существующий код для повышения производительности.
9 месяцев назад
040.8K
ROMA - 开源的元Agent框架,自动分解复杂任务并行处理

ROMA - мета-агентный фреймворк с открытым исходным кодом для автоматической декомпозиции сложных задач для параллельной обработки

ROMA (Recursive-Open-Meta-Agent) - это мета-агентский фреймворк с открытым исходным кодом, разработанный компанией Sentient AGI для эффективного решения сложных задач с помощью рекурсивной декомпозиции задач и параллельной обработки. Поддерживает Python 3.12+, Docker и...
9 месяцев назад
055.7K
Lumina-DiMOO - 上海AI Lab联合华为昇腾开源的多模态大模型

Lumina-DiMOO - мультимодальная большая модель с открытым исходным кодом от Shanghai AI Lab и Huawei Rise

Lumina-DiMOO - это унифицированная модель нового поколения для мультимодального генерирования и понимания, представленная Шанхайской лабораторией искусственного интеллекта (SAL) совместно с Huawei Rise на Всемирной конференции по искусственному интеллекту 2025. Основанная на базовой аппаратно-программной платформе Rise AI и наборе мультимодальных больших моделей MindSpeed MM, она завершает...
9 месяцев назад
049.8K
Hyprnote - 开源的本地优先AI会议笔记工具

Hyprnote - инструмент для ведения заметок на конференциях с искусственным интеллектом с открытым исходным кодом

Hyprnote - это инструмент для ведения заметок на совещаниях с открытым исходным кодом и искусственным интеллектом, разработанный для профессионалов с целью защиты конфиденциальности пользователей и повышения эффективности совещаний. В соответствии с принципом "сначала локально" все данные хранятся и обрабатываются на локальном устройстве пользователя, что обеспечивает безопасность данных и поддерживает работу в автономном режиме.
9 месяцев назад
049.5K
MobileLLM-R1 - Meta开源的专项高效推理模型系列

MobileLLM-R1 - серия специализированных эффективных моделей вывода с открытым исходным кодом Meta

MobileLLM-R1 - это серия эффективных моделей вывода с открытым исходным кодом от Meta, предназначенная для математических, программистских и научных рассуждений. Она содержит базовую и конечную модели, с версиями 140 миллионов, 360 миллионов и 950 миллионов параметров соответственно. Модели не являются типовыми моделями чатов и имеют тонкую настройку под наблюдением (SFT...
9 месяцев назад
041.2K
ERNIE-4.5-21B-A3B-Thinking - 百度开源的推理思考模型

ERNIE-4.5-21B-A3B-Thinking - модель мышления с открытым исходным кодом Baidu

ERNIE-4.5-21B-A3B-Thinking - это крупномасштабная языковая модель Baidu с открытым исходным кодом, ориентированная на задачи рассуждения. Используя архитектуру Mixed Expert (MoE), общее количество ссылок достигает 21 миллиарда, каждая лексема активирует 3 миллиарда параметров для поддержки 128K длинного контекстного окна ...
9 месяцев назад
037.8K
人工智能公平性(AI Fairness)是什么,一文看懂

Что такое справедливость искусственного интеллекта (AI Fairness), в одной статье

Справедливость ИИ - это междисциплинарная область обеспечения справедливого и беспристрастного отношения систем ИИ ко всем людям и группам людей на протяжении всего жизненного цикла их проектирования, разработки, внедрения и эксплуатации.
9 месяцев назад
046.4K
MobiAgent - 上海交大开源的移动端智能体全栈构建框架

MobiAgent - открытый фреймворк для создания полного стека мобильных интеллектуальных тел, разработанный Шанхайским университетом Цзяотун

MobiAgent - это инструментарий мобильного интеллектуального тела с открытым исходным кодом от IPADS Lab Шанхайского университета Цзяотун, который помогает пользователям создавать собственные мобильные интеллектуальные помощники. Записывая траекторию движения пользователя и генерируя высококачественные данные, он обучает интеллектуальные тела, способные понимать команды на естественном языке. Среди основных функций - эффективная...
9 месяцев назад
046.5K
ZipVoice - 小米开源的语音合成系列模型

ZipVoice - семейство моделей Xiaomi с открытым исходным кодом для синтеза речи

ZipVoice - это серия моделей синтеза речи (TTS) на основе архитектуры Flow Matching, выпущенная компанией Xiaomi, включая ZipVoice (модель синтеза речи с нулевой выборкой для одного диктора) и ZipVoice-Dialog (модель синтеза речи с нулевой выборкой для диалога...
9 месяцев назад
057.6K
PP-OCRv5 - 百度开源的新一代文字识别AI模型

PP-OCRv5 - модель ИИ с открытым исходным кодом от Baidu для распознавания текста нового поколения

PP-OCRv5 - это последнее поколение модели ИИ для распознавания текста, выпущенное компанией Baidu. Благодаря облегченной конструкции и объему памяти всего 0,07 ББ она подходит для эффективной работы на центральных процессорах и пограничных устройствах и может обрабатывать более 370 символов в секунду. Модель поддерживает упрощенный китайский, традиционный китайский, английский, японский и пиньинь...
9 месяцев назад
071.4K
Youtu-GraphRAG - 腾讯优图实验室开源的图检索增强生成框架

Youtu-GraphRAG - Tencent Youtu Labs Open Source Enhanced Graph Retrieval Generation Framework

Youtu-GraphRAG - это фреймворк с открытым исходным кодом для создания дополнений к графовому поиску от Tencent Youtu Labs, который помогает большим языковым моделям более точно обрабатывать сложные задачи вопросов и ответов. Построив четырехслойное дерево знаний, знания разбираются на четыре уровня: атрибуты, отношения, ключевые слова и сообщества, чтобы получить междоменные знания о самообладании акта...
9 месяцев назад
048.5K
Stand-In - 腾讯微信视觉开源的轻量级视频生成框架

Stand-In - Tencent WeChat Visual Open Source Lightweight Video Generation Framework

Stand-In - это легкий и простой в использовании фреймворк для создания видео с сохранением идентификационных данных от команды WeChat Vision компании Tencent. Сосредоточившись на сохранении специфических особенностей личности при генерации видео, он требует лишь обучения дополнительных параметров базовой модели 1% и позволяет добиться отличных результатов в схожести и естественности лиц.
9 месяцев назад
047.4K
IndexTTS2 - B站开源的免费TTS模型,首个支持精确时长控制

IndexTTS2 - свободная модель TTS с открытым исходным кодом, впервые поддерживающая точный контроль продолжительности.

IndexTTS2 - это новая свободная модель преобразования текста в речь (TTS) с открытым исходным кодом от команды озвучивания станции B, которая достигла значительного прорыва в эмоциональном выражении и контроле продолжительности, первая авторегрессионная модель TTS, поддерживающая точный контроль продолжительности. Поддержка клонирования голоса с нулевым образцом, только один аудиофайл может точно скопировать звук...
9 месяцев назад
0110.8K
MiniMax Music 1.5 - MiniMax最新推出的AI音乐生成模型

MiniMax Music 1.5 - Новейшая модель генерации музыки с искусственным интеллектом от MiniMax!

MiniMax Music 1.5 - это продвинутый инструмент для генерации музыки с помощью искусственного интеллекта, который позволяет генерировать до 4 минут музыки на основе описания пользователя на естественном языке. Модель поддерживает широкий спектр музыкальных стилей и настроек, генерирует естественные и полные вокальные тона, плавные переходы и богатые многослойные аранжировки...
10 месяцев назад
048.6K
人工智能安全(AI Safety)是什么,一文看懂

Что такое безопасность искусственного интеллекта (AI Safety), в одной статье

Безопасность искусственного интеллекта (AI Safety) - это передовая междисциплинарная область, направленная на обеспечение того, чтобы системы искусственного интеллекта, особенно те, которые становятся все более мощными и автономными, действовали надежно и предсказуемо в течение всего своего жизненного цикла в соответствии с намерениями человека и без вредных последствий.
10 месяцев назад
045.7K
自监督学习(Self-Supervised Learning)是什么,一文看懂

Что такое самоконтролируемое обучение (SSL) в одной статье?

Самоконтролируемое обучение (SSL) - это новая парадигма обучения в области машинного обучения, суть которой заключается в автоматическом генерировании контролируемых сигналов из немаркированных данных и обучении моделей для изучения полезных представлений этих данных.
10 месяцев назад
046K
超人工智能 ASI(Artificial Super Intelligence)是什么,一文看懂

Супер искусственный интеллект (ASI) Что такое ASI (искусственный супер интеллект) в одной статье?

Искусственный сверхинтеллект (ИСИ) - это интеллектуальная система, превосходящая человеческий интеллект, с возможностями, превышающими человеческие во всех областях, включая познание, творчество, решение проблем и принятие решений.
10 месяцев назад
059.5K
迁移学习(Transfer Learning)是什么,一文看懂

Трансферное обучение (Transfer Learning) - что это такое, статья для чтения и понимания

Трансферное обучение (Transfer Learning, TL) является важным направлением в области машинного обучения, основная идея которого заключается в применении знаний, полученных при решении одной задачи или области, к другой, связанной с ней, но отличающейся от нее.
10 месяцев назад
045.4K
HuMo - 清华大学联合字节开源的多模态视频生成框架

HuMo - фреймворк для создания мультимодального видео с открытым исходным кодом от Университета Цинхуа United Bytes

HuMo - это мультимодальный фреймворк для генерации видео, совместно открытый Университетом Цинхуа и ByteDance Intelligent Creation Lab, ориентированный на генерацию видео с участием человека. Он может генерировать высококачественные, тонкие и управляемые человеческие видео из мультимодальных входных данных, таких как текст, изображения и аудио.HuMo поддерживает мощные возможности следования текстовым подсказкам...
10 месяцев назад
0129.9K
AnyI2V - 复旦联合阿里达摩院等开源的智能图像动画生成框架

AnyI2V - Фуданьский институт и Институт Али Дхармы и другие открытые рамки для создания интеллектуальной анимации изображений

AnyI2V - это фреймворк для создания анимации изображений, созданный совместно Фуданьским университетом, Академией Alibaba Darmo и другими компаниями, который позволяет преобразовывать статичные условные изображения (например, сетки, облака точек и т.д.) в динамичные видеоролики без необходимости сложного процесса обучения и большого количества данных.
10 месяцев назад
043K
SRPO - 腾讯混元推出的文本到图像生成模型

SRPO - Модель генерации текста в изображение, запущенная Tencent Hybrid

SRPO (Semantic Relative Preference Optimization) - это модель генерации текста в изображение, представленная компанией Tencent Mixed Meta, которая оптимизирует механизм вознаграждения с помощью текстовых условных сигналов для достижения онлайн-регулировки вознаграждения и снижения зависимости от тонкой настройки в автономном режиме.
10 месяцев назад
057.3K
Qwen3-Next - 阿里通义推出的最新基础模型

Qwen3-Next - последняя базовая модель, выпущенная компанией Ali Tongyi

Qwen3-Next - это новое поколение гибридной архитектуры большой модели с открытым исходным кодом от Али Тонги, объединяющей технологии Gated DeltaNet и Gated Attention, которая хорошо справляется с длинными текстами, быстро делает выводы и экономит вычислительные ресурсы.
10 месяцев назад
043.5K
文心大模型X1.1 - 百度推出的深度思考模型,理解能力更强

Wenshin Big Model X1.1 - модель глубокого мышления Baidu для лучшего понимания

Wenxin Big Model X1.1 - это модель глубокого мышления, выпущенная компанией Baidu и основанная на гибридной системе обучения с подкреплением, которая нацелена на улучшение понимания и генерации языка. Модель отлично справляется со сложными вопросами, выполняет инструкции и имитирует поведение интеллекта, а также может точно давать грамотные ответы и высококачественный текстовый контент.
10 месяцев назад
049.4K
混元图像2.1 - 腾讯推出的开源文生图模型

Гибридное изображение 2.1 - Графическая модель поставщика с открытым исходным кодом Tencent

HunyuanImage 2.1 - это графическая модель с открытым исходным кодом от Tencent, предназначенная для создания высококачественных изображений. Модель поддерживает родное разрешение 2K, может точно прорисовывать сложные сцены и детали, благодаря чему ярко передается выражение лица и движения персонажа.
10 месяцев назад
044.6K
AntSK FileChunk - 免费的AI语义文档切片工具,动态切片调整

AntSK FileChunk - бесплатный инструмент для семантической нарезки документов AI, динамическая настройка нарезки

AntSK FileChunk - это бесплатный интеллектуальный инструмент для нарезки документов, предназначенный для приложений RAG (Retrieval Augmented Generation). Семантика как основа, документ будет интеллектуально нарезан на семантически полные, последовательные сегменты, поддержка нескольких языков, динамическая настройка размера фрагмента для обеспечения контекстной целостности.
10 месяцев назад
051.5K
UnifiedTTS - 一站式TTS API服务平台,实时性能监控

UnifiedTTS - единая сервисная платформа TTS API, мониторинг производительности в реальном времени

UnifiedTTS - это универсальная платформа для предоставления услуг преобразования текста в речь (TTS). Она поддерживает множество языков, включая китайский, английский, японский и корейский, чтобы удовлетворить потребности глобального бизнеса. Благодаря унифицированному API-интерфейсу в нее интегрированы многие основные TTS-сервисы, включая Micro...
10 месяцев назад
055.2K
MiniCPM 4.1 - 面壁智能推出的超高效端侧大模型

MiniCPM 4.1 - сверхэффективное макромоделирование с торцевой стороны с помощью технологии Facing Face Intelligence

MiniCPM 4.1 - это сверхэффективная конечная модель большого языка, представленная компанией Facade Intelligence. Благодаря архитектуре разреженного внимания InfLLM v2, каждой лексеме требуется вычислять корреляцию только с менее чем 5% лексем, что значительно снижает затраты на обработку длинных текстов. В сценарии с длинным текстом объемом 128K...
10 месяцев назад
045.1K
WeKnora - 腾讯微信开源的文档理解与语义检索框架

WeKnora - фреймворк для понимания документов и семантического поиска в Tencent WeChat с открытым исходным кодом

WeKnora является Tencent WeChat команды открытым исходным кодом на основе большой языковой модели (LLM) понимание документа и семантического поиска рамки, предназначенные для структуры сложных, гетерогенных сценариев содержания документа и предназначен для использования модульной архитектуры, интеграции мультимодальных предварительной обработки, семантического индексирования вектора, интеллектуальный отзыв и большой модели генеративного рассуждения ...
10 месяцев назад
090.2K
XTuner V1 - 上海AI Lab开源的大模型训练引擎

XTuner V1 - открытый движок Shanghai AI Lab для обучения больших моделей

XTuner V1 - это новое поколение движка для обучения больших моделей с открытым исходным кодом Шанхайской лаборатории искусственного интеллекта, предназначенного для обучения сверхбольших моделей с разреженными смешанными экспертами (MoE). Разработанный на основе PyTorch FSDP, он достигает высокой производительности за счет многомерной оптимизации памяти, связи и нагрузки...
10 месяцев назад
046.4K
Qwen3-ASR-Flash - 阿里通义千问推出的系列语音识别模型

Qwen3-ASR-Flash - серия моделей распознавания речи, выпущенная Али Тунъи Цяньцянем

Qwen3-ASR-Flash - это новейшая высокоточная модель распознавания речи Alibaba, основанная на базовой модели Qwen3 и обученная на массивных мультимодальных данных. Она поддерживает 11 языков и множество акцентов, включая мандаринский, сычуаньский, миньнаньский, у, кантонский и другие диалекты...
10 месяцев назад
059.3K
人工智能治理(AI Governance)是什么,一文看懂

Что такое управление искусственным интеллектом (AI Governance), в одной статье

Управление ИИ - это комплексная система, охватывающая технологии, этику, право и общество, которая эффективно направляет, управляет и контролирует весь жизненный цикл систем ИИ - от проектирования, разработки, развертывания и конечного использования. Основная цель - не препятствовать технологическим инновациям, а обеспечить, чтобы разработка и применение технологий ИИ начинались...
10 месяцев назад
053.5K
吴恩达的LangChain for LLM应用开发免费课程

Бесплатный курс по разработке приложений LangChain для LLM от Эрнеста Нг

LangChain for LLM Application Development - это онлайн-курс, представленный DeepLearning.AI, в котором участвуют основатель LangChain Харрисон Чейз и Эндрю Нг.
10 месяцев назад
068.2K
吴恩达的Transformer LLMs工作原理免费课程

Бесплатный курс о том, как работают трансформеры LLM от Enda Wu

Трансформаторные LLM работают по принципу, который описали DeepLearning.AI и Джей Аламмар и Маартен Гроотенд, авторы книги Hands-On Large Language Models...
10 месяцев назад
063.1K
半监督学习(Semi-Supervised Learning)是什么,一文看懂

Что такое полуконтрольное обучение (SSL) в одной статье?

Полуподконтрольное обучение - важная отрасль машинного обучения, которая использует небольшое количество маркированных данных и большое количество немаркированных данных для совместного обучения модели с целью улучшения эффекта обучения и способности к обобщению.
10 месяцев назад
052.8K
Seedream 4.0 - 字节推出的最新一代图像创作模型

Seedream 4.0 - последнее поколение моделей для создания изображений, выпущенное компанией Bytes

Seedream 4.0 - это передовой инструмент для создания и редактирования изображений, выпущенный компанией ByteDance, в центре внимания которого находится интеграция создания и редактирования, а также такие мощные функции, как точное редактирование команд, сохранение большого количества функций и глубокое понимание намерений.
10 месяцев назад
091.8K
rStar2-Agent - 微软开源的高效AI推理模型

rStar2-Agent - эффективная модель искусственного интеллекта с открытым исходным кодом от Microsoft

rStar2-Agent - это продвинутая модель математических рассуждений ИИ с открытым исходным кодом от Microsoft, которая демонстрирует сильные возможности решения математических задач, достигнув точности 80,61 TP3T в тесте AIME24. Модель обладает способностями к научным рассуждениям, достигнув в бенчмарке GPQA-Diamond...
10 месяцев назад
046.1K
Qwen3-Max-Preview - 通义千问推出的旗舰大语言模型

Qwen3-Max-Preview - флагманская модель большого языка от Tongyi Qianqian

Qwen3-Max-Preview - это последняя флагманская модель большого языка, выпущенная компанией Tongyi Qianwen. Это модель с самым большим количеством параметров в семействе Qwen3, с размером параметров более 1 триллиона. Модель обладает значительными улучшениями в области вывода, следования инструкциям, поддержки нескольких языков и охвата длиннохвостых знаний...
10 месяцев назад
049.6K
OneCAT - 美团联合上海交大开源的多模态模型

OneCAT - мультимодальная модель с открытым исходным кодом для Meituan и Шанхайского университета Цзяотун

OneCAT - это новая унифицированная мультимодальная модель, запущенная компанией Meituan совместно с Шанхайским университетом Цзяотун. В ней используется архитектура чистого декодера, в которой органично сочетаются функции мультимодального понимания, преобразования текста в изображение и редактирования изображений. Модель отказывается от традиционных мультимодальных моделей, которые полагаются на внешние визуальные кодировщики и дезамбигуаторы, благодаря модально-специфическим...
10 месяцев назад
048.1K
Claudable - 开源AI Web应用构建器,自然语言生成代码

Claudable - Open Source AI Web Application Builder, Natural Language Generated Code

Claudable - это конструктор веб-приложений с открытым исходным кодом на базе Next.js, который сочетает в себе передовые возможности искусственного интеллекта Claude Code и Cursor CLI с простым и интуитивным опытом создания приложений Lovable...
10 месяцев назад
053K
FineVision - Hugging Face推出的开源视觉语言数据集

FineVision - набор данных визуальных языков с открытым исходным кодом, созданный Hugging Face

FineVision - это набор данных визуального языка с открытым исходным кодом от Hugging Face для обучения продвинутых моделей визуального языка. Она содержит 17,3 миллиона изображений, 24,3 миллиона образцов, 88,9 миллиона раундов диалога и 9,5 миллиарда токенов ответов. Набор данных объединяет...
10 месяцев назад
051.1K
InfinityHuman - 字节联合浙大推出的长视频数字人生成模型

InfinityHuman - модель цифрового поколения человека, созданная компанией Bytes в сотрудничестве с ZJU.

InfinityHuman - это коммерческая модель генерации видеороликов персонажей с длинными временными сериями, управляемая звуком, которую совместно запустили ByteDance и Чжэцзянский университет. Модель управляется звуком и может генерировать видеоролики персонажей с высоким разрешением, большой продолжительностью и визуальной последовательностью.
10 месяцев назад
048.4K
Kimi K2-0905 - 月之暗面推出的最新模型版本

Kimi K2-0905 - последняя модель от Dark Side of the Moon!

Kimi K2-0905 - это продвинутая модель искусственного интеллекта от Dark Side of the Moon Technologies Ltd., которая помогает в программировании, эффективно генерирует код и поддерживает создание аккуратного и стандартизированного кода при фронт-енд разработке. Длина контекста модели увеличена до 256K для решения сложных задач.
10 месяцев назад
085.6K
强化学习 (Reinforcement Learning)是什么,一文看懂

Что такое Reinforcement Learning в одной статье?

Обучение с подкреплением - важная ветвь машинного обучения, позволяющая интеллекту автономно учиться принимать оптимальные решения, чтобы максимизировать долгосрочное кумулятивное вознаграждение за счет непрерывного взаимодействия с окружающей средой.
10 месяцев назад
044.2K
监督学习(Supervised Learning)是什么,一文看懂

Что такое контролируемое обучение (Supervised Learning, SL) в одной статье?

Наблюдаемое обучение - один из наиболее распространенных и фундаментальных методов машинного обучения, суть которого заключается в том, чтобы научить компьютерную модель делать предсказания или суждения, используя существующий набор данных с "правильным ответом".
10 месяцев назад
047.4K
深度学习 (Deep Learning)是什么,一文看懂

Глубокое обучение (Deep Learning) - что это такое, статья для понимания

Глубокое обучение (Deep Learning, DL) - это направление машинного обучения, в котором используются многослойные искусственные нейронные сети для изучения и представления сложных закономерностей в данных.
10 месяцев назад
047.5K
HunyuanWorld-Voyager - 腾讯开源的超长漫游世界模型

HunyuanWorld-Voyager - модель мира с открытым исходным кодом Tencent для сверхдальнего роуминга

HunyuanWorld-Voyager (сокращенно Hunyuan Voyager) - первая в индустрии модель сверхдлинного блуждающего мира, выпущенная компанией Tencent и поддерживающая нативную 3D-реконструкцию. Это новый фреймворк для диффузии видео, который генерирует 3D-последовательности облаков точек по заданным пользователем траекториям движения камеры из одного изображения, поддерживая...
10 месяцев назад
050.2K
Hunyuan-MT-7B - 腾讯混元开源的轻量级翻译模型

Hunyuan-MT-7B - модель облегченного перевода Tencent Mixed Meta с открытым исходным кодом

Hunyuan-MT-7B - это облегченная модель перевода, представленная командой Tencent's Mixed Meta Team, имеющая 7 миллиардов ссылок и поддерживающая взаимный перевод 33 языков и 5 народно-китайских языков/диалектов, включая кантонский, уйгурский и тибетский. В конкурсе WMT2025 Международной ассоциации вычислительной лингвистики (ACL)...
10 месяцев назад
046.7K