Последние ресурсы по искусственному интеллекту

共 2696 篇文章
IndexTTS2 - B站开源的免费TTS模型,首个支持精确时长控制

IndexTTS2 - свободная модель TTS с открытым исходным кодом, впервые поддерживающая точный контроль продолжительности.

IndexTTS2 - это новая свободная модель преобразования текста в речь (TTS) с открытым исходным кодом от команды озвучивания станции B, которая достигла значительного прорыва в эмоциональном выражении и контроле продолжительности, первая авторегрессионная модель TTS, поддерживающая точный контроль продолжительности. Поддержка клонирования голоса с нулевым образцом, только один аудиофайл может точно скопировать звук...
2 дня назад
04.8K
MiniMax Music 1.5 - MiniMax最新推出的AI音乐生成模型

MiniMax Music 1.5 - Новейшая модель генерации музыки с искусственным интеллектом от MiniMax!

MiniMax Music 1.5 - это продвинутый инструмент для генерации музыки с помощью искусственного интеллекта, который позволяет генерировать до 4 минут музыки на основе описания пользователя на естественном языке. Модель поддерживает широкий спектр музыкальных стилей и настроек, генерирует естественные и полные вокальные тона, плавные переходы и богатые многослойные аранжировки...
3 дня назад
06K
HuMo - 清华大学联合字节开源的多模态视频生成框架

HuMo - фреймворк для создания мультимодального видео с открытым исходным кодом от Университета Цинхуа United Bytes

HuMo - это мультимодальный фреймворк для генерации видео, совместно открытый Университетом Цинхуа и ByteDance Intelligent Creation Lab, ориентированный на генерацию видео с участием человека. Он может генерировать высококачественные, тонкие и управляемые человеческие видео из мультимодальных входных данных, таких как текст, изображения и аудио.HuMo поддерживает мощные возможности следования текстовым подсказкам...
4 дня назад
07.5K
AnyI2V - 复旦联合阿里达摩院等开源的智能图像动画生成框架

AnyI2V - Фуданьский институт и Институт Али Дхармы и другие открытые рамки для создания интеллектуальной анимации изображений

AnyI2V - это фреймворк для создания анимации изображений, созданный совместно Фуданьским университетом, Академией Alibaba Darmo и другими компаниями, который позволяет преобразовывать статичные условные изображения (например, сетки, облака точек и т.д.) в динамичные видеоролики без необходимости сложного процесса обучения и большого количества данных.
4 дня назад
06.4K
SRPO - 腾讯混元推出的文本到图像生成模型

SRPO - Модель генерации текста в изображение, запущенная Tencent Hybrid

SRPO (Semantic Relative Preference Optimization) - это модель генерации текста в изображение, представленная компанией Tencent Mixed Meta, которая оптимизирует механизм вознаграждения с помощью текстовых условных сигналов для достижения онлайн-регулировки вознаграждения и снижения зависимости от тонкой настройки в автономном режиме.
4 дня назад
08.3K
Qwen3-Next - 阿里通义推出的最新基础模型

Qwen3-Next - последняя базовая модель, выпущенная компанией Ali Tongyi

Qwen3-Next - это новое поколение гибридной архитектуры большой модели с открытым исходным кодом от Али Тонги, объединяющей технологии Gated DeltaNet и Gated Attention, которая хорошо справляется с длинными текстами, быстро делает выводы и экономит вычислительные ресурсы.
4 дня назад
06.3K
文心大模型X1.1 - 百度推出的深度思考模型,理解能力更强

Wenshin Big Model X1.1 - модель глубокого мышления Baidu для лучшего понимания

Wenxin Big Model X1.1 - это модель глубокого мышления, выпущенная компанией Baidu и основанная на гибридной системе обучения с подкреплением, которая нацелена на улучшение понимания и генерации языка. Модель отлично справляется со сложными вопросами, выполняет инструкции и имитирует поведение интеллекта, а также может точно давать грамотные ответы и высококачественный текстовый контент.
6 дней назад
08K
混元图像2.1 - 腾讯推出的开源文生图模型

Гибридное изображение 2.1 - Графическая модель поставщика с открытым исходным кодом Tencent

HunyuanImage 2.1 - это графическая модель с открытым исходным кодом от Tencent, предназначенная для создания высококачественных изображений. Модель поддерживает родное разрешение 2K, может точно прорисовывать сложные сцены и детали, благодаря чему ярко передается выражение лица и движения персонажа.
6 дней назад
07.9K
AntSK FileChunk - 免费的AI语义文档切片工具,动态切片调整

AntSK FileChunk - бесплатный инструмент для семантической нарезки документов AI, динамическая настройка нарезки

AntSK FileChunk - это бесплатный интеллектуальный инструмент для нарезки документов, предназначенный для приложений RAG (Retrieval Augmented Generation). Семантика как основа, документ будет интеллектуально нарезан на семантически полные, последовательные сегменты, поддержка нескольких языков, динамическая настройка размера фрагмента для обеспечения контекстной целостности.
6 дней назад
07.9K
UnifiedTTS - 一站式TTS API服务平台,实时性能监控

UnifiedTTS - единая сервисная платформа TTS API, мониторинг производительности в реальном времени

UnifiedTTS - это универсальная платформа для предоставления услуг преобразования текста в речь (TTS). Она поддерживает множество языков, включая китайский, английский, японский и корейский, чтобы удовлетворить потребности глобального бизнеса. Благодаря унифицированному API-интерфейсу в нее интегрированы многие основные TTS-сервисы, включая Micro...
6 дней назад
08.4K
MiniCPM 4.1 - 面壁智能推出的超高效端侧大模型

MiniCPM 4.1 - сверхэффективное макромоделирование с торцевой стороны с помощью технологии Facing Face Intelligence

MiniCPM 4.1 - это сверхэффективная конечная модель большого языка, представленная компанией Facade Intelligence. Благодаря архитектуре разреженного внимания InfLLM v2, каждой лексеме требуется вычислять корреляцию только с менее чем 5% лексем, что значительно снижает затраты на обработку длинных текстов. В сценарии с длинным текстом объемом 128K...
7 дней назад
08.9K
WeKnora - 腾讯微信开源的文档理解与语义检索框架

WeKnora - фреймворк для понимания документов и семантического поиска в Tencent WeChat с открытым исходным кодом

WeKnora является Tencent WeChat команды открытым исходным кодом на основе большой языковой модели (LLM) понимание документа и семантического поиска рамки, предназначенные для структуры сложных, гетерогенных сценариев содержания документа и предназначен для использования модульной архитектуры, интеграции мультимодальных предварительной обработки, семантического индексирования вектора, интеллектуальный отзыв и большой модели генеративного рассуждения ...
7 дней назад
09.7K
XTuner V1 - 上海AI Lab开源的大模型训练引擎

XTuner V1 - открытый движок Shanghai AI Lab для обучения больших моделей

XTuner V1 - это новое поколение движка для обучения больших моделей с открытым исходным кодом Шанхайской лаборатории искусственного интеллекта, предназначенного для обучения сверхбольших моделей с разреженными смешанными экспертами (MoE). Разработанный на основе PyTorch FSDP, он достигает высокой производительности за счет многомерной оптимизации памяти, связи и нагрузки...
7 дней назад
08.7K
Qwen3-ASR-Flash - 阿里通义千问推出的系列语音识别模型

Qwen3-ASR-Flash - серия моделей распознавания речи, выпущенная Али Тунъи Цяньцянем

Qwen3-ASR-Flash - это новейшая высокоточная модель распознавания речи Alibaba, основанная на базовой модели Qwen3 и обученная на массивных мультимодальных данных. Она поддерживает 11 языков и множество акцентов, включая мандаринский, сычуаньский, миньнаньский, у, кантонский и другие диалекты...
7 дней назад
09.5K
吴恩达的LangChain for LLM应用开发免费课程

Бесплатный курс по разработке приложений LangChain для LLM от Эрнеста Нг

LangChain for LLM Application Development - это онлайн-курс, представленный DeepLearning.AI, в котором участвуют основатель LangChain Харрисон Чейз и Эндрю Нг.
1 неделя назад
011K
吴恩达的Transformer LLMs工作原理免费课程

Бесплатный курс о том, как работают трансформеры LLM от Enda Wu

Трансформаторные LLM работают по принципу, который описали DeepLearning.AI и Джей Аламмар и Маартен Гроотенд, авторы книги Hands-On Large Language Models...
1 неделя назад
09.4K
Seedream 4.0 - 字节推出的最新一代图像创作模型

Seedream 4.0 - последнее поколение моделей для создания изображений, выпущенное компанией Bytes

Seedream 4.0 - это передовой инструмент для создания и редактирования изображений, выпущенный компанией ByteDance, в центре внимания которого находится интеграция создания и редактирования, а также такие мощные функции, как точное редактирование команд, сохранение большого количества функций и глубокое понимание намерений.
6 дней назад
032.6K
rStar2-Agent - 微软开源的高效AI推理模型

rStar2-Agent - эффективная модель искусственного интеллекта с открытым исходным кодом от Microsoft

rStar2-Agent - это продвинутая модель математических рассуждений ИИ с открытым исходным кодом от Microsoft, которая демонстрирует сильные возможности решения математических задач, достигнув точности 80,61 TP3T в тесте AIME24. Модель обладает способностями к научным рассуждениям, достигнув в бенчмарке GPQA-Diamond...
1 неделя назад
08.8K
Qwen3-Max-Preview - 通义千问推出的旗舰大语言模型

Qwen3-Max-Preview - флагманская модель большого языка от Tongyi Qianqian

Qwen3-Max-Preview - это последняя флагманская модель большого языка, выпущенная компанией Tongyi Qianwen. Это модель с самым большим количеством параметров в семействе Qwen3, с размером параметров более 1 триллиона. Модель обладает значительными улучшениями в области вывода, следования инструкциям, поддержки нескольких языков и охвата длиннохвостых знаний...
1 неделя назад
010.3K
OneCAT - 美团联合上海交大开源的多模态模型

OneCAT - мультимодальная модель с открытым исходным кодом для Meituan и Шанхайского университета Цзяотун

OneCAT - это новая унифицированная мультимодальная модель, запущенная компанией Meituan совместно с Шанхайским университетом Цзяотун. В ней используется архитектура чистого декодера, в которой органично сочетаются функции мультимодального понимания, преобразования текста в изображение и редактирования изображений. Модель отказывается от традиционных мультимодальных моделей, которые полагаются на внешние визуальные кодировщики и дезамбигуаторы, благодаря модально-специфическим...
1 неделя назад
07.3K
Claudable - 开源AI Web应用构建器,自然语言生成代码

Claudable - Open Source AI Web Application Builder, Natural Language Generated Code

Claudable - это конструктор веб-приложений с открытым исходным кодом на базе Next.js, который сочетает в себе передовые возможности искусственного интеллекта Claude Code и Cursor CLI с простым и интуитивным опытом создания приложений Lovable...
1 неделя назад
010.3K
FineVision - Hugging Face推出的开源视觉语言数据集

FineVision - набор данных визуальных языков с открытым исходным кодом, созданный Hugging Face

FineVision - это набор данных визуального языка с открытым исходным кодом от Hugging Face для обучения продвинутых моделей визуального языка. Она содержит 17,3 миллиона изображений, 24,3 миллиона образцов, 88,9 миллиона раундов диалога и 9,5 миллиарда токенов ответов. Набор данных объединяет...
1 неделя назад
09.7K
InfinityHuman - 字节联合浙大推出的长视频数字人生成模型

InfinityHuman - модель цифрового поколения человека, созданная компанией Bytes в сотрудничестве с ZJU.

InfinityHuman - это коммерческая модель генерации видеороликов персонажей с длинными временными сериями, управляемая звуком, которую совместно запустили ByteDance и Чжэцзянский университет. Модель управляется звуком и может генерировать видеоролики персонажей с высоким разрешением, большой продолжительностью и визуальной последовательностью.
2 недели назад
08.9K
Kimi K2-0905 - 月之暗面推出的最新模型版本

Kimi K2-0905 - последняя модель от Dark Side of the Moon!

Kimi K2-0905 - это продвинутая модель искусственного интеллекта от Dark Side of the Moon Technologies Ltd., которая помогает в программировании, эффективно генерирует код и поддерживает создание аккуратного и стандартизированного кода при фронт-енд разработке. Длина контекста модели увеличена до 256K для решения сложных задач.
2 недели назад
011.6K
HunyuanWorld-Voyager - 腾讯开源的超长漫游世界模型

HunyuanWorld-Voyager - модель мира с открытым исходным кодом Tencent для сверхдальнего роуминга

HunyuanWorld-Voyager (сокращенно Hunyuan Voyager) - первая в индустрии модель сверхдлинного блуждающего мира, выпущенная компанией Tencent и поддерживающая нативную 3D-реконструкцию. Это новый фреймворк для диффузии видео, который генерирует 3D-последовательности облаков точек по заданным пользователем траекториям движения камеры из одного изображения, поддерживая...
2 недели назад
012.8K
Hunyuan-MT-7B - 腾讯混元开源的轻量级翻译模型

Hunyuan-MT-7B - модель облегченного перевода Tencent Mixed Meta с открытым исходным кодом

Hunyuan-MT-7B - это облегченная модель перевода, представленная командой Tencent's Mixed Meta Team, имеющая 7 миллиардов ссылок и поддерживающая взаимный перевод 33 языков и 5 народно-китайских языков/диалектов, включая кантонский, уйгурский и тибетский. В конкурсе WMT2025 Международной ассоциации вычислительной лингвистики (ACL)...
2 недели назад
013.1K
Step-Audio 2 mini - 阶跃星辰开源的语音大模型

Step-Audio 2 mini - макромоделирование речи с открытым исходным кодом Step-Star

Step-Audio 2 mini - это сквозная речевая макромодель с открытым исходным кодом от Step-Audio. Она преодолевает традиционную структуру речевых моделей и использует истинную сквозную мультимодальную архитектуру, которая напрямую преобразует исходный аудиосигнал в речевой отклик, с меньшей задержкой, и понимает паралингвистическую информацию и невокальные сигналы.
2 недели назад
015K
MobileCLIP2 - 苹果公司开源的高效端侧多模态模型

MobileCLIP2 - эффективная мультимодальная модель с открытым исходным кодом от Apple

MobileCLIP2 - это обновленная версия MobileCLIP, эффективной мультимодальной модели, разработанной исследователями Apple. Оптимизированная для мультимодального обучения с подкреплением, она объединяет модель учителя CLIP, обучая более эффективные модели на наборе данных DFN и улучшая графическое...
2 недели назад
015.1K
InternVL3.5 - 上海AI实验室开源的多模态大模型

InternVL3.5 - Шанхайская лаборатория искусственного интеллекта с открытым исходным кодом мультимодальных больших моделей

InternVL3.5 (Shusheng-Wanxiang 3.5) - это мультимодальная крупная модель Шанхайской лаборатории искусственного интеллекта с открытым исходным кодом. Модель полностью модернизирована с точки зрения общих возможностей, способности рассуждать и эффективности развертывания, предоставляет девять размеров версий от 1 млрд до 241 млрд параметров, охватывая различные сценарии спроса на ресурсы, включая тол...
2 недели назад
014.7K
FastVLM - 苹果公司推出的视觉语言模型

FastVLM - визуальное языковое моделирование от Apple

FastVLM (Fast Vision Language Model) - эффективная модель визуального языка, представленная компанией Apple. В основе гибридного визуального кодера FastViTHD лежат конволюционная и трансформаторная архитектуры, позволяющие значительно снизить...
2 недели назад
013.2K
Meeseeks - 美团开源的评估模型指令遵循能力的评测集

Meeseeks - Meeseeks с открытым исходным кодом оценивает способность типовых инструкций следовать заданному рубрикатору

Meeseeks - это набор для оценки больших моделей с открытым исходным кодом, используемый командой M17 в Meituan для оценки способности модели следовать инструкциям. Meeseeks использует трехуровневую систему оценки для всестороннего измерения того, способна ли модель генерировать ответы в строгом соответствии с инструкциями пользователя от макро- до микроуровня, и не оценивает знание содержания ответа как положительный...
3 недели назад
015.1K
gpt-realtime - OpenAI最新推出的AI语音模型

gpt-realtime - новейшая речевая модель ИИ от OpenAI

gpt-realtime - это усовершенствованная модель речи от OpenAI, которая поддерживает прямую обработку звука для создания естественной и плавной речи. Модель поддерживает множество языков и стилей, понимает невербальные сигналы, такие как смех, и может переключаться между языками.
3 недели назад
015.6K
Youtu-agent - 腾讯开源的高效智能体框架

Youtu-agent - Tencent open source efficient intelligent body framework

Youtu-agent - это фреймворк с открытым исходным кодом для создания и запуска автономных интеллектов от Tencent Youtu Labs. Фреймворк демонстрирует хорошие результаты в бенчмарках WebWalkerQA и GAIA, с точностью 71,47% и 72,8% соответственно.Фреймворк...
3 недели назад
018.6K
HunyuanVideo-Foley - 腾讯推出的开源视频音效生成模型

HunyuanVideo-Foley - модель генерации звукового видео с открытым исходным кодом от Tencent

HunyuanVideo-Foley - это модель генерации видеозвука с открытым исходным кодом от команды Tencent's Mixed Yuan, которая поддерживает добавление точно подобранных звуковых эффектов к беззвучным видео. Модель основана на крупномасштабном тренировочном наборе данных, с архитектурой мультимодального диффузионного преобразователя, в сочетании с представлением функции потерь при выравнивании и методами оптимизации аудио VAE ...
3 недели назад
019.9K
PixVerse V5 - 爱诗科技推出的自研AI视频模型

PixVerse V5 - видеомодель с искусственным интеллектом, разработанная компанией Aishi Technologies

PixVerse V5 - это крупная модель искусственного интеллекта для создания видео, выпущенная компанией Aishi Technology. Модель может генерировать высококачественный видеоконтент на основе введенных пользователем текстовых описаний или изображений и поддерживает различные стили, такие как аниме, научная фантастика и национальный стиль.
3 недели назад
017.1K
问小白5 - 问小白推出的全能AI模型

Ask White 5 - универсальная модель искусственного интеллекта от Ask White

Ask White 5 - флагманская модель "Все в одном" с очень высоким уровнем интеллекта. Модель демонстрирует высокие результаты по многим показателям, например, по композитному индексу AA-Index - 64,7 балла, по STEM-способностям - 86 баллов, что близко к мировому лидеру GPT-5.
3 недели назад
015K
MiniCPM-V 4.5 - 面壁智能开源的8B参数多模态模型

MiniCPM-V 4.5 - многогранная интеллектуальная мультимодальная модель с открытым исходным кодом с 8B параметрами

MiniCPM-V 4.5 - это 8B параметрическая мультимодальная модель для Facade Intelligence с открытым исходным кодом, построенная на базе Qwen3-8B и SigLIP2-400M, с возможностью эффективной обработки изображений и видео. Она имеет отличные показатели по потреблению визуальных маркеров, обработке ...
3 недели назад
017.8K
Gemini 2.5 Flash Image - 谷歌推出的最强图像生成与编辑模型

Gemini 2.5 Flash Image - самая мощная модель генерации и редактирования изображений от Google

Gemini 2.5 Flash Image (кодовое название nano banana) - это современная модель генерации и редактирования изображений от Google, которая сохраняет согласованность персонажей в разных сценах и поддерживает точное редактирование изображений с помощью естественного языка, например, размытие фона и удаление пятен.
3 недели назад
017K
Wan2.2-S2V - 阿里通义开源的音频驱动视频生成模型

Wan2.2-S2V - модель генерации видео с открытым исходным кодом от Ali Tongyi, управляемая звуком

Wan2.2-S2V - это мультимодальная модель генерации видео с открытым исходным кодом от Ali Tongyi, только статическая картинка и фрагмент аудио, может генерировать высококачественное цифровое видео человека, и поддерживает различные типы изображений и кадров.
3 недели назад
017.5K
吴恩达面向开发者的ChatGPT提示工程免费课程

Бесплатный курс по разработке советов ChatGPT для разработчиков от Эрнеста Нг

ChatGPT Tip Engineering for Developers - это совместный курс DeepLearning.AI и OpenAI, предназначенный для разработчиков, в котором участвуют Иза Фулфорд, Эндрю Нг, чтобы научить использовать большие языковые модели (LLM)...
3 недели назад
015.1K
问小白o4 - 问小白推出的并行思考模型,同时开启8条思考路径

Ask o4 - модель параллельного мышления, представленная Ask o4, которая открывает 8 путей мышления одновременно

Ask White o4 - это инновационная модель параллельного мышления, которая открывает 8 путей мышления одновременно, анализирует проблему с разных точек зрения и автоматически отфильтровывает оптимальное решение. Модель использует передовые технологии обучения с подкреплением Long-CoT и обучения с вознаграждением за процесс, обладает мощными возможностями глубоких рассуждений и отлично справляется со сложными задачами.
3 недели назад
014.6K
VibeVoice - 微软推出的文本到语音模型

VibeVoice - моделирование преобразования текста в речь от Microsoft

VibeVoice - это новая модель преобразования текста в речь (TTS) от Microsoft. Модель генерирует разговорный звук из четырех различных динамиков и поддерживает до 90 минут непрерывного голосового вывода, преодолевая ограничения по длительности традиционных систем TTS.
3 недели назад
019.4K
SpatialGen - 群核科技推出的开源3D场景生成模型

SpatialGen - модели генерации 3D-сцен с открытым исходным кодом от Qunar Technologies

SpatialGen - это модель генерации 3D-сцен с открытым исходным кодом от Qunar Technology, основанная на архитектуре диффузионной модели, поддерживающая генерацию пространственно-временных согласованных многоракурсных изображений на основе текстовых описаний, эталонных изображений и пространственного 3D-макета, а также генерацию 3D-гауссовых сцен и рендеринг роуминговых видео.
3 недели назад
013.9K
EchoMimicV3 - 蚂蚁开源的多模态数字人动画生成模型

EchoMimicV3 - мультимодальная модель генерации цифровой человеческой анимации с открытым исходным кодом Ant

EchoMimicV3 - это мультимодальная модель генерации цифрового человеческого видео, созданная компанией Ant Group, с 1,3 миллиардами параметров, способная обрабатывать множество входных данных, таких как аудио, текст, изображения и т.д. для генерации высококачественных цифровых человеческих анимаций.
3 недели назад
014K
Fun-ASR - 钉钉、通义联合推出的新一代语音识别模型

Fun-ASR - новое поколение моделей распознавания речи, выпущенное совместно компаниями Nail и Tongyi

Fun-ASR - это большая модель распознавания речи, созданная совместно компаниями Nail и Tongyi Labs. Модель была обучена на массивных аудиоданных и может точно идентифицировать многоотраслевую терминологию, такую как Интернет, технологии, украшения для дома и т. д., значительно повышая точность распознавания. Модель сочетается с информацией о предприятии Nail для оптимизации выводов, чтобы уменьшить проблему иллюзий...
3 недели назад
018.3K
Squibler - AI小说辅助写作平台,助力构思到创作全过程

Squibler - платформа для написания романов с помощью искусственного интеллекта, обеспечивающая весь процесс от идеи до создания.

Squibler - это мощная платформа для писателей с поддержкой искусственного интеллекта, которая помогает пользователям пройти весь путь от замысла до создания и публикации. Платформа предлагает множество шаблонов для написания романов, сценариев, рассказов и т. д. Пользователям нужно только ввести первоначальную концепцию, а ИИ сгенерирует наброски, персонажей, сцены...
3 недели назад
014.4K
91写作 - 开源的AI智能小说创作平台

91Writing - платформа для создания интеллектуальных романов с открытым исходным кодом AI

91Writing - это полностью открытый инструмент для создания AI-романов, разработанный на основе Vue 3 и Element Plus, интегрирующий различные продвинутые AI-модели, такие как GPT, Claude, Gemini и так далее. Инструмент предоставляет авторам полную цепочку создания от идеи до текста, включая создание проекта...
3 недели назад
014.9K
Aivilization - 港科大推出的多Agent社会模拟平台

Aivilization - мультиагентная платформа социального моделирования, запущенная HKUST

Aivilization - это первая в мире платформа для социального моделирования тела ИИ-мультиинтеллекта, разработанная Гонконгским университетом науки и технологий. Она представляет собой визуальную цифровую песочницу, где пользователи могут создавать и направлять тысячи искусственных интеллектов, чтобы наблюдать за социальной эволюцией будущего сосуществования человека и ИИ. Платформа поддерживает...
3 недели назад
023.8K
Grok 2.5 - 马斯克旗下xAI开源的人工智能模型

Grok 2.5 - модель ИИ с открытым исходным кодом от Маска xAI

Grok 2.5 - это модель искусственного интеллекта с открытым исходным кодом от компании Элона Маска xAI. Имея 269 миллиардов параметров, она основана на архитектуре Mixed Expertise (MoE), обеспечивающей высокую производительность и точность выводов. Модель была протестирована на научных знаниях выпускников (GPQA), знаниях общего назначения (MMLU, MM...
3 недели назад
015.7K
Draw A Fish - 免费的在线AI画鱼网站,共享虚拟鱼缸

Draw A Fish - бесплатный онлайн сайт рисования рыбы AI с общими виртуальными аквариумами

Draw A Fish - это простой и веселый сайт для рисования рыбок AI, где пользователи могут рисовать рыбок, которые будут помещены в общий виртуальный аквариум. Draw A Fish не требует регистрации, прост в использовании и занимает всего несколько секунд, чтобы создать и поделиться.
3 недели назад
015.4K
MIT最新报告《生成式AI鸿沟:2025年商业人工智能现状》

Новый доклад Массачусетского технологического института "Разрыв в генеративном ИИ: состояние делового ИИ в 2025 году".

Последний отчет MIT "Разрыв в генеративном ИИ: состояние делового ИИ в 2025 году" раскрывает суть процесса внедрения генеративного ИИ (GenAI), с которым сталкиваются компании, проведя углубленное исследование более чем 300 проектов ИИ, интервью с 52 организациями и опрос 153 руководителей...
3 недели назад
026.2K
AutoClip - 开源的AI视频切片工具,一键生成专题视频合集

AutoClip - инструмент с открытым исходным кодом для нарезки видео с искусственным интеллектом, позволяющий создавать тематические коллекции видео в один клик!

AutoClip - это инструмент для редактирования видео с открытым исходным кодом, основанный на передовых технологиях искусственного интеллекта для достижения полного процесса автоматизированной обработки видео. Инструменты могут автоматически определять основные моменты видео, точно извлекать ценный контент, могут быть основаны на сходстве темы интеллектуальной кластеризации, генерировать коллекцию контента.AutoClip поддерживает...
4 недели назад
017K
ToonComposer - 腾讯开源的生成式AI动画制作工具

ToonComposer - инструмент генеративной анимации искусственного интеллекта с открытым исходным кодом от Tencent

ToonComposer - это инструмент генеративной анимации с искусственным интеллектом, созданный совместно Китайским университетом Гонконга, лабораторией Tencent PCG ARC Lab и Пекинским университетом. Благодаря генеративной технологии пост-ключевых кадров, процесс генерации промежуточных кадров и раскрашивания интегрирован в автоматизированный процесс, требующий только эскиза и...
4 недели назад
019.4K
Seed-OSS - 字节跳动团队开源的全新AI模型

Seed-OSS - новая модель искусственного интеллекта, открытая командой Wordpress

Seed-OSS - семейство больших языковых моделей с открытым исходным кодом от команды Byte Jump Seed, ориентированных на длинные тексты и задачи рассуждения. Модель хорошо справляется со сложными логическими рассуждениями и многоступенчатыми рассуждениями с высокой точностью и может эффективно решать сложные задачи.Seed-OSS поддерживает длинные текстовые контексты объемом до 512K...
4 недели назад
018.5K
Intern-S1-mini - 上海AI Lab开源的轻量化科学多模态模型

Intern-S1-mini - легкая научная мультимодальная модель с открытым исходным кодом от Shanghai AI Lab

Intern-S1-mini - это легкая научная мультимодальная макромодель с параметрическим масштабом 8B, созданная Шанхайской лабораторией искусственного интеллекта (SAL). Она наследует мощные возможности Intern-S1, сочетая в себе как общие, так и специализированные научные возможности, и подходит для быстрого развертывания и вторичной разработки. С точки зрения производительности, I...
4 недели назад
016.1K
Nano Banana - 谷歌推出的AI图像编辑模型

Nano Banana - модель искусственного интеллекта для редактирования изображений от Google

Nano Banana - это кодовое название Gemini 2.5 Flash Image для Gemini, модели генерации и редактирования изображений с искусственным интеллектом от Google, которая генерирует детализированные, фотореалистичные изображения на основе простых текстовых подсказок для внесения высококачественных изменений в существующие изображения.
3 недели назад
031.8K
Klear-Reasoner - 快手推出的全新推理模型

Klear-Reasoner - новая модель рассуждений, представленная компанией Racer

Klear-Reasoner - это высокопроизводительная модель умозаключений от Racer, основанная на Qwen3-8B-Base. Модель обучается с помощью длинной мыслительной цепочки с контролируемой тонкой настройкой и обучения с подкреплением, что позволяет ей демонстрировать высокие результаты в математических и кодовых рассуждениях.Klear-Reasoner...
4 недели назад
015.9K
CombatVLA - 淘天集团推出的高效VLA模型

CombatVLA - эффективная модель VLA от Amoy Group

CombatVLA - это инновационная 3D-модель для ролевых игр (ARPG) от команды Future Life Lab из Amoy Group. CombatVLA - это модель видения-лингвистики-действия (VLA), построенная в параметрическом масштабе 3B, которая собирает данные об игроке через трекер движения...
4 недели назад
015.8K
DeepSeek V3.1 - DeepSeek推出的最新开源AI模型

DeepSeek V3.1 - новейшая модель искусственного интеллекта с открытым исходным кодом от DeepSeek

DeepSeek V3.1 - новое поколение моделей искусственного интеллекта, представленное компанией DeepSeek, с важными обновлениями по сравнению с предшественником V3. DeepSeek V3.1 представляет гибридную архитектуру рассуждений, которая позволяет модели гибко переключаться между режимами мышления и не-мышления, значительно улучшая...
4 недели назад
017K
Qwen-Image-Edit - 阿里通义开源的图像编辑模型

Qwen-Image-Edit - модель редактирования изображений с открытым исходным кодом от Ali Tongyi

Qwen-Image-Edit - это универсальная модель редактирования изображений, представленная Али Тонги, построенная на архитектуре Qwen-Image с 20 миллиардами параметров. Модель сочетает в себе возможности семантического редактирования и редактирования внешнего вида и может выполнять низкоуровневое визуальное редактирование внешнего вида изображений (например, добавлять, удалять...
4 недели назад
017.2K
MoE-TTS - 昆仑万维推出的最新语音生成框架

MoE-TTS - новейший фреймворк для генерации речи от KunlunWei

MoE-TTS - это система синтеза речи, представленная компанией KunlunWanwei, основанная на архитектуре Mixed Expert (MoE), которая объединяет предварительно обученные большие языковые модели (LLM) с речевыми экспертными модулями. MoE-TTS сохраняет мощные текстовые рассуждения, замораживая параметры текстовых модулей и обновляя только параметры речевых модулей...
1 месяц назад
018.3K
Genie Envisioner - 智元联合北航等开源的通用机器人操作平台

Genie Envisioner - робототехническая платформа общего назначения с открытым исходным кодом, разработанная компанией Jiyuan совместно с Beihang и другими компаниями.

Genie Envisioner (GE) - это единая платформа для робототехнических операций, разработанная командой Genie Robotics в сотрудничестве с Национальным университетом Сингапура, Пекинским университетом аэронавтики и астронавтики и другими учреждениями. Она позволяет роботам лучше понимать и выполнять задачи, "сначала представляя, потом действуя".
1 месяц назад
018.8K
DINOv3 - Meta AI推出的新一代自监督视觉基础模型

DINOv3 - базовая модель самоконтроля зрения нового поколения от Meta AI

DINOv3 - это новое поколение самоконтролируемой базовой модели зрения от Meta AI, которая использует парадигму самоконтролируемого обучения для изучения характеристик изображений без данных о метках. Она решает проблему деградации признаков за счет улучшения подготовки данных и введения привязки по Граму, а также улучшает обобщение...
1 месяц назад
023.2K
Mureka V7.5 - 昆仑万维推出的先进AI音乐创作模型

Mureka V7.5 - усовершенствованные модели создания музыки с искусственным интеллектом от Quintessence

Mureka V7.5 - это современная модель генерации музыки с помощью искусственного интеллекта от Kunlun World Wide, ориентированная на создание китайских песен. Модель точно воспроизводит тембр и технику игры для создания естественного, плавного и эмоционального вокала. Основанная на оптимизированной технологии автоматического распознавания речи (ASR), Mureka V...
1 месяц назад
018K
Skywork Deep Research Agent v2 - 昆仑万维推出的深度研究智能体升级版

Skywork Deep Research Agent v2 - обновленная версия разведчика глубоких исследований от Kunlun

Skywork Deep Research Agent v2 - это интеллектуальный орган для глубоких исследований, созданный компанией Kunlun Wave и ориентированный на интеграцию и анализ мультимодальной информации. Skywork Deep Research Agent v2 может обрабатывать текст, граф...
1 месяц назад
015.5K
Hunyuan-GameCraft - 腾讯混元开源的下一代游戏交互式视频生成框架

Hunyuan-GameCraft - фреймворк с открытым исходным кодом от Tencent Hunyuan для создания интерактивного видео для игр нового поколения.

Hunyuan-GameCraft является открытым исходным кодом Tencent Hunyuan команды интерактивных игр видео генерации рамки. Фреймворк из одной картинки и подсказок генерирует высокодинамичное игровое видео, поддерживая пользователя с помощью клавиатуры и мыши для управления видеоконтентом в реальном времени.
1 месяц назад
020.7K
Skywork UniPic 2.0 - 昆仑万维开源的高效多模态模型

Skywork UniPic 2.0 - эффективное мультимодальное моделирование с открытым исходным кодом от KunlunWanwei

Skywork UniPic 2.0 - это эффективная мультимодальная модель с открытым исходным кодом от Quintessence, ориентированная на создание, редактирование и понимание изображений. Модель основана на 2B-параметрической архитектуре SD3.5-Medium и реализуется с помощью предварительного обучения, прогрессивной стратегии двухзадачного усиления и совместного обучения...
1 месяц назад
018.8K
RynnRCP - 阿里达摩院推出的首个开源机器人上下文协议

RynnRCP - первый контекстный протокол для робототехники с открытым исходным кодом от Института Али Дхарма

RynnRCP - это протокол контекста робота (RCP) с открытым исходным кодом от Ali Dharma Institute, который снижает порог для разработки встроенного интеллекта и открывает весь процесс разработки.RynnRCP состоит из фреймворка RCP и модуля RobotMotion.Фреймворк RCP, благодаря абстрагированию возможностей и поддержке нескольких протоколов,...
1 месяц назад
018.3K
RynnEC - 阿里达摩院开源的世界理解模型

RynnEC - модель понимания мира с открытым исходным кодом Института Али Дхармы

RynnEC - это модель понимания мира, представленная Alibaba Dharma Institute и ориентированная на задачи воплощенного интеллекта. Модель основана на технологии мультимодального слияния, объединяющей видеоданные и естественный язык, и может анализировать объекты в сцене по нескольким измерениям, поддерживая такие функции, как понимание объектов, пространственное восприятие и сегментация видеоцелей.
1 месяц назад
018.5K
Matrix-3D - 昆仑万维开源的3D世界生成框架

Matrix-3D - фреймворк с открытым исходным кодом для генерации 3D-миров в Kunlun World Wide Web

Matrix-3D - это фреймворк с открытым исходным кодом от команды Skywork AI, ориентированный на создание панорамных 3D-миров. Фреймворк сочетает в себе технологии генерации панорамного видео и 3D-реконструкции для создания высококачественных, всенаправленных изучаемых 3D-миров из одного изображения или текстовой подсказки...
1 месяц назад
017.3K
GLM-4.5V - 智谱推出的多模态开源视觉推理模型

GLM-4.5V - мультимодальная модель визуального мышления с открытым исходным кодом от Smart Spectrum

GLM-4.5V - ведущая в мире модель визуального вывода с открытым исходным кодом, представленная компанией Smart Spectrum, с 106 миллиардами общих параметров и 12 миллиардами активированных параметров. Модель обучена на основе текстовой базовой модели нового поколения GLM-4.5-Air, обладает мощными возможностями визуального понимания и рассуждения, способна работать с изображениями, видео...
1 месяц назад
020.8K
Matrix-Game 2.0 - 昆仑万维开源自研的交互式世界模型

Matrix-Game 2.0 - Интерактивная модель мира, разработанная KunlunWanwei

Matrix-Game 2.0 - это самостоятельно разработанная интерактивная модель мира, выпущенная компанией Kunlun SkyWork AI. Matrix-Game 2.0 - это первая в индустрии интерактивная модель с открытым исходным кодом, работающая в реальном времени и создающая длинные последовательности для сценариев общего назначения, способная работать с частотой 25 кадров в секунду в нескольких...
1 месяц назад
019.8K
Baichuan-M2 - 百川智能推出开源的医疗增强大模型

Baichuan-M2 - Baichuan Intelligence запускает расширенную большую модель здравоохранения с открытым исходным кодом

Baichuan-M2 - это медицинская дополненная макромодель с открытым исходным кодом, созданная компанией Baichuan Intelligence. Она демонстрирует хорошие результаты в области медицины, особенно в обзоре HealthBench с оценкой 60,1 балла, превосходит gpt-oss120b от OpenAI и многие другие модели с открытым исходным кодом, становясь глобальным...
1 месяц назад
018.7K
Qwen-Flash - 通义千问推出的高性能、低成本语言模型

Qwen-Flash - высокопроизводительная и недорогая языковая модель от Тонги Чиен-цюань

Qwen-Flash - это высокопроизводительная и недорогая языковая модель, представленная в серии Alibaba Tongyi Thousand Questions, предназначенная для быстрого реагирования и эффективной обработки простых задач. Основанная на передовой архитектуре Mixture-of-Experts (MoE), она реализуется с помощью разреженной сети экспертов...
1 месяц назад
015K
SkyReels-A3 - 昆仑万维推出的音频驱动数字人创作工具

SkyReels-A3 - инструмент для создания цифровых людей на основе аудио от KunlunWangwei

SkyReels-A3 - это инструмент для создания цифровых людей с помощью звука от компании Kunlun World Wide Group. SkyReels-A3 - это аудиоуправляемый инструмент для создания цифровых людей, который может генерировать высококачественный динамический видеоконтент с помощью простых входных данных (например, портретных изображений и голоса), заставлять статические фотографии "оживать", а также заменять реплики в существующих видеороликах на новые, которые персонажи будут автоматически согласовывать с...
1 месяц назад
015.8K
MiniMax Speech 2.5 - MiniMax推出的语音生成模型

MiniMax Speech 2.5 - модель генерации речи от MiniMax

MiniMax Speech 2.5 - это усовершенствованная модель генерации речи, разработанная командой MiniMax. Это значительное достижение в области синтеза речи, особенно в плане многоязычной выразительности, точности воспроизведения тембра и языкового охвата. Модель поддерживает 40 языков...
1 месяц назад
020.3K
GPT-5 - OpenAI推出的最强语言模型,统一智能系统

GPT-5 - самая сильная языковая модель, представленная OpenAI, единой интеллектуальной системой

GPT-5 - это последняя языковая модель, выпущенная OpenAI с несколькими обновлениями. Это единая интеллектуальная система со встроенным маршрутизатором реального времени, который автоматически переключается между режимами эффективного и глубокого мышления в зависимости от сложности задачи, обеспечивая быструю реакцию и точные ответы.GPT-5 имеет несколько версий, в том числе для пу...
1 месяц назад
016K
dots.vlm1 - 小红书hi lab开源的多模态大模型

dots.vlm1 - Маленькая красная книга hi lab с открытым исходным кодом мультимодальная большая модель

dots.vlm1 - это первая мультимодальная большая модель, открытая лабораторией Little Red Book hi lab. Основанная на NaViT, визуальном кодере с 1,2 миллиардами параметров, обученном с нуля, и DeepSeek V3 Large Language Model (LLM), она обладает мощным визуальным восприятием и текстовыми выводами...
1 месяц назад
017.1K
Genie 3 - 谷歌推出的通用世界模型

Genie 3 - общая модель мира от Google

Genie 3 - это новое поколение универсальных моделей мира от Google DeepMind, позволяющих создавать высокодинамичные и целостные виртуальные миры в режиме реального времени. Genie 3 моделирует физические явления, природные экосистемы и поддерживает создание фантастических и исторических сценариев. С помощью текстовых подсказок пользователи могут...
1 месяц назад
017.4K
Claude Opus 4.1 - Anthropic推出的最强编程模型

Claude Opus 4.1 - самая мощная модель программирования от Anthropic

Claude Opus 4.1 - это современная крупномасштабная языковая модель от компании Anthropic, предназначенная для эффективной обработки сложных задач. Модель отлично зарекомендовала себя в области программирования, генерируя высококачественный код, поддерживая до 32k единичного вывода и адаптируясь к широкому спектру стилей программирования...
1 месяц назад
017K
gpt-oss - OpenAI推出的开源推理模型系列

gpt-oss - семейство моделей вывода с открытым исходным кодом от OpenAI

gpt-oss - это семейство моделей вывода с открытым исходным кодом от OpenAI, которые обеспечивают эффективные, гибкие и простые в развертывании решения в области искусственного интеллекта для разработчиков. gpt-oss выпускается в двух версиях: gpt-oss-120B с 117 миллиардами параметров и поддержкой 8...
1 месяц назад
016.4K
MiDashengLM - 小米开源的声音理解模型

MiDashengLM - модель понимания звука от Xiaomi с открытым исходным кодом

MiDashengLM - это большая модель Xiaomi с открытым исходным кодом для эффективного понимания звука, с конкретным параметром версии MiDashengLM-7B, ориентированная на обработку и понимание звука. Модель основана на аудиокодере Xiaomi Dasheng и Qwen2.5-Omn...
1 месяц назад
016.6K
MOSS-TTSD - 清华实验室开源的双语对话语音生成模型

MOSS-TTSD - модель генерации двуязычной диалоговой речи с открытым исходным кодом Лаборатории Цинхуа

MOSS-TTSD - это модель разговорного диалога с открытым исходным кодом, разработанная в Лаборатории речи и языка Университета Цинхуа. MOSS-TTSD может преобразовывать текстовые диалоговые сценарии в естественную, плавную и выразительную диалоговую речь и поддерживает двуязычную генерацию на английском и китайском языках.
1 месяц назад
018.3K
AudioGen-Omni - 快手推出的多模态音频生成模型

AudioGen-Omni - мультимодальная модель генерации звука от Racer

AudioGen-Omni - это мультимодальная модель генерации звука от Racer, которая генерирует высококачественное аудио, речь и песни на основе таких входных данных, как видео, текст и т.д. AudioGen-Omni основана на передовых технологиях, таких как мультимодальный диффузионный трансформатор и фазово-выровненная...
1 месяц назад
014.8K
LangExtract - 谷歌开源的Python库,提取结构化信息

LangExtract - библиотека Google с открытым исходным кодом на языке Python для извлечения структурированной информации.

LangExtract - это библиотека Google с открытым исходным кодом на языке Python, которая использует большие языковые модели (LLM) для извлечения структурированной информации из неструктурированного текста. С помощью пользовательских команд и небольшого количества примеров она может эффективно определять и организовывать ключевые детали, такие как клинические записи из...
1 месяц назад
019K
Qwen-Image - 通义千问推出开源的文生图基础模型

Qwen-Image - Tongyi Qianqian запускает базовую модель Qwen-Image с открытым исходным кодом

Qwen-Image - это базовая модель генерации изображений с открытым исходным кодом, выпущенная командой Alibaba Tongyi Qianqian. Имея 20 миллиардов параметров, она использует архитектуру мультимодального диффузионного трансформатора (MMDiT), которая включает в себя три модуля: мультимодальное понимание, кодирование высокого разрешения и диффузионное моделирование.Qwen-Image...
1 месяц назад
015.7K
RedOne - 小红书最新推出的社交大模型

RedOne - новейшая социальная мегамодель от Little Red Book

RedOne - это большая языковая модель, адаптированная для социальных сетей, представленная в Little Red Book. Модель обучается с помощью трехступенчатой стратегии обучения, которая включает в себя социальные и культурные знания, усиливает возможности многозадачности и выравнивает человеческие предпочтения. RedOne значительно превосходит базовую модель в выполнении социальных задач, в обнаружении вредного контента и просмотре...
1 месяц назад
016.8K
FastDeploy - 百度推出的高性能大模型推理与部署工具

FastDeploy - высокопроизводительный инструмент Baidu для обоснования и развертывания больших моделей

FastDeploy - это высокопроизводительный инструмент для обоснования и развертывания от Baidu, предназначенный для больших языковых моделей (LLM) и визуальных языковых моделей (VLM).FastDeploy разработан на основе фреймворка Flying Paddle (PaddlePaddle) и поддерживает различные аппаратные платформы....
1 месяц назад
015.8K
InteriorGS - 群核科技推出的3D高斯语义数据集

InteriorGS - 3D гауссовский семантический набор данных от Qunar Technology

InteriorGS - это высококачественный трехмерный гауссовый семантический набор данных, представленный компанией Qunar Technology. Набор содержит 1 000 3D-сцен, охватывающих более 80 внутренних помещений, таких как дома, магазины, свадебные залы и музеи. Набор содержит более 554 000 экземпляров объектов в 755 категориях...
1 месяц назад
014.8K
DragonV2.1 - 微软推出的零样本语音合成模型

DragonV2.1 - модель синтеза речи с нулевым образцом от Microsoft

DragonV2.1 - это передовая модель преобразования текста в речь (TTS) с нулевой выборкой от Microsoft. Основанная на архитектуре Transformer, модель поддерживает многоязычное клонирование речи с нулевым образцом и генерирует естественную, выразительную речь всего за 5-90 секунд голосовых подсказок.
1 месяц назад
016.4K
ScreenCoder – 开源的UI截图生成前端代码工具

ScreenCoder - инструмент для генерации скриншотов пользовательского интерфейса с открытым исходным кодом

ScreenCoder - это интеллектуальный инструмент с открытым исходным кодом, который позволяет быстро преобразовывать скриншоты дизайна пользовательского интерфейса в высококачественный HTML/CSS код. Инструмент основан на модульной мультиинтеллектуальной архитектуре, в сочетании с визуальным пониманием, планированием макета и методами синтеза кода для поддержки генерации высокоточных и семантических фронт-энд ...
1 месяц назад
016.2K
Gemini 2.5 Deep Think - 谷歌推出的AI推理模型

Gemini 2.5 Deep Think - модель искусственного интеллекта от Google

Gemini 2.5 Deep Think - это модель искусственного интеллекта от Google, предназначенная для решения сложных задач. Это вариант модели, завоевавшей золотую медаль на Международной математической олимпиаде (IMO) 2025 года, и предназначен для решения сложных задач с помощью параллельных ...
1 месяц назад
014.5K