Последние ресурсы по искусственному интеллекту

共 3143 篇文章

Информация о курсе Последние ресурсы по искусственному интеллекту База знаний по искусственному интеллекту Новости ИИ

расставлять по порядку

InfinityHuman - модель цифрового поколения человека, созданная компанией Bytes в сотрудничестве с ZJU.

InfinityHuman - это коммерческая модель генерации видеороликов персонажей с длинными временными сериями, управляемая звуком, которую совместно запустили ByteDance и Чжэцзянский университет. Модель управляется звуком и может генерировать видеоролики персонажей с высоким разрешением, большой продолжительностью и визуальной последовательностью.

Последние ресурсы по искусственному интеллекту

11 месяцев назад

056.4K

AutoMV - M-A-P - бесплатная система генерации музыкального видео с открытым исходным кодом, созданная совместно с Beipiao, NU и другими.

AutoMV - это система генерации музыкальных видеоклипов с открытым исходным кодом, разработанная командой M-A-P в сотрудничестве с несколькими университетами, которая может автоматически генерировать последовательные музыкальные видеоклипы на основе полных песен без обучения. Она использует многоинтеллектуальную совместную модель, включающую модули анализа музыки, написания сценария, режиссуры и контроля качества, и может точно анализировать тексты, ритмы...

Последние ресурсы по искусственному интеллекту

7 месяцев назад

056.3K

Audio2Face - открытая модель генерации 3D-анимации лица с искусственным интеллектом от NVIDIA

Audio2Face - это инструмент ИИ с открытым исходным кодом от NVIDIA, способный преобразовывать аудиосигнал в реалистичную 3D-анимацию лица. Анализируя особенности речи в аудио, такие как фонемы и интонации, он генерирует точную синхронизацию губ и тонкие эмоциональные выражения, чтобы придать виртуальным персонажам яркую человеческую мимику.

Последние ресурсы по искусственному интеллекту

10 месяцев назад

056.3K

Широкие исследования - мультиинтеллектуальное сотрудничество на платформе Manus

Wide Research - это мощная функция платформы Manus, предназначенная для решения сложных и масштабных задач. Платформа поддерживает сотни интеллектов общего назначения, работающих одновременно благодаря механизмам параллельной обработки данных на системном уровне и протоколам взаимодействия интеллектов.

Последние ресурсы по искусственному интеллекту

1 год назад

056.3K

10Kh RealOmni-Open - 简智机器人开源的具身智能数据集

10Kh RealOmni-Open是简智机器人开源的具身智能数据集，是行业内规模最大的开源具身智能数据集。数据集累计拥有超10000小时数据、100万+片段，覆盖10大场景任务、超过30项技能。数据...

Последние ресурсы по искусственному интеллекту

7 месяцев назад

056.2K

SCAIL - открытый фреймворк для создания анимационных персонажей для кино и телевидения от Wisdom spectrum и Tsinghua.

SCAIL (Studio-Grade Character Animation via In-Context Learning) - это система создания анимации персонажей для кино и телевидения, предложенная компанией Smart Spectrum в сотрудничестве с группой профессора Лю Юнцзиня из Университета Цинхуа. Благодаря...

Последние ресурсы по искусственному интеллекту

8 месяцев назад

056.2K

VibeVoice-ASR - 微软开源的统一语音转文本（ASR）模型

VibeVoice-ASR是微软开源的统一语音转文本（ASR）模型，专为处理长音频设计，可一次性处理长达60分钟的连续音频，确保语义连贯性和说话人追踪的一致性。支持自定义热词功能，用户可输入特定词汇或...

Последние ресурсы по искусственному интеллекту

6 месяцев назад

056.2K

AnyI2V - Фуданьский институт и Институт Али Дхармы и другие открытые рамки для создания интеллектуальной анимации изображений

AnyI2V - это фреймворк для создания анимации изображений, созданный совместно Фуданьским университетом, Академией Alibaba Darmo и другими компаниями, который позволяет преобразовывать статичные условные изображения (например, сетки, облака точек и т.д.) в динамичные видеоролики без необходимости сложного процесса обучения и большого количества данных.

Последние ресурсы по искусственному интеллекту

11 месяцев назад

056.2K

Clawra - 基于OpenClaw框架开源的AI女友程序

Clawra是一个基于OpenClaw框架开发的AI女友程序，由韩国开发者David Im制作，具有完整人设和交互功能。通过Persona Engineering技术赋予AI“18岁亚裔女性练习生”的...

Последние ресурсы по искусственному интеллекту

6 месяцев назад

056.1K

OpenReasoning-Nemotron - серия моделей рассуждений с открытым исходным кодом от NVIDIA

OpenReasoning-Nemotron - это серия крупномасштабных языковых моделей, открытых NVIDIA для поддержки обработки задач рассуждения в математике, науке и коде. Модели построены на основе модели DeepSeek R1 0528 с параметрами масштаба 1,5B...

Последние ресурсы по искусственному интеллекту

1 год назад

056.1K

MiMo-V2-Flash - большая модель архитектуры MoE с открытым исходным кодом, выпущенная компанией Xiaomi

MiMo-V2-Flash - это большая модель с открытым исходным кодом на основе архитектуры MoE, выпущенная компанией Xiaomi, с 309 миллиардами общих параметров и 15 миллиардами активных параметров, ориентированная на эффективное рассуждение и применение в интеллектуальном теле. Модель использует гибридную архитектуру внимания и технологию многословного мета-предсказания со скоростью вывода 150 лексем/секунду, в...

Последние ресурсы по искусственному интеллекту

8 месяцев назад

056.1K

FLUX.2 [klein] - Black Forest Labs 开源的轻量级图像生成与编辑模型

FLUX.2 [klein] 是 Black Forest Labs 推出的开源轻量级图像生成与编辑模型，专为快速推理和低延迟应用场景设计。支持文本生成图像、图像编辑以及多参考图像生成，能在不到1秒内...

Последние ресурсы по искусственному интеллекту

6 месяцев назад

056K

GLM-OCR - 智谱开源的 0.9B 轻量级专业 OCR 模型

GLM-OCR 是智谱开源的 0.9B 轻量级专业 OCR 模型，在 OmniDocBench V1.5 以 94.6 分刷新 SOTA。兼顾“小体积”与“全场景”，扫描、手写、印章、多语混排、复杂表...

Последние ресурсы по искусственному интеллекту

6 месяцев назад

056K

GLM-ASR - серия высокопроизводительных моделей распознавания речи с открытым исходным кодом Wisdom Spectrum AI

GLM-ASR - это семейство высокопроизводительных моделей распознавания речи с открытым исходным кодом от Smart Spectrum AI, включающее облачную модель GLM-ASR-2512 и модель GLM-ASR-Nano-2512 с открытым исходным кодом. GLM-ASR-2512 - это ведущая в мире облачная модель распознавания речи, поддерживающая множество...

Последние ресурсы по искусственному интеллекту

8 месяцев назад

056K

MiniCPM 4.1 - сверхэффективное макромоделирование с торцевой стороны с помощью технологии Facing Face Intelligence

MiniCPM 4.1 - это сверхэффективная конечная модель большого языка, представленная компанией Facade Intelligence. Благодаря архитектуре разреженного внимания InfLLM v2, каждой лексеме требуется вычислять корреляцию только с менее чем 5% лексем, что значительно снижает затраты на обработку длинных текстов. В сценарии с длинным текстом объемом 128K...

Последние ресурсы по искусственному интеллекту

11 месяцев назад

055.8K

MiniCPM-o 4.5 - 面壁智能开源的 9B 全模态旗舰模型

MiniCPM-o 4.5 是面壁智能开源的 9B 全模态旗舰模型，以“边看边听主动说”的端到端架构，在手机端即可跑出 GPT-4o 级体验：支持单图、多图、高帧率长视频、实时语音双工对话，首 tok...

Последние ресурсы по искусственному интеллекту

6 месяцев назад

055.8K

Protenix-v1 - 字节Seed团队推出的首个开源蛋白质结构预测模型

Protenix-v1是字节跳动ByteDance Seed团队推出的首个开源蛋白质结构预测模型，性能在严格对齐训练数据和模型规模后超越AlphaFold 3。模型具备显著的推理时扩展特性：通过增加采...

Последние ресурсы по искусственному интеллекту

6 месяцев назад

055.8K

Kaleido - многосубъектная модель генерации эталонного видео с открытым исходным кодом, созданная Smart Spectrum AI совместно с Университетом Цинхуа и другими организациями.

Kaleido - это модель генерации мультисубъектного эталонного видео с открытым исходным кодом, разработанная совместно Хэфэйским технологическим университетом, Университетом Цинхуа и Smart Spectrum AI. Она генерирует предметно-согласованное видео на основе нескольких опорных изображений, решая недостатки существующих моделей в области многопредметной согласованности и разделения фона.Kaleido генерирует видео с помощью специализированных данных...

Последние ресурсы по искусственному интеллекту

8 месяцев назад

055.8K

Steps Deep Research - инструмент для глубокого исследования искусственного интеллекта от Steps Star

Steps Deep Research - это эффективный исследовательский инструмент с искусственным интеллектом, выпущенный компанией Steps Star, который может автономно проводить исследования по сложным вопросам и генерировать профессиональные отчеты за короткий промежуток времени. Инструмент предназначен для финансовых, консалтинговых, медицинских, юридических и других сфер и получил отличные отзывы в отрасли благодаря возможностям глубокого поиска и интеграции информации.

Последние ресурсы по искусственному интеллекту

1 год назад

055.8K

Step-Audio-R1.1 - 阶跃星辰开源的全球首个原生语音推理模型

Step-Audio-R1.1是阶跃星辰开源的全球首个原生语音推理模型，最新升级版本在权威评测榜单Artificial Analysis Speech Reasoning中以96.4%准确率登顶。模型...

Последние ресурсы по искусственному интеллекту

7 месяцев назад

055.8K

Claude Sonnet 4.5 - Anthropic推出的最强AI编程模型

Claude Sonnet 4.5 - самая мощная модель программирования ИИ от Anthropic

Claude Sonnet 4.5 - модель искусственного интеллекта от компании Anthropic, предназначенная для программирования, работы с компьютером и автоматизации сложных задач. Модель отлично справляется с генерацией кода, обработкой длинных задач, рассуждениями и математическими вычислениями, поддерживая все - от начального планирования...

Последние ресурсы по искусственному интеллекту

10 месяцев назад

055.7K

ZeroSearch - Али Тонги запустил поисковую систему с открытым исходным кодом для больших моделей.

ZeroSearch является Alibaba Tongyi Lab открытым исходным кодом инновационной большой модели поисковой системы рамки. Фреймворк не нуждается во взаимодействии с реальными поисковыми системами, основан на моделировании поисковой системы, с большой моделью собственных знаний предварительного обучения для генерации релевантных или шумовых документов, значительно снижая стоимость обучения (снижение 80% или более ...

Последние ресурсы по искусственному интеллекту

1 год назад

055.6K

PromptEnhancer - Tencent Mixed Meta Open Source AI Prompt Word Enhancement Tool

PromptEnhancer - это инструмент с открытым исходным кодом для улучшения слов подсказок, разработанный командой Tencent's Mixed Meta для улучшения генерации моделей "текст в изображение" (Text-to-Image, T2I). Благодаря цепочке рассуждений (Chain-of-Thought, CoT) подход к использованию ...

Последние ресурсы по искусственному интеллекту

11 месяцев назад

055.5K

FLM-Audio - Модель полнодуплексного аудиодиалога (FLM-Audio) с открытым исходным кодом от WisdomSource в сотрудничестве с Наньянгским технологическим институтом (NTI)

FLM-Audio - это нативная полнодуплексная макромодель аудиодиалога, выпущенная Пекинским исследовательским институтом искусственного интеллекта Zhiyuan совместно с Spin Matrix и Наньянгским технологическим университетом Сингапура и поддерживающая китайский и английский языки. Используя родную полнодуплексную архитектуру, она может объединять слушание, говорение и монолог на каждом временном шаге...

Последние ресурсы по искусственному интеллекту

10 месяцев назад

055.5K

Kimi Linear - новая гибридная архитектура линейного внимания с открытым исходным кодом на темной стороне Луны

Kimi Linear - это новая гибридная архитектура линейного внимания с открытым исходным кодом от Dark Side of the Moon, в основе которой лежит Kimi Delta Attention (KDA), оптимизирующая традиционную модель внимания за счет более тонкого механизма регулировки, значительно повышающего эффективность аппаратного обеспечения и возможности управления памятью...

Последние ресурсы по искусственному интеллекту

9 месяцев назад

055.4K

Гибридное изображение 2.1 - Графическая модель поставщика с открытым исходным кодом Tencent

HunyuanImage 2.1 - это графическая модель с открытым исходным кодом от Tencent, предназначенная для создания высококачественных изображений. Модель поддерживает родное разрешение 2K, может точно прорисовывать сложные сцены и детали, благодаря чему ярко передается выражение лица и движения персонажа.

Последние ресурсы по искусственному интеллекту

11 месяцев назад

055.4K

SoulX-Podcast - модель синтеза разговорной речи от Soul AI Lab с открытым исходным кодом

SoulX-Podcast - это продвинутая модель синтеза разговорной речи с открытым исходным кодом от Soul AI Lab, предназначенная для создания высококачественного подкаст-контента. SoulX-Podcast способна генерировать несколько раундов диалога и имитировать плавный диалог в реальных сценариях подкастинга, поддерживая мандаринский, английский и несколько китайских...

Последние ресурсы по искусственному интеллекту

9 месяцев назад

055.3K

NeuTTS Air - бесплатная и легкая модель синтеза речи с поддержкой автономной работы на процессоре

NeuTTS Air - это модель синтеза речи с открытым исходным кодом, разработанная командой Neuphonic, которая может работать в режиме реального времени на локальных устройствах (например, мобильных телефонах, ноутбуках, Raspberry Pi), не завися от облака. Используя 0,5B-параметрическую архитектуру Qwen и самостоятельно разработанный кодек NeuCodec...

Последние ресурсы по искусственному интеллекту

10 месяцев назад

055.3K

New API - 开源的AI模型接口管理与分发系统，统一为标准化接口

New API是基于Go语言开发的开源AI聚合网关工具，可统一管理30+种主流大模型（如OpenAI、Claude、Midjourney等），将不同模型接口转换为标准化OpenAI格式。

Последние ресурсы по искусственному интеллекту

7 месяцев назад

055.3K

XVERSE-Ent - 元象科技开源的泛娱乐领域中英大模型

XVERSE-Ent是元象科技推出的专注于泛娱乐领域的开源大模型，包含中英文双版本，支持社交互动、游戏叙事和文化创作等场景。模型通过角色一致性强化、长剧情理解等技术优化，能在虚拟角色人设稳定性、复杂故...

Последние ресурсы по искусственному интеллекту

7 месяцев назад

055.3K

ClawWork - 香港大学数据科学实验室开源的AI经济压力测试框架

ClawWork是香港大学数据科学实验室开发的AI经济压力测试框架，允许AI在模拟经济环境中完成真实工作任务并获得报酬。核心逻辑是让初始资金仅10美元的AI通过完成220个专业任务（覆盖制造、金融、医...

Последние ресурсы по искусственному интеллекту

5 месяцев назад

055.3K

SoulX-FlashTalk - Soul App AI团队开源的实时数字人生成模型

SoulX-FlashTalk是Soul App AI团队开源的实时数字人生成模型，拥有140亿参数量，实现了0.87秒超低延迟和32帧/秒的高帧率。模型通过双向蒸馏技术解决了传统数字人延迟高、画面易...

Последние ресурсы по искусственному интеллекту

6 месяцев назад

055K

Wan-Move - открытый фреймворк для создания видео с помощью искусственного интеллекта, разработанный Али Тонги совместно с Цинхуа и другими.

Wan-Move - это фреймворк для создания видео с открытым исходным кодом, разработанный совместно Ali Tongyi Labs, Университетом Цинхуа и другими учреждениями, ориентированный на создание высококачественных видеокомпозиций с помощью технологии точного управления движением. Основной технологией является "потенциальное управление траекторией", которое позволяет плавно добавить управление движением на уровне точек к существующей модели "изображение-видео"...

Последние ресурсы по искусственному интеллекту

8 месяцев назад

054.9K

MCP Registry - официальная платформа управления серверами MCP с GitHub.

MCP Registry - это централизованная платформа от GitHub, которая помогает разработчикам легче находить и устанавливать MCP-серверы. С помощью MCP Registry разработчики могут быстро найти необходимые им инструменты искусственного интеллекта в одном месте, что значительно упрощает...

Последние ресурсы по искусственному интеллекту

11 месяцев назад

054.9K

VLAC - большая модель воплощенных вознаграждений с открытым исходным кодом от Shanghai AI Lab

VLAC - это макромодель воплощенного вознаграждения с открытым исходным кодом от Шанхайской лаборатории искусственного интеллекта. Основанная на мультимодальной макромодели InternVL, она объединяет данные интернет-видео и данные о работе робота, чтобы обеспечить вознаграждение за процесс и оценку выполнения задачи для обучения робота с подкреплением в реальном мире.VLAC может эффективно ...

Последние ресурсы по искусственному интеллекту

11 месяцев назад

054.9K

SHARP - технология создания 3D-сцен с монокулярным обзором с открытым исходным кодом от Apple

SHARP (Sharp Monocular View Synthesis in Less Than a Second) - технология синтеза монокулярного изображения с открытым исходным кодом от Apple. Она позволяет быстро генерировать реалистичное 3D-представление сцены на основе одной фотографии менее чем за секунду...

Последние ресурсы по искусственному интеллекту

7 месяцев назад

054.8K

Ring-2.5-1T - 蚂蚁百灵开源的万亿参数混合线性架构思考模型

Ring-2.5-1T 是蚂蚁集团百灵大模型团队开源的全球首个万亿参数混合线性架构思考模型，采用1:7 MLA与Lightning Linear Attention混合设计，激活参数量达63B。模型在...

Последние ресурсы по искусственному интеллекту

5 месяцев назад

054.8K

Xiaomi-Robotics-0 - 小米开源的首代具身智能大模型

Xiaomi-Robotics-0 是小米开源的首代具身智能大模型，拥有47亿参数，采用"大脑+小脑"混合架构设计。视觉语言大脑基于多模态大模型，负责理解人类模糊指令与空间推理；动作执行小脑则通过Di...

Последние ресурсы по искусственному интеллекту

5 месяцев назад

054.7K

LingBot-World - 蚂蚁旗下灵波科技开源的交互式世界模型

LingBot-World 是蚂蚁集团旗下具身智能公司灵波科技（Robbyant）开源的交互式世界模型，专为具身智能、自动驾驶及游戏开发打造高保真“数字演练场”。模型通过可扩展数据引擎从大规模游戏环境...

Последние ресурсы по искусственному интеллекту

6 месяцев назад

054.6K

Mixed Motion 1.0 - Команда Tencent Mixed Motion с открытым исходным кодом для генерации текстовых 3D-моделей движения

Hybrid Motion1.0 (HY-Motion1.0) является открытым исходным кодом Tencent Hybrid команды текст генерируется 3D модель действий, используя 1 миллиард параметров Diffusion Transformer архитектуры, может быть непосредственно генерируется через естественный язык описания высококачественной 3D анимации персонажа.

Последние ресурсы по искусственному интеллекту

7 месяцев назад

054.6K

Kimi K2.5 - 月之暗面开源的新一代旗舰模型

Kimi K2.5 是月之暗面发布的开源旗舰模型，采用 1T MoE 架构、激活 32B、上下文 256K token，原生支持图文视频多模态输入。在 Agent、代码、视觉理解三大基准均列开源第一...

Последние ресурсы по искусственному интеллекту

6 месяцев назад

054.5K

DeepSeek-V3.1-Terminus - DeepSeek推出的最新版AI模型

DeepSeek-V3.1-Terminus - последняя версия модели искусственного интеллекта, представленная компанией DeepSeek.

DeepSeek-V3.1-Terminus - это обновленная версия DeepSeek-V3.1, языковой модели искусственного интеллекта от команды DeepSeek. Модель была оптимизирована с точки зрения согласованности языка, генерации кода и возможностей поиска для более точного...

Последние ресурсы по искусственному интеллекту

10 месяцев назад

054.5K

olmOCR 2 - модель мультимодального разбора документов с открытым исходным кодом AI2

olmOCR 2 - это мультимодальная модель разбора документов с открытым исходным кодом от Института искусственного интеллекта Аллена (AI2), которая является обновленной версией olmOCR. Оцифрованные печатные документы (например, PDF) будут иметь высокую...

Последние ресурсы по искусственному интеллекту

9 месяцев назад

054.5K

HeyGen - платформа для создания видео с искусственным интеллектом и поддержкой перевода и дубляжа на несколько языков

HeyGen - это платформа для создания видеороликов с участием цифровых людей, управляемая искусственным интеллектом, которая поддерживает оптимизированный процесс производства видео, позволяя пользователям быстро создавать видеоролики с цифровыми людьми профессионального уровня. Платформа основана на передовой технологии искусственного интеллекта, предоставляя пользователям полный контроль над образом и голосом их цифровых персонажей, а также богатую библиотеку материалов, включая разнообразные фоновые...

Последние ресурсы по искусственному интеллекту

1 год назад

054.5K

LingBot-VA - 蚂蚁灵波开源的首个“自回归视频-动作世界模型”

LingBot-VA 是蚂蚁灵波开源的全球首个“自回归视频-动作世界模型”，把视频生成与机器人控制塞进同一 Transformer，每一步同时输出下一帧世界画面和对应动作，实现“边想边干”。

Последние ресурсы по искусственному интеллекту

6 месяцев назад

054.4K

CWM - Meta FAIR Open Source Code World Language Model

CWM (Code World Model) - это 32-миллиардная модель языка мира с открытым исходным кодом, выпущенная командой Meta FAIR и предназначенная для генерации и обоснования кода. Она вводит понятие "модель мира", которая может имитировать процесс выполнения кода, предсказывать изменения состояния переменных и продвигать...

Последние ресурсы по искусственному интеллекту

10 месяцев назад

054.4K

XTuner V1 - открытый движок Shanghai AI Lab для обучения больших моделей

XTuner V1 - это новое поколение движка для обучения больших моделей с открытым исходным кодом Шанхайской лаборатории искусственного интеллекта, предназначенного для обучения сверхбольших моделей с разреженными смешанными экспертами (MoE). Разработанный на основе PyTorch FSDP, он достигает высокой производительности за счет многомерной оптимизации памяти, связи и нагрузки...

Последние ресурсы по искусственному интеллекту

11 месяцев назад

054.3K

Ouro - новая циклическая языковая модель с открытым исходным кодом от команды ByteHopper Seed

Ouro - это новый тип Looped Language Models (LLMs), разработанный командой ByteDance Seed, основной инновацией которого является непосредственное построение возможностей вывода на этапе предварительного обучения с помощью рекуррентной вычислительной структуры с общим доступом к параметрам. Модель использует 24 слоя в качестве базового блока, через...

Последние ресурсы по искусственному интеллекту

9 месяцев назад

054.1K

Code2Video - открытый фреймворк для создания обучающего видео с искусственным интеллектом от Show Lab

Code2Video - это инновационный проект с открытым исходным кодом, который автоматически преобразует фрагменты кода в высококачественный видеоконтент (формат mp4). Проект использует уникальную парадигму, ориентированную на код, используя инструменты carbon-now-cli для генерации кода в красивые изображения, использование ffmpeg будет этим ...

Последние ресурсы по искусственному интеллекту

10 месяцев назад

054.1K

Neovate Code - интеллектуальный помощник программиста Ant Open Source

Neovate Code - это интеллектуальный помощник программирования с открытым исходным кодом от отдела технологий Alipay Experience компании Ant Group, который повышает эффективность разработки с помощью технологии искусственного интеллекта. Благодаря функциям разговорной разработки разработчики могут описывать требования на естественном языке, Neovate Code понимает и генерирует соответствующие...

Последние ресурсы по искусственному интеллекту

10 месяцев назад

054K

SkyReels-V3 - 昆仑万维Skywork AI开源的多模态视频生成模型

SkyReels-V3是昆仑万维Skywork AI开源的多模态视频生成模型，被誉为视频生成领域的"全能型"标杆。模型基于"一核多支"的统一架构，在单一建模框架内集成三大核心能力：参考图像转视频、智能...

Последние ресурсы по искусственному интеллекту

6 месяцев назад

053.7K

Qwen3-Next - последняя базовая модель, выпущенная компанией Ali Tongyi

Qwen3-Next - это новое поколение гибридной архитектуры большой модели с открытым исходным кодом от Али Тонги, объединяющей технологии Gated DeltaNet и Gated Attention, которая хорошо справляется с длинными текстами, быстро делает выводы и экономит вычислительные ресурсы.

Последние ресурсы по искусственному интеллекту

11 месяцев назад

053.7K

Wan2.2-Animate - генеративная модель для генерации действий из тунъи Ваньсяна с открытым исходным кодом

Wan2.2-Animate - это модель генерации действий с открытым исходным кодом от Tongyi Wanxiang, поддерживающая два режима: имитацию действий и ролевую игру. Пользователям нужно только ввести изображение персонажа и эталонное видео, модель может перенести движения и выражения видео персонажа на изображение персонажа, придавая изображению персонажа динамическое выражение...

Последние ресурсы по искусственному интеллекту

10 месяцев назад

053.7K

Mistral Vibe - помощник по кодированию из командной строки с открытым исходным кодом от Mistral AI

Mistral Vibe - это ассистент командной строки с открытым исходным кодом от Mistral AI, разработанный на основе модели Devstral, который поддерживает взаимодействие на естественном языке для выполнения поиска кода, работы с файлами, контроля версий и других задач. Может автоматически сканировать структуру проекта и статус Git через символ @...

Последние ресурсы по искусственному интеллекту

8 месяцев назад

053.5K

SAM Audio - Мультимодальная модель сегментации аудио с открытым исходным кодом из Meta

SAM Audio - это мультимодальная модель сегментации звука с открытым исходным кодом, представленная компанией Meta для точного выделения произвольных целевых звуков из сложных аудиомиксов. Объединяя текстовые, визуальные и временные сигналы, она обеспечивает гибкую и эффективную обработку звука для таких задач, как редактирование, денуазинг, извлечение звука и...

Последние ресурсы по искусственному интеллекту

7 месяцев назад

053.5K

UltraEval-Audio - 清华、OpenBMB联合面壁智能开源的音频模型评测框架

UltraEval-Audio是清华大学NLP实验室、OpenBMB和面壁智能联合开发的音频模型评测框架，最新版本为v1.1.0。专注于解决音频模型复现难、依赖冲突等问题，提供一键复现热门模型（如Vo...

Последние ресурсы по искусственному интеллекту

7 месяцев назад

053.4K

Chatterbox-Turbo - Resemble AI开源的文本到语音模型

Chatterbox-Turbo 是 Resemble AI 推出的开源文本到语音（TTS）模型，专为高效、低延迟的语音合成而设计。基于350M参数的精简架构，单步推理生成音频，时间延迟极低，在150...

Последние ресурсы по искусственному интеллекту

7 месяцев назад

053.3K

DreamOmni2 - модель редактирования и генерации мультимодальных изображений ИИ с открытым исходным кодом HKUST

DreamOmni2 - это мультимодальная модель редактирования и генерации изображений с открытым исходным кодом, созданная командой Цзяцзя в HKUST. Она может одновременно обрабатывать текстовые и графические команды, а также поддерживает несколько опорных изображений, предоставляя создателям более гибкие возможности для творчества. Модель обучается с помощью трехэтапного процесса синтеза данных, совместного обучения генерации/редактирования...

Последние ресурсы по искусственному интеллекту

9 месяцев назад

053.3K

PaperBanana - 北大与谷歌联合开源的AI学术插图自动生成框架

PaperBanana是北大与谷歌团队联合开源的AI学术插图自动生成框架，专门解决科研人员绘制方法示意图和统计图表的痛点。框架通过五个智能体协作（检索、规划、造型、渲染和批评），实现从文本描述到Neu...

Последние ресурсы по искусственному интеллекту

6 месяцев назад

053K

SongBloom - модель генерации песен с открытым исходным кодом от Tencent в сотрудничестве с HKCS и NTU

SongBloom - это модель генерации песен с открытым исходным кодом, разработанная Tencent AI Lab в сотрудничестве с Китайским университетом Гонконга (Шэньчжэнь) и Нанкинским университетом, которая решает проблему "пластичности" в генерации музыки ИИ и обеспечивает высококачественную, структурно полную генерацию песен. Просто введите 10 секунд эталонного аудио и соответствующий текст, и вы сможете...

Последние ресурсы по искусственному интеллекту

10 месяцев назад

053K

UniPixel - мультимодальная модель на уровне пикселя с открытым исходным кодом от Гонконгского политехнического института, Tencent, CAS и др.

UniPixel - это новая мультимодальная модель, совместно предложенная Гонконгским политехническим университетом, компанией Tencent, Китайской академией наук и компанией Vivo для достижения понимания визуального языка на уровне пикселей. Объединяя возможности привязки к объектам и сегментации, она поддерживает различные тонкие задачи, такие как сегментация изображений, сегментация видео, понимание регионов и пи...

Последние ресурсы по искусственному интеллекту

10 месяцев назад

052.9K

Mini-o3 - Bytes, HKU Joint Open Source Visual Reasoning Model

Mini-o3 - это модель с открытым исходным кодом, созданная совместно ByteDance и Университетом Гонконга и предназначенная для решения сложных задач визуального поиска. Модель обладает мощными возможностями многораундового интерактивного рассуждения и может находить цель путем глубокого исследования и проб и ошибок.

Последние ресурсы по искусственному интеллекту

11 месяцев назад

052.9K

Hunyuan-MT-7B - модель облегченного перевода Tencent Mixed Meta с открытым исходным кодом

Hunyuan-MT-7B - это облегченная модель перевода, представленная командой Tencent's Mixed Meta Team, имеющая 7 миллиардов ссылок и поддерживающая взаимный перевод 33 языков и 5 народно-китайских языков/диалектов, включая кантонский, уйгурский и тибетский. В конкурсе WMT2025 Международной ассоциации вычислительной лингвистики (ACL)...

Последние ресурсы по искусственному интеллекту

11 месяцев назад

052.8K

Chroma 1.0 - FlashLabs开源的全球首个实时端到端语音对话模型

Chroma 1.0是FlashLabs发布的全球首个开源的实时端到端语音对话模型，兼具低延迟交互、高保真个性化语音克隆和强对话能力。通过紧密耦合语音理解与生成，采用1:2文本-音频token调度策略...

Последние ресурсы по искусственному интеллекту

6 месяцев назад

052.7K

rStar2-Agent - эффективная модель искусственного интеллекта с открытым исходным кодом от Microsoft

rStar2-Agent - это продвинутая модель математических рассуждений ИИ с открытым исходным кодом от Microsoft, которая демонстрирует сильные возможности решения математических задач, достигнув точности 80,61 TP3T в тесте AIME24. Модель обладает способностями к научным рассуждениям, достигнув в бенчмарке GPQA-Diamond...

Последние ресурсы по искусственному интеллекту

11 месяцев назад

052.6K

DeepSearchQA - эталоны тестирования агентов ИИ с открытым исходным кодом от Google

DeepSearchQA - эталонный тест ИИ-исследователя Google с открытым исходным кодом, предназначенный для оценки производительности интеллекта в сложных многоэтапных задачах запроса. Он состоит из 900 вручную разработанных задач "причинно-следственных цепочек", охватывающих 17 доменов, требующих от ИИ действовать как человек-исследователь и продвигаться по многоступенчатым...

Последние ресурсы по искусственному интеллекту

8 месяцев назад

052.6K

MAI-UI - Открытая универсальная графическая модель тела с интеллектуальным интерфейсом от Ali Tongyi Labs

MAI-UI - это универсальная базовая модель интеллектуального тела с открытым исходным кодом от Alibaba Tongyi Labs, обладающая четырьмя основными возможностями: работа с кросс-приложениями, нечеткое семантическое понимание, активное взаимодействие с пользователем и многоступенчатая координация процессов. Применяя архитектуру взаимодействия "конец-облако", легкая модель размещается в устройстве для решения повседневных задач, а сложные задачи могут вызывать облачные...

Последние ресурсы по искусственному интеллекту

7 месяцев назад

052.6K

Lynx - модель генерации видео высокой точности с открытым исходным кодом от ByteHop

Lynx - это модель генерации персонализированного видео с высокой точностью и открытым исходным кодом от ByteDance, которая может генерировать видео, соответствующее личности, используя только одну портретную фотографию. Построенная на основе базовой модели диффузионного трансформатора (DiT), введение ID-адаптера и Ref-адаптера...

Последние ресурсы по искусственному интеллекту

10 месяцев назад

052.5K

Ask o4 - модель параллельного мышления, представленная Ask o4, которая открывает 8 путей мышления одновременно

Ask White o4 - это инновационная модель параллельного мышления, которая открывает 8 путей мышления одновременно, анализирует проблему с разных точек зрения и автоматически отфильтровывает оптимальное решение. Модель использует передовые технологии обучения с подкреплением Long-CoT и обучения с вознаграждением за процесс, обладает мощными возможностями глубоких рассуждений и отлично справляется со сложными задачами.

Последние ресурсы по искусственному интеллекту

11 месяцев назад

052.4K

Meiman: онлайн-инструменты для проектирования мягкой мебели (домашней мебели), быстрая генерация дизайнерских решений, вспомогательный AI-инструментарий для мягкой мебели

Всеобъемлющее представление Meiman - это онлайн-платформа, посвященная дизайну дома и маркетинговым переговорам. На сайте представлено множество дизайнерских материалов, мягкой мебели и шаблонов предложений PPT, шаблонов плакатов и т. д., которые помогают дизайнерам и домовладельцам быстро создавать высококачественные предложения по дизайну. Онлайн-инструмент Meiman для проектирования мягкой мебели можно использовать всего за 10 секунд...

Последние ресурсы по искусственному интеллекту # AI Image Editor # AI Generated Presentation/PPT

1 год назад

052.2K

Qwen3-VL-Reranker - 阿里巴巴推出的多模态重排序模型

Qwen3-VL-Reranker是阿里巴巴推出的多模态重排序模型，专门用于提升跨模态检索的精准度。与Qwen3-VL-Embedding协同工作：前者负责快速召回候选结果，后者通过深度跨模态交互（如...

Последние ресурсы по искусственному интеллекту

7 месяцев назад

052.2K

GELab-Zero - мультимодальная GUI-модель агента с открытым исходным кодом от команды Steps

GELab-Zero - это мультимодальная модель агента GUI с открытым исходным кодом от команды Step Leap, построенная на базовой модели Qwen3-VL-4B-Instruct с параметрами 4B. Она может распознавать элементы пользовательского интерфейса и выполнять такие операции, как нажатие, скольжение и т.д., а также поддерживает кросс-прикладную постановку задач...

Последние ресурсы по искусственному интеллекту

8 месяцев назад

052.2K

DiaMoE-TTS - фреймворк для синтеза речи с открытым исходным кодом из нескольких диалектов, разработанный компаниями Tsinghua и Giant Network

DiaMoE-TTS - это система синтеза речи для нескольких диалектов, созданная совместно Университетом Цинхуа и Giant Network на основе Международного фонетического алфавита (IPA) для решения проблем нехватки диалектных данных, несоответствия орфографии и сложности фонологических изменений. Благодаря единому стандартизированному представлению фонем на основе IPA, устраняются междиалектные различия ...

Последние ресурсы по искусственному интеллекту

10 месяцев назад

052.2K

Zen Browser - веб-браузер с открытым исходным кодом, основанный на ядре Firefox.

Zen Browser - это браузер с открытым исходным кодом, основанный на ядре Firefox и ориентированный на простой и эффективный просмотр веб-страниц, с такими основными функциями, как вертикальная панель вкладок и изоляция рабочего пространства. Благодаря боковой панели он может четко отображать полный заголовок 50+ вкладок и поддерживать многооконный просмотр с разделенным экраном.

Последние ресурсы по искусственному интеллекту

7 месяцев назад

051.9K

DeepSeek-V3.2-Exp - DeepSeek最新开源的实验性AI模型

DeepSeek-V3.2-Exp - новейшая экспериментальная модель искусственного интеллекта DeepSeek с открытым исходным кодом

DeepSeek-V3.2-Exp - экспериментальная модель искусственного интеллекта с открытым исходным кодом от компании DeepSeek, которая значительно повышает эффективность обработки длинных текстов за счет внедрения механизма DeepSeek Sparse Attention (DSA). Модель основана на DeepSeek...

Последние ресурсы по искусственному интеллекту

10 месяцев назад

051.9K

MedASR - модель распознавания медицинской речи с открытым исходным кодом от Google

MedASR - это модель распознавания медицинской речи с 105 миллионами параметров, открытая компанией Google, отлаженная на 5000-часовом десенсибилизированном клиническом корпусе, оптимизированная для терминологии лекарств, дозировок и анатомической терминологии, со встроенной 6-граммовой моделью медицинского языка и коэффициентом ошибок в словах всего 4,6 на частном наборе данных по радиологии RAD-DICT...

Последние ресурсы по искусственному интеллекту

7 месяцев назад

051.7K

openPangu-VL-7B - 华为开源的7B参数多模态模型

openPangu-VL-7B是华为开源的7B参数规模的多模态模型，专为昇腾端侧设备优化设计。模型在视觉定位、OCR识别、文档理解等任务中表现出色，支持实时推理（5FPS），单卡延迟仅160毫秒。

Последние ресурсы по искусственному интеллекту

7 месяцев назад

051.6K

Ming-UniAudio - Ant Open Source Unified Audio Multimodal Generation Model

Ming-UniAudio - это унифицированная мультимодальная модель генерации звука с открытым исходным кодом от Ant Group, которая поддерживает смешанный ввод и вывод текста, аудио, изображений и видео. Используя многомасштабную архитектуру трансформатора и смешанного эксперта (MoE), с помощью механизма маршрутизации с учетом модальностей для эффективной обработки кросс-модальных ...

Последние ресурсы по искусственному интеллекту

10 месяцев назад

051.6K

Ling-V2 - Серия моделей языка архитектуры MoE с открытым исходным кодом Ant-Belling

Ling-V2 - это семейство крупномасштабных языковых моделей, основанных на архитектуре MoE, представленной командой Ant-Belling. Первая версия, Ling-mini-2.0, имеет 16 миллиардов общих параметров, при этом на одну входную лексему активируется только 1,4 миллиарда параметров.

Последние ресурсы по искусственному интеллекту

10 месяцев назад

051.4K

GLM-4.7-Flash - 智谱开源的混合专家架构语言模型

GLM-4.7-Flash是智谱开源的混合专家架构语言模型，参数规模为30B，激活参数量3B，上下文窗口达200K，最大输出令牌为128K。在编程能力上表现出色，SWE-bench验证集分数达59.2...

Последние ресурсы по искусственному интеллекту

6 месяцев назад

051.3K

MOVA - 创智学院联合模思智能开源的端到端音视频生成模型

MOVA（MOSS-Video-and-Audio）是上海创智学院 OpenMOSS 团队联合模思智能（MOSI）开源的端到端音视频生成模型，是中国首个高性能开源音视频模型。突破了传统"先画面后配音...

Последние ресурсы по искусственному интеллекту

6 месяцев назад

051.1K

GPT-5-Codex - самая сильная модель программирования, представленная OpenAI

GPT-5-Codex - это мощная модель оптимизации программирования от OpenAI, усовершенствованная GPT-5 и предназначенная для инженеров-программистов. Модель быстро генерирует высококачественный код, поддерживает множество языков программирования и оптимизирует существующий код для повышения производительности.

Последние ресурсы по искусственному интеллекту

11 месяцев назад

051.1K

FunctionGemma - открытая модель ИИ от Google, оптимизированная для вызова функций

FunctionGemma - это облегченная модель искусственного интеллекта, оптимизированная для вызова функций Google, разработанная на основе базовой модели Gemma 3 с 270 миллионами параметров, которая преобразует естественный язык в исполняемые инструкции API в режиме реального времени на мобильных телефонах, браузерах и других устройствах. Основной особенностью является поддержка локальных офф...

Последние ресурсы по искусственному интеллекту

7 месяцев назад

050.9K

AgentCPM-Report - 清华联合面壁智能等开源的深度调研智能体工具

AgentCPM-Report 是清华大学自然语言处理实验室、中国人民大学、面壁智能与 OpenBMB 开源社区联合研发的深度调研智能体工具。基于 8 亿参数的模型，通过深度检索和推理，能生成万字长篇...

Последние ресурсы по искусственному интеллекту

6 месяцев назад

050.9K

Step3-VL-10B - 阶跃星辰开源的100亿参数多模态AI模型

Step3-VL-10B是阶跃星辰团队开源的100亿参数多模态AI模型，核心突破在于以轻量化设计实现顶级性能。模型通过统一预训练策略（1.2T多模态令牌数据）和创新的并行协同推理技术（PACORE...

Последние ресурсы по искусственному интеллекту

6 месяцев назад

050.9K

Yume1.5 - интерактивная модель генерации мира с открытым исходным кодом от Шанхайской лаборатории искусственного интеллекта и Фуданьского университета

Yume 1.5 - это интерактивная модель генерации мира с открытым исходным кодом, разработанная совместно Шанхайской лабораторией искусственного интеллекта, Фуданьским университетом и Шанхайским инновационным исследовательским институтом, способная осуществлять интерактивный рендеринг в реальном времени (12 кадров в секунду на одной карте). В ней используется технология совместного пространственно-временного моделирования каналов (TSCM), даже если длина контекста увеличивается...

Последние ресурсы по искусственному интеллекту

7 месяцев назад

050.8K

EchoCare - Гонконгская академия наук с открытым исходным кодом Большая модель ультразвуковой базы

EchoCare - это большая модель ультразвуковой базы, разработанная Центром искусственного интеллекта и робототехники (CAIR) Гонконгского института инноваций и исследований Китайской академии наук (CAS), обученная на крупнейшем в мире наборе данных ультразвуковых изображений (более 4,5 миллионов изображений), охватывающем мультицентровые, мультирегиональные, мультиэтнические и более 50 индивидуальных...

Последние ресурсы по искусственному интеллекту

10 месяцев назад

050.7K

TurboDiffusion - фреймворк ускорения генерации видео с открытым исходным кодом от Raw Digital Technology, Tsinghua и других компаний.

TurboDiffusion - это фреймворк для ускорения генерации видео, созданный совместно Университетом Цинхуа, BioDigital Technology и Калифорнийским университетом в Беркли, который способен повысить скорость генерации видео в 100-200 раз при сохранении качества изображения практически без потерь. Благодаря разреженному линейному вниманию, пошаговой дистилляции образцов и 8-битному...

Последние ресурсы по искусственному интеллекту

7 месяцев назад

050.5K

EverMemOS - операционная система с открытым исходным кодом для долговременной памяти от команды Shanda

EverMemOS - операционная система долговременной памяти с открытым исходным кодом, созданная командой Shanda под руководством Чена Тяньцяо, предназначенная для искусственного интеллекта, чтобы решить проблему нехватки памяти, вызванную фиксированным контекстным окном больших языковых моделей. Система основана на механизме памяти человеческого мозга и использует четырехслойную архитектуру (слой агента, слой памяти, слой индекса...

Последние ресурсы по искусственному интеллекту

9 месяцев назад

050.4K

GLM-TTS - система синтеза речи промышленного уровня с открытым исходным кодом от Smart Spectrum AI

GLM-TTS - это промышленная система синтеза речи с открытым исходным кодом, обладающая мощными возможностями синтеза речи. Она использует двухэтапную архитектуру генерации: на первом этапе текст преобразуется в последовательности речевых лексем, а на втором - лексемы преобразуются в высококачественный звук. Система поддерживает всего 3 секунды голосовых образцов для завершения аудио...

Последние ресурсы по искусственному интеллекту

8 месяцев назад

050.4K

Гранит-Доклинг-258М - Визуальные языковые модели IBM с открытым исходным кодом

Granite-Docling-258M - это ультракомпактная модель визуального языка с открытым исходным кодом от IBM, предназначенная для эффективного преобразования документов. Модель преобразует документы в машиночитаемый формат, сохраняя при этом макет, таблицы, формулы и другие элементы в неизменном виде.

Последние ресурсы по искусственному интеллекту

10 месяцев назад

050.3K

LingBot-Depth - 蚂蚁灵波科技开源的高精度空间感知模型

LingBot-Depth是蚂蚁灵波科技开源的高精度空间感知模型，专门解决机器人在透明玻璃、反光物体等复杂场景中的深度识别难题。模型通过创新的"掩码深度建模"技术，在RGB图像基础上预测缺失的深度值

Последние ресурсы по искусственному интеллекту

6 месяцев назад

050.3K

T5Gemma 2 - модель кодера-декодера следующего поколения с открытым исходным кодом от Google

T5Gemma 2 - это модель кодера-декодера нового поколения, открытая компанией Google, основанная на архитектуре Gemma 3 и дополненная возможностями мультимодальной обработки и обработки длинных контекстов. Она поддерживает широкий спектр типов данных, включая текст и изображения, и способна обрабатывать очень длинные контексты (до 128 К) при генерации...

Последние ресурсы по искусственному интеллекту

7 месяцев назад

050.3K

RealVideo - система генерации потокового видео в реальном времени с открытым исходным кодом от Wisdom Spectrum AI

RealVideo - это система генерации потокового видео в реальном времени с открытым исходным кодом от Smart Spectrum AI, которая может быстро генерировать естественные и плавные видеоответы за 2-3 секунды. Пользователи просто загружают фотографию и вводят текст, а система генерирует соответствующий голос и видео, позволяя вести диалог с персонажами ИИ в режиме реального времени...

Последние ресурсы по искусственному интеллекту

8 месяцев назад

050.3K

LazyCraft - 开源AI Agent应用开发与管理平台，基于LazyLLM构建

LazyCraft - платформа для разработки и управления приложениями ИИ-агентов с открытым исходным кодом, построенная на базе LazyLLM

LazyCraft - это платформа разработки и управления приложениями AI Agent с открытым исходным кодом, созданная компанией Shangtang на основе открытого исходного кода LazyLLM, предоставляющая универсальные решения по разработке приложений AI для предприятий и разработчиков. Помогает разработчикам быстро создавать и выпускать крупные модели приложений с низким порогом и низкой стоимостью...

Последние ресурсы по искусственному интеллекту

9 месяцев назад

050.2K

PromptFill - ИИ-инструмент с открытым исходным кодом для создания структурированных слов, предназначенный для рисования ИИ.

PromptFill - это инструмент структурированной генерации подсказок, предназначенный для рисования ИИ, который помогает пользователям быстро создавать, управлять и повторять сложные подсказки через визуальное взаимодействие "заполни пустое место", повышая эффективность и качество генерации изображений ИИ.Основные возможности PromptFill...

Последние ресурсы по искусственному интеллекту

7 месяцев назад

050.1K

Depth Anything 3 - 3D модели визуальной реконструкции с открытым исходным кодом от Bitmap Seed

Depth Anything 3 (DA3) - это модель визуальной 3D-реконструкции, разработанная командой Byte Jump Seed с открытым исходным кодом. Благодаря единой архитектуре трансформеров для достижения пространственной реконструкции геометрии в любой точке обзора, необходимо только предсказать карту глубины и карту лучей, чтобы восстановить 3D-сцену, по сравнению с...

Последние ресурсы по искусственному интеллекту

8 месяцев назад

050K