Последние ресурсы по искусственному интеллекту

共 2985 篇文章
浙江大学免费PDF资料《大模型基础》 - 附下载链接

Бесплатные PDF-файлы по основам больших моделей из Чжэцзянского университета - с ссылкой на скачивание

Книга "Основы больших моделей" содержит глубокий анализ основных технологий и практических путей создания больших языковых моделей (LLM). Начиная с фундаментальной теории моделирования языка, он систематически объясняет принципы построения моделей на основе статистических, рекуррентных нейросетевых (RNN) и трансформаторных архитектур, фокусируясь на трех основных больших языковых моделях...
6 месяцев назад
040K
AnimaTensor - 吐司AI等机构推出的二次元图像生成模型

AnimaTensor - квадратичная модель генерации изображений от Toast AI и других разработчиков

AnimaTensor - это квадратичная модель генерации изображений от команды CagliostroLab в сотрудничестве с TensorArt, основанная на инновационной технике V-Prediction, которая оптимизирует планирование шума путем предсказания "скорости" процесса генерации изображений...
9 месяцев назад
039.9K
QVQ-Max - 阿里通义推出视觉推理模型

QVQ-Max - Али Тонги запускает модель визуального мышления

QVQ-Max - это современная модель визуального мышления от Alitonix, обновленная версия QVQ-72B-Preview, которая может "читать" изображения и видеоконтент и объединять их с информацией для анализа и решения проблем. QVQ-Max - это обновленная версия QVQ-72B-Preview, которая способна "читать" изображения и видеоконтент и объединять информацию для анализа, рассуждения и решения проблем.Основные функции QVQ-Max включают разбор изображений, анализ видео и...
9 месяцев назад
039.8K
EchoMimicV3 - 蚂蚁开源的多模态数字人动画生成模型

EchoMimicV3 - мультимодальная модель генерации цифровой человеческой анимации с открытым исходным кодом Ant

EchoMimicV3 - это мультимодальная модель генерации цифрового человеческого видео, созданная компанией Ant Group, с 1,3 миллиардами параметров, способная обрабатывать множество входных данных, таких как аудио, текст, изображения и т.д. для генерации высококачественных цифровых человеческих анимаций.
7 месяцев назад
039.8K
Ovis-U1 - 阿里推出的多模态统一AI模型

Ovis-U1 - мультимодальная унифицированная модель искусственного интеллекта, выпущенная компанией Ali

Ovis-U1 - это мультимодальная унифицированная модель, представленная командой Ovis компании Alibaba Group с масштабом параметров 3 миллиарда. Модель обладает тремя основными возможностями: мультимодальным пониманием, генерацией текста в изображение и редактированием изображений, а благодаря передовому архитектурному дизайну и совместным унифицированным методам обучения она позволяет реализовать высокоточную...
9 месяцев назад
039.7K
gpt-oss - OpenAI推出的开源推理模型系列

gpt-oss - семейство моделей вывода с открытым исходным кодом от OpenAI

gpt-oss - это семейство моделей вывода с открытым исходным кодом от OpenAI, которые обеспечивают эффективные, гибкие и простые в развертывании решения в области искусственного интеллекта для разработчиков. gpt-oss выпускается в двух версиях: gpt-oss-120B с 117 миллиардами параметров и поддержкой 8...
7 месяцев назад
039.7K
Qwen VLo – 通义千问推出的多模态统一理解与生成模型

Qwen VLo - унифицированная мультимодальная модель понимания и генерации от Tongyi Qianqian

Qwen VLo - это мультимодальная унифицированная модель восприятия и генерации, представленная командой Tongyi Qianqian. Qwen VLo может "понимать" мир и воссоздавать его с высоким качеством на основе своего понимания, реализуя скачок от восприятия к генерации. VLo может точно понимать содержание изображений и на основе этого осуществлять последовательную и качественную генерацию.
9 месяцев назад
039.7K
Mistral Code - Mistral AI推出面向企业的AI编程助手

Mistral Code - Mistral AI запускает помощника по программированию ИИ для бизнеса

Mistral Code - это помощник по программированию с искусственным интеллектом для команд разработчиков, созданный компанией Mistral AI и объединяющий четыре модели: Codestral, Codestral Embed, Devstral и Mistral Medium, поддерживающие...
9 месяцев назад
039.6K
GLM-4.7 - 智谱AI开源的最新一代旗舰大模型

GLM-4.7 - последнее поколение флагманских больших моделей Wisdom Spectrum AI Open Source

GLM-4.7 - это последнее поколение флагманской модели Grand Model, выпущенной и выложенной в открытый доступ компанией Smart Spectrum AI, которая глубоко оптимизирована для программирования ИИ, сложных рассуждений и задач интеллектуального тела. Модель поддерживает длину контекста 200k и максимальный выход 128k, имеет многоязыковое кодирование, возможности долгосрочного планирования задач и совместной работы с инструментами...
3 месяца назад
039.5K
通义DeepResearch - 阿里通义开源的深度研究智能体

Tongyi DeepResearch - Орган глубокой разведки с открытым исходным кодом Ali Tongyi

Tongyi DeepResearch (Tongyi DeepResearch) - интеллектуальный орган с открытым исходным кодом, запущенный компанией Alibaba, предназначенный для глубокого поиска информации и рассуждений о сложных задачах, с 30 миллиардами параметров, поддерживающий несколько режимов рассуждений, включая режим ReAct и режим глубины...
6 месяцев назад
039.5K
Why My Wife Yelling At Me:模拟婚姻沟通的互动工具

Почему моя жена кричит на меня: интерактивный инструмент для моделирования супружеского общения

Общее представление "Почему моя жена кричит на меня" - это уникальный сайт симуляции супружеских отношений, призванный помочь пользователям понять эмоциональные реакции партнера и модели общения с помощью искусственного интеллекта. Пользователи могут вводить различные сценарии и наблюдать за реакцией своего виртуального партнера, имитируя реальные...
11 месяцев назад
039.5K
AIMangaStudio - 免费的AI漫画创作工具,提供完整创作流程

AIMangaStudio - бесплатный инструмент для создания манги в формате AI для полного процесса создания!

AIMangaStudio - это бесплатный инструмент для создания манги с искусственным интеллектом, который предоставляет авторам полный цикл создания манги, включая генерацию сюжета, разработку субсцен, создание персонажей и другие функции, что позволяет упростить процесс создания от сценария до страницы манги. Поддержка генерации сценариев комиксов на естественном языке, включая сюжет, диалоги...
5 месяцев назад
039.5K
FireRedChat - 小红书开源的全双工语音交互系统

FireRedChat - система полнодуплексного голосового взаимодействия с открытым исходным кодом от Little Red Book

FireRedChat - это полнодуплексная система голосового взаимодействия с открытым исходным кодом для Xiaohongshu с возможностью двунаправленного диалога в реальном времени и поддержкой контролируемых прерываний. Используя модульный дизайн, включая модуль управления транскрипцией, модуль взаимодействия и менеджер диалога и т.д., поддерживает каскадную и полукаскадную архитектуру, гибкое развертывание.
5 месяцев назад
039.4K
Seed LiveInterpret 2.0 - 字节跳动推出的同声传译模型

Seed LiveInterpret 2.0 - модель синхронного перевода от ByteHop!

Seed LiveInterpret 2.0 - это современная модель синхронного перевода, запущенная командой Seed из ByteDance, поддерживающая двусторонний перевод с китайского на английский. Модель отличается точностью перевода, близкой к реальной, и чрезвычайно низкой задержкой: средняя задержка между речью и текстом составляет всего 2-3 секунды, что намного меньше, чем у...
8 месяцев назад
039.3K
万兴天幕 – 万兴科技推出AIGC视频创作平台

Wanxing Canopy - Wanxing Technology запускает платформу для создания видео AIGC

Wanxing Canopy - это платформа AIGC для создания видео, запущенная компанией Wanxing Technology, охватывающая три основные области создания видео, изображений и аудио. Она специально разработана для работников медиа и культурной индустрии, кино- и телепромышленности/постпродакшена, искусства и дизайна, рекламы и маркетинга и т.д., чтобы предоставить универсальные профессиональные решения для создания видео.
9 месяцев назад
039.3K
全球首个量子 AI 模型问世!SECQAI 发布 QLLM 即将进入 Beta 测试

Первая в мире квантовая модель ИИ! SECQAI выпустила QLLM для бета-тестирования!

SECQAI, британская компания по производству сверхзащищенного оборудования и программного обеспечения, объявила о запуске первой в мире Квантовой модели большого языка (QLLM), которая интегрирует технологию квантовых вычислений в традиционные модели ИИ для повышения эффективности вычислений и возможностей решения задач. Квантовая механика + ИИ = более мощный ИИ? ...
1 год назад
039.3K
优雅YOYA - 中科闻歌推出的AI音视频内容创作平台

Элегантная YOYA - платформа для создания аудио/видео контента с искусственным интеллектом, запущенная ZTE Winko

Elegant YOYA - это мультимодальная грамотная видеоплатформа, запущенная компанией Zhongke Wenge. Платформа основана на мультимодальной технологии AI для расширения возможностей всей цепочки создания видеоконтента. Пользователям нужно только ввести требования к теме, платформа может быстро генерировать сценарии, изображения, видео, а также выполнять интеллектуальное редактирование, синтез голоса, управление ртом персонажа и другие операции, выход...
9 месяцев назад
039.2K
Confucius3-Math - 网易有道推出专注于数学教育的开源推理模型

Confucius3-Math - NetEase.com запускает модель рассуждений с открытым исходным кодом, ориентированную на обучение математике

Confucius3-Math - это первая отечественная модель рассуждений с открытым исходным кодом, ориентированная на обучение математике, открытая NetEaseYouDao. Имея 14 миллиардов параметров, оптимизированных для сценариев обучения математике K-12, она может эффективно работать на одном графическом процессоре потребительского класса (например, RTX 4090D), при этом производительность умозаключений составляет около...
9 месяцев назад
039.2K
Higress MCP - 今日投资推出的MCP服务平台

Higress MCP - Invest Today запускает платформу для предоставления услуг MCP

Higress MCP - это инновационная платформа, запущенная компанией Invest Today, которая поддерживает быструю трансформацию традиционных API финансовых данных в современные MCP-сервисы. Higress MCP позволяет преобразовывать REST API в MCP Server на основе простой конфигурации без необходимости кодирования...
8 месяцев назад
039.2K
AudioFly - 科大讯飞开源的文本生成音效AI模型

AudioFly - модель искусственного интеллекта KU Xunfei с открытым исходным кодом для генерации текста и звука

AudioFly - это модель искусственного интеллекта с открытым исходным кодом для генерации звуковых эффектов из текста, разработанная компанией KDDI. Основана на архитектуре потенциальной диффузионной модели с 1 миллиардом параметров, обучена на крупномасштабных разнообразных аудиотекстовых наборах данных, включая публичные наборы данных, такие как AudioSet, AudioCaps, TUT и внутренние...
6 месяцев назад
039.1K
FLUX.1 Kontext - 黑森林推出的图像生成与编辑模型

FLUX.1 Kontext - модель генерации и редактирования изображений из Шварцвальда

FLUX.1 Kontext - это модель генерации и редактирования изображений от Black Forest Labs, которая предоставляет методы обработки изображений с учетом контекста. Модель понимает реакцию на текстовые и графические сигналы, выполняет такие задачи, как изменение объектов, преобразование стилей и замена фона, сохраняя при этом угловую...
9 месяцев назад
039.1K
Gemini 2.5 Deep Think - 谷歌推出的AI推理模型

Gemini 2.5 Deep Think - модель искусственного интеллекта от Google

Gemini 2.5 Deep Think - это модель искусственного интеллекта от Google, предназначенная для решения сложных задач. Это вариант модели, завоевавшей золотую медаль на Международной математической олимпиаде (IMO) 2025 года, и предназначен для решения сложных задач с помощью параллельных ...
7 месяцев назад
039.1K
Meeseeks - 美团开源的评估模型指令遵循能力的评测集

Meeseeks - Meeseeks с открытым исходным кодом оценивает способность типовых инструкций следовать заданному рубрикатору

Meeseeks - это набор для оценки больших моделей с открытым исходным кодом, используемый командой M17 в Meituan для оценки способности модели следовать инструкциям. Meeseeks использует трехуровневую систему оценки для всестороннего измерения того, способна ли модель генерировать ответы в строгом соответствии с инструкциями пользователя от макро- до микроуровня, и не оценивает знание содержания ответа как положительный...
7 месяцев назад
039.1K
用语音和文字控制macOS操作的开源工具

Инструмент с открытым исходным кодом для управления операциями macOS с помощью голоса и текста

Общее представление MacOS LLM Controller - это настольное приложение с открытым исходным кодом, размещенное на GitHub, которое позволяет пользователям выполнять команды системы macOS, вводя команды на естественном языке с помощью голоса или текста. Оно основано на Llama-3.2-3B...
11 месяцев назад
039K
Claude Sonnet 4.5 - Anthropic推出的最强AI编程模型

Claude Sonnet 4.5 - самая мощная модель программирования ИИ от Anthropic

Claude Sonnet 4.5 - модель искусственного интеллекта от компании Anthropic, предназначенная для программирования, работы с компьютером и автоматизации сложных задач. Модель отлично справляется с генерацией кода, обработкой длинных задач, рассуждениями и математическими вычислениями, поддерживая все - от начального планирования...
6 месяцев назад
039K
FineVision - Hugging Face推出的开源视觉语言数据集

FineVision - набор данных визуальных языков с открытым исходным кодом, созданный Hugging Face

FineVision - это набор данных визуального языка с открытым исходным кодом от Hugging Face для обучения продвинутых моделей визуального языка. Она содержит 17,3 миллиона изображений, 24,3 миллиона образцов, 88,9 миллиона раундов диалога и 9,5 миллиарда токенов ответов. Набор данных объединяет...
6 месяцев назад
038.9K
职达AI简历 - AI简历生成与优化平台,精准分析问题、提供优化建议

JobTech AI CV - платформа для создания и оптимизации резюме с помощью искусственного интеллекта, точно анализирующая проблемы и дающая рекомендации по оптимизации.

Job AI resume - это эффективная и удобная интеллектуальная платформа для составления и оптимизации резюме. Основанная на технологии искусственного интеллекта, платформа помогает пользователям быстро создавать профессиональные и персонализированные резюме. Пользователям нужно только ввести основную информацию и опыт, платформа может генерировать высококачественное резюме за короткое время, предоставляя 2800+ красивых шаблонов, охватывающих различные позиции.
9 месяцев назад
038.7K
Logics-Parsing - 阿里开源的文档解析模型

Logics-Parsing - модель разбора документов с открытым исходным кодом на Ali

Logics-Parsing - это модель сквозного разбора документов с открытым исходным кодом, основанная на Qwen2.5-VL-7B. Оптимизация анализа макета документа и вывода порядка чтения с помощью обучения с усилением, PDF-изображения могут быть преобразованы в структурированный HTML-вывод, поддержка разнообразного контента ...
5 месяцев назад
038.7K
SkyReels-A3 - 昆仑万维推出的音频驱动数字人创作工具

SkyReels-A3 - инструмент для создания цифровых людей на основе аудио от KunlunWangwei

SkyReels-A3 - это инструмент для создания цифровых людей с помощью звука от компании Kunlun World Wide Group. SkyReels-A3 - это аудиоуправляемый инструмент для создания цифровых людей, который может генерировать высококачественный динамический видеоконтент с помощью простых входных данных (например, портретных изображений и голоса), заставлять статические фотографии "оживать", а также заменять реплики в существующих видеороликах на новые, которые персонажи будут автоматически согласовывать с...
7 месяцев назад
038.7K
MindLink - 昆仑万维推出的开源推理大模型

MindLink - Большая модель рассуждений с открытым исходным кодом от KunlunWei

MindLink - это большая модель рассуждений с открытым исходным кодом, запущенная Kunlun World Wide Web. С адаптивным механизмом рассуждения, в зависимости от сложности задачи может быть гибко переключен режим вывода, простые задачи быстро генерируется, сложные задачи глубокое рассуждение, с учетом эффективности и точности. Планово-управляемая парадигма рассуждений позволяет удалить тег "думать", уменьшить ...
7 месяцев назад
038.7K
有道小P - 网易有道推出的新一代AI全科学习助手

Youdao Xiao P - новое поколение самообучающегося помощника ИИ, выпущенного компанией Netease Youdao

Youdao Little P - это помощник по изучению всех предметов с искусственным интеллектом, выпущенный компанией NetEase Youdao. Он предназначен для учащихся K12, оснащен большой моделью образования Youdao Ziyi, охватывает начальную школу, младшую школу, старшую школу по всем предметам и предоставляет индивидуальные советы по обучению. Благодаря функциям поиска слов с искусственным интеллектом и перевода с искусственным интеллектом Youdao Little P помогает учащимся быстро решать языковые проблемы...
9 месяцев назад
038.6K
DeckSpeed - AI PPT制作工具,自然语言生成演示文稿

DeckSpeed - AI PPT Maker, презентация, созданная на естественном языке

DeckSpeed - это инструмент для создания презентаций с искусственным интеллектом, основанный на разговорном взаимодействии, где пользователи выражают свои потребности на естественном языке и быстро генерируют персонализированные слайды, не полагаясь на традиционные шаблоны. Инструмент поддерживает обратную связь в режиме реального времени, пользователи могут в любой момент изменить цвет, стиль и содержание слайдов, чтобы гарантировать, что презентация будет завершена...
9 месяцев назад
038.5K
HunyuanWorld-Voyager - 腾讯开源的超长漫游世界模型

HunyuanWorld-Voyager - модель мира с открытым исходным кодом Tencent для сверхдальнего роуминга

HunyuanWorld-Voyager (сокращенно Hunyuan Voyager) - первая в индустрии модель сверхдлинного блуждающего мира, выпущенная компанией Tencent и поддерживающая нативную 3D-реконструкцию. Это новый фреймворк для диффузии видео, который генерирует 3D-последовательности облаков точек по заданным пользователем траекториям движения камеры из одного изображения, поддерживая...
6 месяцев назад
038.5K
InternVLA-A1 - 上海AI Lab开源一体化操作能力的具身大模型

InternVLA-A1 - Shanghai AI Lab Интеграция операционных возможностей для воплощенных больших моделей с открытым исходным кодом

InternVLA-A1 - это большая модель воплощенной работы, открытая Шанхайской лабораторией искусственного интеллекта. Она способна понимать, представлять и выполнять интеграцию, а также точно выполнять поставленные задачи. Модель объединяет реальные и симулированные операционные данные и автоматизирует построение массивных мультимодальных через крупномасштабные виртуально-реальные гибридные активы сцены...
6 месяцев назад
038.5K
OpenAI《在AI时代保持领先》PDF指南 - 附下载链接

PDF-руководство OpenAI о том, как оставаться впереди в эпоху ИИ - со ссылками для скачивания

Оставаясь впереди в эпоху ИИ - это руководство по ИИ от OpenAI, которое помогает бизнес-лидерам сохранять конкурентные преимущества в эпоху ИИ. В руководстве отмечается быстрый рост ИИ, ускорение выпуска моделей, снижение затрат и ускорение внедрения на предприятиях...
6 месяцев назад
038.4K
OpenReasoning-Nemotron - 英伟达推出的开源系列推理模型

OpenReasoning-Nemotron - серия моделей рассуждений с открытым исходным кодом от NVIDIA

OpenReasoning-Nemotron - это серия крупномасштабных языковых моделей, открытых NVIDIA для поддержки обработки задач рассуждения в математике, науке и коде. Модели построены на основе модели DeepSeek R1 0528 с параметрами масштаба 1,5B...
8 месяцев назад
038.4K
FactSnap - 新一代AI信息核查工具

FactSnap - инструмент для проверки информации с помощью искусственного интеллекта нового поколения

FactSnap - это инструмент проверки информации с помощью искусственного интеллекта нового поколения, который помогает пользователям быстро проверять подлинность веб-информации. Благодаря интеграции нескольких моделей и поисковых систем он выполняет проверку выбранного текста в режиме реального времени, пока пользователь просматривает веб-страницы.
9 месяцев назад
038.4K
Audio2Face - NVIDIA开源的AI 3D面部动画生成模型

Audio2Face - открытая модель генерации 3D-анимации лица с искусственным интеллектом от NVIDIA

Audio2Face - это инструмент ИИ с открытым исходным кодом от NVIDIA, способный преобразовывать аудиосигнал в реалистичную 3D-анимацию лица. Анализируя особенности речи в аудио, такие как фонемы и интонации, он генерирует точную синхронизацию губ и тонкие эмоциональные выражения, чтобы придать виртуальным персонажам яркую человеческую мимику.
6 месяцев назад
038.3K
Qwen3-Max-Preview - 通义千问推出的旗舰大语言模型

Qwen3-Max-Preview - флагманская модель большого языка от Tongyi Qianqian

Qwen3-Max-Preview - это последняя флагманская модель большого языка, выпущенная компанией Tongyi Qianwen. Это модель с самым большим количеством параметров в семействе Qwen3, с размером параметров более 1 триллиона. Модель обладает значительными улучшениями в области вывода, следования инструкциям, поддержки нескольких языков и охвата длиннохвостых знаний...
6 месяцев назад
038.3K
Skywork-SWE-32B - 昆仑万维开源的自主代码智能体基座模型

Skywork-SWE-32B - базовая модель интеллектуального тела с открытым исходным кодом KunlunWanwei

Skywork-SWE-32B - базовая модель автономных кодовых интеллектов с открытым исходным кодом масштаба 32B для программной инженерии (SWE), представленная компанией Kunlun World Wide Web. Модель ориентирована на задачи программной инженерии, обладает мощными возможностями восстановления кода на уровне репозитория и может работать в сложных сценариях с многораундовым взаимодействием и длительной обработкой текста...
9 месяцев назад
038.2K
Midjourney V1- Midjourney推出的首个图生视频模型

Midjourney V1 - первая графическая видеомодель Midjourney

Midjourney V1 - это первая модель генерации видео с искусственным интеллектом от Midjourney, которая поддерживает преобразование статичных изображений в яркие и динамичные видео с помощью передовой технологии искусственного интеллекта. Пользователям достаточно загрузить изображения или картинки, созданные с помощью Midjourney, нажать...
9 месяцев назад
038.1K
Gemini Robotics On-Device - 谷歌推出首个在本地运行的具身智能模型

Gemini Robotics On-Device - Google запускает первую модель встроенного интеллекта, работающую локально

Gemini Robotics On-Device - это модель видения-языка-действия от Google DeepMind, которая поддерживает локальный запуск в роботе. Модель способна выполнять задачи в автономном режиме, совершая тонкие действия на основе команд естественного языка, например складывать одежду и доставать открытые сумки...
9 месяцев назад
038K
CRIC深度智联 - 克而瑞推出的中国房地产首个AI Agent

CRIC - Первый агент искусственного интеллекта для китайской недвижимости, запущенный CRIC

CRIC Depth Intelligence - это первый интеллектуальный орган ИИ для китайской недвижимости, самостоятельно разработанный CRIC, основанный на 20-летнем опыте CRIC в сфере недвижимости, накоплении данных и мультимодальной технологии больших моделей, которая открывает всю цепочку от интеграции данных, интеллектуального анализа до создания контента.
9 месяцев назад
037.9K
Hyprnote - 开源的本地优先AI会议笔记工具

Hyprnote - инструмент для ведения заметок на конференциях с искусственным интеллектом с открытым исходным кодом

Hyprnote - это инструмент для ведения заметок на совещаниях с открытым исходным кодом и искусственным интеллектом, разработанный для профессионалов с целью защиты конфиденциальности пользователей и повышения эффективности совещаний. В соответствии с принципом "сначала локально" все данные хранятся и обрабатываются на локальном устройстве пользователя, что обеспечивает безопасность данных и поддерживает работу в автономном режиме.
6 месяцев назад
037.8K
AntSK FileChunk - 免费的AI语义文档切片工具,动态切片调整

AntSK FileChunk - бесплатный инструмент для семантической нарезки документов AI, динамическая настройка нарезки

AntSK FileChunk - это бесплатный интеллектуальный инструмент для нарезки документов, предназначенный для приложений RAG (Retrieval Augmented Generation). Семантика как основа, документ будет интеллектуально нарезан на семантически полные, последовательные сегменты, поддержка нескольких языков, динамическая настройка размера фрагмента для обеспечения контекстной целостности.
6 месяцев назад
037.8K
文心大模型X1.1 - 百度推出的深度思考模型,理解能力更强

Wenshin Big Model X1.1 - модель глубокого мышления Baidu для лучшего понимания

Wenxin Big Model X1.1 - это модель глубокого мышления, выпущенная компанией Baidu и основанная на гибридной системе обучения с подкреплением, которая нацелена на улучшение понимания и генерации языка. Модель отлично справляется со сложными вопросами, выполняет инструкции и имитирует поведение интеллекта, а также может точно давать грамотные ответы и высококачественный текстовый контент.
6 месяцев назад
037.7K
Klear-Reasoner - 快手推出的全新推理模型

Klear-Reasoner - новая модель рассуждений, представленная компанией Racer

Klear-Reasoner - это высокопроизводительная модель умозаключений от Racer, основанная на Qwen3-8B-Base. Модель обучается с помощью длинной мыслительной цепочки с контролируемой тонкой настройкой и обучения с подкреплением, что позволяет ей демонстрировать высокие результаты в математических и кодовых рассуждениях.Klear-Reasoner...
7 месяцев назад
037.7K
DeepSeek-OCR - DeepSeek开源的光学字符识别模型

DeepSeek-OCR - модель оптического распознавания символов с открытым исходным кодом DeepSeek

DeepSeek-OCR - это усовершенствованная модель оптического распознавания символов (OCR), открытая командой DeepSeek, которая преобразует текст в изображения с помощью технологии "контекстного оптического сжатия" и использует визуальные маркеры для сжатия и декодирования для эффективной обработки длинных текстов.
5 месяцев назад
037.6K
Xiaomi-MiMo-Audio - 小米开源的首个原生端到端语音大模型

Xiaomi-MiMo-Audio - первая нативная сквозная речевая модель Xiaomi с открытым исходным кодом

Xiaomi-MiMo-Audio - это макромодель сквозной речи Xiaomi с открытым исходным кодом и 7 миллиардами параметров, обладающая такими мощными функциями, как многоязычный диалог, продолжение речи, обобщение с меньшим количеством образцов и понимание звука, которая способна достичь уровня SOTA в тестах на интеллект речи и понимание звука, превосходя Google Gemi...
6 месяцев назад
037.5K
Lumina-DiMOO - 上海AI Lab联合华为昇腾开源的多模态大模型

Lumina-DiMOO - мультимодальная большая модель с открытым исходным кодом от Shanghai AI Lab и Huawei Rise

Lumina-DiMOO - это унифицированная модель нового поколения для мультимодального генерирования и понимания, представленная Шанхайской лабораторией искусственного интеллекта (SAL) совместно с Huawei Rise на Всемирной конференции по искусственному интеллекту 2025. Основанная на базовой аппаратно-программной платформе Rise AI и наборе мультимодальных больших моделей MindSpeed MM, она завершает...
6 месяцев назад
037.4K
SoulX-Podcast - Soul AI Lab开源的对话式语音合成模型

SoulX-Podcast - модель синтеза разговорной речи от Soul AI Lab с открытым исходным кодом

SoulX-Podcast - это продвинутая модель синтеза разговорной речи с открытым исходным кодом от Soul AI Lab, предназначенная для создания высококачественного подкаст-контента. SoulX-Podcast способна генерировать несколько раундов диалога и имитировать плавный диалог в реальных сценариях подкастинга, поддерживая мандаринский, английский и несколько китайских...
5 месяцев назад
037.4K
NeuTTS Air - 支持离线CPU运行的免费轻量级语音合成模型

NeuTTS Air - бесплатная и легкая модель синтеза речи с поддержкой автономной работы на процессоре

NeuTTS Air - это модель синтеза речи с открытым исходным кодом, разработанная командой Neuphonic, которая может работать в режиме реального времени на локальных устройствах (например, мобильных телефонах, ноутбуках, Raspberry Pi), не завися от облака. Используя 0,5B-параметрическую архитектуру Qwen и самостоятельно разработанный кодек NeuCodec...
5 месяцев назад
037.2K
InternVLA·N1 - 上海AI Lab开源的端到端双系统导航大模型

InternVLA-N1 - Shanghai AI Lab Open Source End-to-End Dual System Navigation Large Model

InternVLA-N1 - это сквозная двухсистемная навигационная макромодель, открытая Шанхайской лабораторией искусственного интеллекта. Используя двухсистемную архитектуру, система 2 отвечает за понимание лингвистических команд и планирование дальних маршрутов, в то время как система 1 фокусируется на высокочастотной реакции и маневренном обходе препятствий. Модель обучается полностью на основе синтетических данных с помощью крупномасштабных цифровых ...
6 месяцев назад
037.1K
Wide Research - Manus平台推出的多智能体协同功能

Широкие исследования - мультиинтеллектуальное сотрудничество на платформе Manus

Wide Research - это мощная функция платформы Manus, предназначенная для решения сложных и масштабных задач. Платформа поддерживает сотни интеллектов общего назначения, работающих одновременно благодаря механизмам параллельной обработки данных на системном уровне и протоколам взаимодействия интеллектов.
8 месяцев назад
037K
飞算JavaAI - AI Java开发助手,自然语言实现全流程智能化开发

Flycount JavaAI - ассистент разработки Java с искусственным интеллектом, реализующий на естественном языке весь процесс интеллектуальной разработки

Flycount JavaAI - это интеллектуальный помощник разработчика Java, выпущенный компанией Flycount Technology. Платформа поддерживает ввод данных на естественном языке и обеспечивает весь процесс интеллектуальной разработки - от анализа требований до генерации кода. Разработчикам достаточно ввести описание требований, Flycount JavaAI может точно понять и сгенерировать полный инженерный код, платформа...
9 месяцев назад
037K
Youtu-GraphRAG - 腾讯优图实验室开源的图检索增强生成框架

Youtu-GraphRAG - Tencent Youtu Labs Open Source Enhanced Graph Retrieval Generation Framework

Youtu-GraphRAG - это фреймворк с открытым исходным кодом для создания дополнений к графовому поиску от Tencent Youtu Labs, который помогает большим языковым моделям более точно обрабатывать сложные задачи вопросов и ответов. Построив четырехслойное дерево знаний, знания разбираются на четыре уровня: атрибуты, отношения, ключевые слова и сообщества, чтобы получить междоменные знания о самообладании акта...
6 месяцев назад
036.8K
WebWeaver - 阿里通义开源的新型双智能体框架

WebWeaver - Ali Tongyi открыл новый фреймворк для тела с двойным интеллектом

WebWeaver - это новый фреймворк с двумя интеллектами, представленный командой Alibaba Tongyi, который в основном используется в открытых глубоких исследованиях и может имитировать процесс исследования человека, который делится на два интеллекта: планирование и письмо.
6 месяцев назад
036.6K
2024年自动化流程执行创作工作的14款出色AI工具

14 блестящих инструментов искусственного интеллекта для автоматизации процессов выполнения творческой работы в 2024 году

Если вы хотите использовать возможности искусственного интеллекта для решения повседневных задач и автоматизации рабочих процессов в своей личной и рабочей жизни, то вас может заинтересовать широкий спектр доступных инструментов искусственного интеллекта. Компания AssemblyAI подготовила пятиминутный видеоролик с подробным описанием инструментов, которые вы можете использовать для автоматизации...
1 год назад
036.6K
ZeroSearch - 阿里通义推出的开源大模型搜索引擎框架

ZeroSearch - Али Тонги запустил поисковую систему с открытым исходным кодом для больших моделей.

ZeroSearch является Alibaba Tongyi Lab открытым исходным кодом инновационной большой модели поисковой системы рамки. Фреймворк не нуждается во взаимодействии с реальными поисковыми системами, основан на моделировании поисковой системы, с большой моделью собственных знаний предварительного обучения для генерации релевантных или шумовых документов, значительно снижая стоимость обучения (снижение 80% или более ...
9 месяцев назад
036.6K
Kimi Linear - 月之暗面开源的新型混合线性注意力架构

Kimi Linear - новая гибридная архитектура линейного внимания с открытым исходным кодом на темной стороне Луны

Kimi Linear - это новая гибридная архитектура линейного внимания с открытым исходным кодом от Dark Side of the Moon, в основе которой лежит Kimi Delta Attention (KDA), оптимизирующая традиционную модель внимания за счет более тонкого механизма регулировки, значительно повышающего эффективность аппаратного обеспечения и возможности управления памятью...
5 месяцев назад
036.5K
美间:在线软装(家装)设计工具,快速生成设计方案,软装辅助AI工具箱

Meiman: онлайн-инструменты для проектирования мягкой мебели (домашней мебели), быстрая генерация дизайнерских решений, вспомогательный AI-инструментарий для мягкой мебели

Всеобъемлющее представление Meiman - это онлайн-платформа, посвященная дизайну дома и маркетинговым переговорам. На сайте представлено множество дизайнерских материалов, мягкой мебели и шаблонов предложений PPT, шаблонов плакатов и т. д., которые помогают дизайнерам и домовладельцам быстро создавать высококачественные предложения по дизайну. Онлайн-инструмент Meiman для проектирования мягкой мебели можно использовать всего за 10 секунд...
9 месяцев назад
036.5K
PromptEnhancer - 腾讯混元开源的AI提示词增强工具

PromptEnhancer - Tencent Mixed Meta Open Source AI Prompt Word Enhancement Tool

PromptEnhancer - это инструмент с открытым исходным кодом для улучшения слов подсказок, разработанный командой Tencent's Mixed Meta для улучшения генерации моделей "текст в изображение" (Text-to-Image, T2I). Благодаря цепочке рассуждений (Chain-of-Thought, CoT) подход к использованию ...
6 месяцев назад
036.5K
Neovate Code - 蚂蚁开源的智能编程助手

Neovate Code - интеллектуальный помощник программиста Ant Open Source

Neovate Code - это интеллектуальный помощник программирования с открытым исходным кодом от отдела технологий Alipay Experience компании Ant Group, который повышает эффективность разработки с помощью технологии искусственного интеллекта. Благодаря функциям разговорной разработки разработчики могут описывать требования на естественном языке, Neovate Code понимает и генерирует соответствующие...
6 месяцев назад
036.4K
FLM-Audio - 智源联合南洋理工开源的全双工音频对话模型

FLM-Audio - Модель полнодуплексного аудиодиалога (FLM-Audio) с открытым исходным кодом от WisdomSource в сотрудничестве с Наньянгским технологическим институтом (NTI)

FLM-Audio - это нативная полнодуплексная макромодель аудиодиалога, выпущенная Пекинским исследовательским институтом искусственного интеллекта Zhiyuan совместно с Spin Matrix и Наньянгским технологическим университетом Сингапура и поддерживающая китайский и английский языки. Используя родную полнодуплексную архитектуру, она может объединять слушание, говорение и монолог на каждом временном шаге...
6 месяцев назад
036.1K
Code2Video - Show Lab开源的AI教学视频生成框架

Code2Video - открытый фреймворк для создания обучающего видео с искусственным интеллектом от Show Lab

Code2Video - это инновационный проект с открытым исходным кодом, который автоматически преобразует фрагменты кода в высококачественный видеоконтент (формат mp4). Проект использует уникальную парадигму, ориентированную на код, используя инструменты carbon-now-cli для генерации кода в красивые изображения, использование ffmpeg будет этим ...
5 месяцев назад
036K
MiniMax Music 1.5 - MiniMax最新推出的AI音乐生成模型

MiniMax Music 1.5 - Новейшая модель генерации музыки с искусственным интеллектом от MiniMax!

MiniMax Music 1.5 - это продвинутый инструмент для генерации музыки с помощью искусственного интеллекта, который позволяет генерировать до 4 минут музыки на основе описания пользователя на естественном языке. Модель поддерживает широкий спектр музыкальных стилей и настроек, генерирует естественные и полные вокальные тона, плавные переходы и богатые многослойные аранжировки...
6 месяцев назад
035.8K
Qwen3-Omni - 阿里通义推出的全模态AI模型

Qwen3-Omni - омнимодальная модель искусственного интеллекта, представленная Али Тонги

Qwen3-Omni - это полностью модальная модель ИИ, представленная командой Ali Tongyi, которая может работать с несколькими типами данных, такими как текст, изображения, аудио и видео, и поддерживает текстовое взаимодействие на 119 языках с низкой задержкой и высокой управляемостью.
6 месяцев назад
035.8K
MobiAgent - 上海交大开源的移动端智能体全栈构建框架

MobiAgent - открытый фреймворк для создания полного стека мобильных интеллектуальных тел, разработанный Шанхайским университетом Цзяотун

MobiAgent - это инструментарий мобильного интеллектуального тела с открытым исходным кодом от IPADS Lab Шанхайского университета Цзяотун, который помогает пользователям создавать собственные мобильные интеллектуальные помощники. Записывая траекторию движения пользователя и генерируя высококачественные данные, он обучает интеллектуальные тела, способные понимать команды на естественном языке. Среди основных функций - эффективная...
6 месяцев назад
035.8K
olmOCR 2 - AI2开源的多模态文档解析模型

olmOCR 2 - модель мультимодального разбора документов с открытым исходным кодом AI2

olmOCR 2 - это мультимодальная модель разбора документов с открытым исходным кодом от Института искусственного интеллекта Аллена (AI2), которая является обновленной версией olmOCR. Оцифрованные печатные документы (например, PDF) будут иметь высокую...
5 месяцев назад
035.7K
OneCAT - 美团联合上海交大开源的多模态模型

OneCAT - мультимодальная модель с открытым исходным кодом для Meituan и Шанхайского университета Цзяотун

OneCAT - это новая унифицированная мультимодальная модель, запущенная компанией Meituan совместно с Шанхайским университетом Цзяотун. В ней используется архитектура чистого декодера, в которой органично сочетаются функции мультимодального понимания, преобразования текста в изображение и редактирования изображений. Модель отказывается от традиционных мультимодальных моделей, которые полагаются на внешние визуальные кодировщики и дезамбигуаторы, благодаря модально-специфическим...
6 месяцев назад
035.6K
DeepSeek-V3.2-Exp - DeepSeek最新开源的实验性AI模型

DeepSeek-V3.2-Exp - новейшая экспериментальная модель искусственного интеллекта DeepSeek с открытым исходным кодом

DeepSeek-V3.2-Exp - экспериментальная модель искусственного интеллекта с открытым исходным кодом от компании DeepSeek, которая значительно повышает эффективность обработки длинных текстов за счет внедрения механизма DeepSeek Sparse Attention (DSA). Модель основана на DeepSeek...
6 месяцев назад
035.6K
Hunyuan-MT-7B - 腾讯混元开源的轻量级翻译模型

Hunyuan-MT-7B - модель облегченного перевода Tencent Mixed Meta с открытым исходным кодом

Hunyuan-MT-7B - это облегченная модель перевода, представленная командой Tencent's Mixed Meta Team, имеющая 7 миллиардов ссылок и поддерживающая взаимный перевод 33 языков и 5 народно-китайских языков/диалектов, включая кантонский, уйгурский и тибетский. В конкурсе WMT2025 Международной ассоциации вычислительной лингвистики (ACL)...
6 месяцев назад
035.5K
问小白o4 - 问小白推出的并行思考模型,同时开启8条思考路径

Ask o4 - модель параллельного мышления, представленная Ask o4, которая открывает 8 путей мышления одновременно

Ask White o4 - это инновационная модель параллельного мышления, которая открывает 8 путей мышления одновременно, анализирует проблему с разных точек зрения и автоматически отфильтровывает оптимальное решение. Модель использует передовые технологии обучения с подкреплением Long-CoT и обучения с вознаграждением за процесс, обладает мощными возможностями глубоких рассуждений и отлично справляется со сложными задачами.
7 месяцев назад
035.4K
Banana Slides - 基于Nano Banana Pro模型的开源AI PPT生成工具

Banana Slides - инструмент для создания PPT с открытым исходным кодом на основе искусственного интеллекта, основанный на модели Nano Banana Pro.

Banana Slides - это интеллектуальный генератор PPT с открытым исходным кодом, основанный на модели искусственного интеллекта Nano Banana Pro, который поддерживает быстрое создание профессиональных презентаций с помощью команд на естественном языке. Позволяет пользователям описывать тему в одном предложении (например, "Влияние человека на экосистему"), которое может быть само...
3 месяца назад
035.2K
TRELLIS.2 - 微软开源的大型3D生成模型

TRELLIS.2 - крупномасштабные генеративные 3D-модели с открытым исходным кодом от Microsoft

TRELLIS.2 - это крупномасштабная генеративная 3D-модель Microsoft с открытым исходным кодом и 4 миллиардами параметров, ориентированная на высокоточную генерацию изображений в 3D. Используя инновационную "O-Voxel" разреженную воксельную структуру, может эффективно обрабатывать сложную топологию и резкие особенности, генерировать высококачественную 3D информацию с полным PBR материалом ...
3 месяца назад
035K
Tencent-HY-MT1.5 - 腾讯混元开源的翻译模型系列

Tencent-HY-MT1.5 - Серия гибридных моделей перевода с открытым исходным кодом Tencent

Tencent-HY-MT1.5 - это гибридная модель перевода Tencent с открытым исходным кодом версии 1.5, включающая две модели 1.8B и 7B, поддерживающая 33 международных языка и 5 видов китайского и китайско-диалектного перевода.Модель 1.8B специально оптимизирована для мобильных телефонов и других устройств потребительского класса, только 1 ГБ оперативной памяти может быть достигнуто на конечной стороне...
3 месяца назад
034.9K
InfinityHuman - 字节联合浙大推出的长视频数字人生成模型

InfinityHuman - модель цифрового поколения человека, созданная компанией Bytes в сотрудничестве с ZJU.

InfinityHuman - это коммерческая модель генерации видеороликов персонажей с длинными временными сериями, управляемая звуком, которую совместно запустили ByteDance и Чжэцзянский университет. Модель управляется звуком и может генерировать видеоролики персонажей с высоким разрешением, большой продолжительностью и визуальной последовательностью.
6 месяцев назад
034.9K
rStar2-Agent - 微软开源的高效AI推理模型

rStar2-Agent - эффективная модель искусственного интеллекта с открытым исходным кодом от Microsoft

rStar2-Agent - это продвинутая модель математических рассуждений ИИ с открытым исходным кодом от Microsoft, которая демонстрирует сильные возможности решения математических задач, достигнув точности 80,61 TP3T в тесте AIME24. Модель обладает способностями к научным рассуждениям, достигнув в бенчмарке GPQA-Diamond...
6 месяцев назад
034.8K
MCP Registry - GitHub推出的官方MCP服务器管理平台

MCP Registry - официальная платформа управления серверами MCP с GitHub.

MCP Registry - это централизованная платформа от GitHub, которая помогает разработчикам легче находить и устанавливать MCP-серверы. С помощью MCP Registry разработчики могут быстро найти необходимые им инструменты искусственного интеллекта в одном месте, что значительно упрощает...
6 месяцев назад
034.8K
阶跃深研 - 阶跃星辰推出的AI深入研究工具

Steps Deep Research - инструмент для глубокого исследования искусственного интеллекта от Steps Star

Steps Deep Research - это эффективный исследовательский инструмент с искусственным интеллектом, выпущенный компанией Steps Star, который может автономно проводить исследования по сложным вопросам и генерировать профессиональные отчеты за короткий промежуток времени. Инструмент предназначен для финансовых, консалтинговых, медицинских, юридических и других сфер и получил отличные отзывы в отрасли благодаря возможностям глубокого поиска и интеграции информации.
7 месяцев назад
034.8K
Wan2.2-Animate - 通义万相开源的动作生成模型

Wan2.2-Animate - генеративная модель для генерации действий из тунъи Ваньсяна с открытым исходным кодом

Wan2.2-Animate - это модель генерации действий с открытым исходным кодом от Tongyi Wanxiang, поддерживающая два режима: имитацию действий и ролевую игру. Пользователям нужно только ввести изображение персонажа и эталонное видео, модель может перенести движения и выражения видео персонажа на изображение персонажа, придавая изображению персонажа динамическое выражение...
6 месяцев назад
034.8K
DiaMoE-TTS - 清华联合巨人网络开源的多方言语音合成框架

DiaMoE-TTS - фреймворк для синтеза речи с открытым исходным кодом из нескольких диалектов, разработанный компаниями Tsinghua и Giant Network

DiaMoE-TTS - это система синтеза речи для нескольких диалектов, созданная совместно Университетом Цинхуа и Giant Network на основе Международного фонетического алфавита (IPA) для решения проблем нехватки диалектных данных, несоответствия орфографии и сложности фонологических изменений. Благодаря единому стандартизированному представлению фонем на основе IPA, устраняются междиалектные различия ...
5 месяцев назад
034.3K
Stand-In - 腾讯微信视觉开源的轻量级视频生成框架

Stand-In - Tencent WeChat Visual Open Source Lightweight Video Generation Framework

Stand-In - это легкий и простой в использовании фреймворк для создания видео с сохранением идентификационных данных от команды WeChat Vision компании Tencent. Сосредоточившись на сохранении специфических особенностей личности при генерации видео, он требует лишь обучения дополнительных параметров базовой модели 1% и позволяет добиться отличных результатов в схожести и естественности лиц.
6 месяцев назад
034.2K
DeepSeek-V3.1-Terminus - DeepSeek推出的最新版AI模型

DeepSeek-V3.1-Terminus - последняя версия модели искусственного интеллекта, представленная компанией DeepSeek.

DeepSeek-V3.1-Terminus - это обновленная версия DeepSeek-V3.1, языковой модели искусственного интеллекта от команды DeepSeek. Модель была оптимизирована с точки зрения согласованности языка, генерации кода и возможностей поиска для более точного...
6 месяцев назад
034.2K
Qwen-Image-Layered - 阿里团队开源的AI图像编辑模型

Qwen-Image-Layered - модель редактирования изображений с искусственным интеллектом, открытая командой Ali

Qwen-Image-Layered - это модель редактирования изображений с открытым исходным кодом от команды Ali, которая интеллектуально разбивает обычные изображения на независимые прозрачные слои для достижения точности редактирования, подобной Photoshop. Модель имеет открытый исходный код по протоколу Apache 2.0 и поддерживает гибкое управление слоями...
3 месяца назад
034K
Ouro - 字节跳动Seed团队开源的新型循环语言模型

Ouro - новая циклическая языковая модель с открытым исходным кодом от команды ByteHopper Seed

Ouro - это новый тип Looped Language Models (LLMs), разработанный командой ByteDance Seed, основной инновацией которого является непосредственное построение возможностей вывода на этапе предварительного обучения с помощью рекуррентной вычислительной структуры с общим доступом к параметрам. Модель использует 24 слоя в качестве базового блока, через...
4 месяца назад
034K
Lynx - 字节跳动开源的高保真视频生成模型

Lynx - модель генерации видео высокой точности с открытым исходным кодом от ByteHop

Lynx - это модель генерации персонализированного видео с высокой точностью и открытым исходным кодом от ByteDance, которая может генерировать видео, соответствующее личности, используя только одну портретную фотографию. Построенная на основе базовой модели диффузионного трансформатора (DiT), введение ID-адаптера и Ref-адаптера...
6 месяцев назад
033.9K
XTuner V1 - 上海AI Lab开源的大模型训练引擎

XTuner V1 - открытый движок Shanghai AI Lab для обучения больших моделей

XTuner V1 - это новое поколение движка для обучения больших моделей с открытым исходным кодом Шанхайской лаборатории искусственного интеллекта, предназначенного для обучения сверхбольших моделей с разреженными смешанными экспертами (MoE). Разработанный на основе PyTorch FSDP, он достигает высокой производительности за счет многомерной оптимизации памяти, связи и нагрузки...
6 месяцев назад
033.9K
SongBloom - 腾讯联合港中文、南大开源的歌曲生成模型

SongBloom - модель генерации песен с открытым исходным кодом от Tencent в сотрудничестве с HKCS и NTU

SongBloom - это модель генерации песен с открытым исходным кодом, разработанная Tencent AI Lab в сотрудничестве с Китайским университетом Гонконга (Шэньчжэнь) и Нанкинским университетом, которая решает проблему "пластичности" в генерации музыки ИИ и обеспечивает высококачественную, структурно полную генерацию песен. Просто введите 10 секунд эталонного аудио и соответствующий текст, и вы сможете...
5 месяцев назад
033.8K
Step-GUI - 阶跃星辰开源的AI Agent系列模型

Step-GUI - Step-Star - модели серии агентов ИИ с открытым исходным кодом

Step-GUI - это серия моделей агентов искусственного интеллекта с открытым исходным кодом от Step-Star, включающая облачную модель Step-GUI, первый протокол MCP для агентов GUI, и первую в отрасли модель Step-GUI Edge с открытым исходным кодом для поддержки развертывания мобильных телефонов.Специализированная...
3 месяца назад
033.6K
LongCat-Video-Avatar - 美团开源的虚拟人视频生成模型

LongCat-Video-Avatar - модель генерации видео аватаров с открытым исходным кодом Meituan

LongCat-Video-Avatar - это продвинутая модель создания видео на основе звука, построенная на базе LongCat-Video с открытым исходным кодом от Meituan, ориентированная на создание гиперреалистичных, синхронизированных по губам длинных видео с естественной динамикой и последовательной идентичностью.
3 месяца назад
033.6K
Ming-UniAudio - 蚂蚁开源的统一音频多模态生成模型

Ming-UniAudio - Ant Open Source Unified Audio Multimodal Generation Model

Ming-UniAudio - это унифицированная мультимодальная модель генерации звука с открытым исходным кодом от Ant Group, которая поддерживает смешанный ввод и вывод текста, аудио, изображений и видео. Используя многомасштабную архитектуру трансформатора и смешанного эксперта (MoE), с помощью механизма маршрутизации с учетом модальностей для эффективной обработки кросс-модальных ...
5 месяцев назад
033.6K
DreamOmni2 - 港科大开源的多模态AI图像编辑与生成模型

DreamOmni2 - модель редактирования и генерации мультимодальных изображений ИИ с открытым исходным кодом HKUST

DreamOmni2 - это мультимодальная модель редактирования и генерации изображений с открытым исходным кодом, созданная командой Цзяцзя в HKUST. Она может одновременно обрабатывать текстовые и графические команды, а также поддерживает несколько опорных изображений, предоставляя создателям более гибкие возможности для творчества. Модель обучается с помощью трехэтапного процесса синтеза данных, совместного обучения генерации/редактирования...
5 месяцев назад
033.5K
VoxCPM 1.5 - 面壁智能开源的端到端文本到语音模型

VoxCPM 1.5 - Faceted Intelligence с открытым исходным кодом для конечного моделирования преобразования текста в речь

VoxCPM 1.5 - это модель генерации речи с открытым исходным кодом, выпущенная Facade Intelligence, основанная на технологии преобразования текста в речь (TTS) без необходимости использования разделителя, с несколькими нововведениями и улучшениями. Используя сквозную диффузионную авторегрессионную архитектуру, она генерирует непрерывные речевые волны непосредственно из текста, избегая ограничений традиционных методов сегментации...
3 месяца назад
033.4K
MiniCPM 4.1 - 面壁智能推出的超高效端侧大模型

MiniCPM 4.1 - сверхэффективное макромоделирование с торцевой стороны с помощью технологии Facing Face Intelligence

MiniCPM 4.1 - это сверхэффективная конечная модель большого языка, представленная компанией Facade Intelligence. Благодаря архитектуре разреженного внимания InfLLM v2, каждой лексеме требуется вычислять корреляцию только с менее чем 5% лексем, что значительно снижает затраты на обработку длинных текстов. В сценарии с длинным текстом объемом 128K...
6 месяцев назад
033.3K