Не можете найти инструменты искусственного интеллекта? Попробуйте здесь!

Просто введите ключевое слово Доступность Bing SearchРаздел "Инструменты искусственного интеллекта" - это быстрый и простой способ найти все инструменты искусственного интеллекта на этом сайте.

Open-o3 Video - 北大联合字节开源的视频推理模型

Open-o3 Video - модель рассуждений о видео с открытым исходным кодом Пекинского университета Объединенные байты

Open-o3 Video - это модель вывода видео с открытым исходным кодом, разработанная совместно Пекинским университетом и ByteDance и направленная на улучшение вывода видео с помощью временных и пространственных данных. Явное обозначение ключевых свидетельств временными метками и ограничительными рамками помогает модели лучше понимать и интерпретировать видеоконтент.
4 месяца назад
024.5K
Handy - 开源免费的本地AI语音转文字工具

Handy - бесплатный инструмент для преобразования речи в текст с открытым исходным кодом на основе искусственного интеллекта

Handy - это бесплатный локальный инструмент преобразования речи в текст с открытым исходным кодом, поддерживающий системы Windows, MacOS и Linux, разработанный на Rust и React. Обрабатывая голосовые данные локально, без загрузки в облако, он гарантирует конфиденциальность и безопасность, а также подходит для быстрой транскрипции и ввода текста.
4 месяца назад
050.5K
FG-CLIP 2 - 360开源的图文跨模态视觉语言模型

FG-CLIP 2 - 360 Open Source Cross-Modal Visual Language Model for Graphics

FG-CLIP 2 - ведущая в мире графическая кросс-модальная модель визуального языка (VL-M), созданная 360 Artificial Intelligence Research Institute, превосходящая аналогичные модели от Google и Meta в 29 авторитетных бенчмарках, что делает ее самой мощной VL-M на сегодняшний день.Она способна точно определить грубые...
4 месяца назад
025.1K
朴素贝叶斯(Naive Bayes)是什么,一文看懂

Что такое Naive Bayes в одной статье?

Алгоритм Naive Bayes - это алгоритм контролируемого обучения, основанный на теореме Байеса. "Наивный Байес" основан на теореме Байеса и предполагает, что признаки условно независимы друг от друга. Упрощение предположений значительно снижает вычислительную сложность и делает алгоритм эффективным в практических приложениях.
4 месяца назад
030K
K均值聚类(K-Means Clustering)是什么,一文看懂

Что такое кластеризация K-Means (кластеризация K-Means) в одной статье?

Кластеризация K-Means (K-Means Clustering) - это классический алгоритм машинного обучения без контроля. В основном он используется для разделения набора данных на K неравнозначных кластеров. Цель алгоритма - распределить n точек данных по K кластерам таким образом, чтобы каждая точка данных принадлежала кластеру, соответствующему ближайшему к ней центру кластера.
4 месяца назад
024.1K
微舆BettaFish - 开源的多智能体舆情分析系统

Micro Opinion BettaFish - мультиинтеллектуальная система анализа мнений с открытым исходным кодом

BettaFish - это мультиинтеллектуальная система анализа мнений с открытым исходным кодом. Используя многоинтеллектуальную архитектуру, агенты Query, Media, Insight, Report и другие работают вместе, чтобы достичь замкнутого цикла поиска, извлечения и отчетности. Система поддерживает управляемую искусственным интеллектом полную ...
4 месяца назад
055.1K
Ouro - 字节跳动Seed团队开源的新型循环语言模型

Ouro - новая циклическая языковая модель с открытым исходным кодом от команды ByteHopper Seed

Ouro - это новый тип Looped Language Models (LLMs), разработанный командой ByteDance Seed, основной инновацией которого является непосредственное построение возможностей вывода на этапе предварительного обучения с помощью рекуррентной вычислительной структуры с общим доступом к параметрам. Модель использует 24 слоя в качестве базового блока, через...
4 месяца назад
033.5K
ChronoEdit - 英伟达与多伦多大学联合开源的AI图像编辑框架

ChronoEdit - ИИ-фреймворк для редактирования изображений с открытым исходным кодом от NVIDIA и Университета Торонто

ChronoEdit, система редактирования изображений с открытым исходным кодом, разработанная NVIDIA совместно с Университетом Торонто, переопределяет задачу редактирования изображений как задачу генерации видео, чтобы обеспечить временное и физическое соответствие результатов редактирования. Путем дистилляции предварительно обученной модели генерации видео с 14B параметрами из...
4 месяца назад
029.9K
LongCat-Flash-Omni - 美团开源的全模态大语言模型

LongCat-Flash-Omni - полностью модальная модель большого языка для Meituan с открытым исходным кодом

LongCat-Flash-Omni - это полностью модальная модель большого языка с открытым исходным кодом, выпущенная командой LongCat из Meituan. С масштабом параметров 560 миллиардов (27 миллиардов активированных параметров) она позволяет достичь миллисекундного уровня взаимодействия в реальном времени с аудио и видео при сохранении большого количества параметров.
4 месяца назад
027.9K
Petri - Anthropic开源的 AI 安全审计框架

Petri - система аудита безопасности ИИ с открытым исходным кодом от Anthropic

Petri - это система аудита безопасности ИИ с открытым исходным кодом, разработанная компанией Anthropic, которая систематически оценивает безопасность и поведенческую согласованность моделей ИИ. Имитируя реальный сценарий, в котором автоматический аудитор проводит несколько раундов диалога с целевой моделью, а затем агент-судья действует на...
4 месяца назад
024.5K
前馈神经网络(Feedforward Neural Network)是什么,一文看懂

Что такое нейронная сеть с прямолинейным движением (FNN) в одной статье?

Нейронная сеть с прямой связью (FNN) - основная и широко используемая модель искусственной нейронной сети. Основная особенность заключается в том, что связи в сети не образуют никаких петель или путей обратной связи, а информация поступает строго однонаправленно от входного слоя к выходному слою через...
4 месяца назад
026.9K
卷积神经网络(Convolutional Neural Network)是什么,一文看懂

Что такое конволюционная нейронная сеть (CNN), в одной статье

Конволюционная нейронная сеть (CNN), искусственная нейронная сеть, специально разработанная для обработки данных с решетчатой структурой, отлично зарекомендовала себя в области анализа изображений и видео.
4 месяца назад
024.8K
Kimi Linear - 月之暗面开源的新型混合线性注意力架构

Kimi Linear - новая гибридная архитектура линейного внимания с открытым исходным кодом на темной стороне Луны

Kimi Linear - это новая гибридная архитектура линейного внимания с открытым исходным кодом от Dark Side of the Moon, в основе которой лежит Kimi Delta Attention (KDA), оптимизирующая традиционную модель внимания за счет более тонкого механизма регулировки, значительно повышающего эффективность аппаратного обеспечения и возможности управления памятью...
4 месяца назад
036.4K
FIBO - 全球首个开源原生支持JSON的文本生成图像模型

FIBO - первая в мире программа с открытым исходным кодом, поддерживающая JSON-текст для создания моделей изображений.

FIBO - это первая в мире модель изображений для генерации текста с открытым исходным кодом и поддержкой JSON, разработанная компанией Bria AI. Основанная на архитектуре DiT (Diffusion Transformer) с 8B параметрами, она использует метод обучения Flow Matching...
4 месяца назад
028.6K
SoulX-Podcast - Soul AI Lab开源的对话式语音合成模型

SoulX-Podcast - модель синтеза разговорной речи от Soul AI Lab с открытым исходным кодом

SoulX-Podcast - это продвинутая модель синтеза разговорной речи с открытым исходным кодом от Soul AI Lab, предназначенная для создания высококачественного подкаст-контента. SoulX-Podcast способна генерировать несколько раундов диалога и имитировать плавный диалог в реальных сценариях подкастинга, поддерживая мандаринский, английский и несколько китайских...
4 месяца назад
037.2K
GigaBrain-0 - 开源的具身基础模型,由世界模型生成数据驱动

GigaBrain-0 - базовая воплощенная модель с открытым исходным кодом, управляемая данными генерации модели мира

GigaBrain-0 - первая в Китае сквозная воплощенная базовая модель Vision-Language-Action (VLA), использующая мировые данные о генерации моделей для достижения реального машинного обобщения и совместно выпущенная с открытым исходным кодом компаниями GigaVision и Hubei Humanoid Robotics Innovation Centre. В ней используется гибридная архитектура Transformer, объединяющая ...
4 месяца назад
024.2K
Ming-flash-omni-Preview - 蚂蚁集团开源的全模态大模型

Ming-flash-omni-Preview - макромодель Ant Group с открытым исходным кодом и полной модальностью

Ming-flash-omni-Preview - полномодальная макромодель с открытым исходным кодом, выпущенная Ant Group inclusionAI, с масштабом параметров в сотни миллиардов, основанная на разреженной MoE архитектуре Ling 2.0, с общими параметрами 103B и активациями 9B...
4 месяца назад
029.8K
OmniVinci - NVIDIA开源的全模态大语言模型

OmniVinci - Омнимодальная модель большого языка с открытым исходным кодом от NVIDIA

OmniVinci - это крупномасштабная языковая модель с открытым исходным кодом, полностью модальная, разработанная NVIDIA, которая решает проблему модальной фрагментации в мультимодальных моделях с помощью архитектурных инноваций и оптимизации данных. Выравнивание визуальных и аудио вкраплений улучшено с помощью OmniAlignNet, которая использует временной групповой захват...
5 месяцев назад
029.1K
olmOCR 2 - AI2开源的多模态文档解析模型

olmOCR 2 - модель мультимодального разбора документов с открытым исходным кодом AI2

olmOCR 2 - это мультимодальная модель разбора документов с открытым исходным кодом от Института искусственного интеллекта Аллена (AI2), которая является обновленной версией olmOCR. Оцифрованные печатные документы (например, PDF) будут иметь высокую...
5 месяцев назад
035.7K
ValueCell - 开源的多智能体金融平台,多个Agent分工协作

ValueCell - многоинтеллектуальная финансовая платформа с открытым исходным кодом и совместной работой нескольких агентов

ValueCell - это финансовая платформа с открытым исходным кодом, повышающая эффективность финансового анализа и управления инвестициями с помощью технологии искусственного интеллекта. Имитируя профессиональную инвестиционную команду, множество интеллектов ИИ работают вместе, охватывая анализ рынка, анализ настроений, фундаментальные исследования, автоматическую торговлю и другие функции, предоставляя пользователям всесторонний...
5 месяцев назад
054.2K
Dexbotic - 原力灵机开源的具身智能VLA模型一站式科研服务平台

Dexbotic - машина Силы Духа с открытым исходным кодом воплощенного интеллекта VLA модель универсальной платформы исследовательских услуг

Dexbotic - это сервисная платформа с открытым исходным кодом Visual-Linguistic-Action (VLA) model of embodied intelligence one-stop research service platform компании Dexmal, которая решает проблемы фрагментации и низкой эффективности исследований в области воплощенного интеллекта. Основанная на PyTorch, Dexbotic является универсальной платформой исследовательского сервиса для решения проблем фрагментации и низкой эффективности исследований в области воплощенного интеллекта...
5 месяцев назад
026.3K
LongCat-Video - 美团LongCat开源的视频生成模型

LongCat-Video - LongCat - модель генерации видео с открытым исходным кодом Mission

LongCat-Video - это модель генерации видео с открытым исходным кодом на 1,36 миллиарда параметров, созданная командой LongCat по протоколу MIT с открытым исходным кодом и поддерживающая три основные задачи: генерация видео с текстом, генерация видео с графом и продолжение видео. Модель, благодаря стратегии генерации "от грубого к тонкому" и блочному механизму разреженного внимания, может в течение нескольких минут ...
5 месяцев назад
048.4K
DreamOmni2 - 港科大开源的多模态AI图像编辑与生成模型

DreamOmni2 - модель редактирования и генерации мультимодальных изображений ИИ с открытым исходным кодом HKUST

DreamOmni2 - это мультимодальная модель редактирования и генерации изображений с открытым исходным кодом, созданная командой Цзяцзя в HKUST. Она может одновременно обрабатывать текстовые и графические команды, а также поддерживает несколько опорных изображений, предоставляя создателям более гибкие возможности для творчества. Модель обучается с помощью трехэтапного процесса синтеза данных, совместного обучения генерации/редактирования...
5 месяцев назад
033.4K
交叉验证(Cross-Validation)是什么,一文看懂

Кросс-валидация (Cross-Validation) - что это такое, статья для ознакомления

Перекрестная валидация - это основной метод оценки обобщающей способности модели в машинном обучении. Основная идея заключается в том, чтобы разделить исходные данные на обучающее и тестовое множество и получить более надежные оценки эффективности путем чередования обучения и проверки с использованием различных подмножеств данных. Этот подход имитирует ...
5 месяцев назад
028.2K
随机森林(Random Forest)是什么,一文看懂

Что такое случайный лес (Random Forest), статья для чтения и понимания

Random Forest (Случайный лес) - это интегрированный алгоритм обучения, который решает задачу машинного обучения путем построения нескольких деревьев решений и объединения их прогнозов. Алгоритм основан на идее агрегирования Bootstrap, когда из исходного набора данных случайным образом берется несколько подмножеств образцов с возвратом для каждого дерева...
5 месяцев назад
025.8K
损失函数(Loss Function)是什么,一文看懂

Функция потерь (Функция потерь) - что это такое, статья для ознакомления

Функция потерь (LF) - одно из основных понятий в машинном обучении и выполняет важную задачу количественной оценки ошибки предсказания модели. Эта функция математически измеряет степень разницы между предсказанным моделью значением и истинным значением, обеспечивая четкое направление для оптимизации модели.
5 месяцев назад
024.7K
混元世界模型1.1 - 腾讯混元发布的开源3D重建大模型

Модель смешанного мира 1.1 - Tencent Mixed World выпустила открытую 3D-реконструированную большую модель

WorldMirror 1.1 (WorldMirror) - это 3D-реконструкция больших моделей с открытым исходным кодом, выпущенная командой Tencent's WorldMirror, которая является обновленной версией серии WorldMirror. Она поддерживает многоракурсные изображения, видео и мультимодальные априорные данные, такие как положение камеры, внутренняя ссылка, карта глубины и т. д. Она преодолевает традиционную 3D-реконструкцию, которая полагается только на...
5 месяцев назад
032.4K
DeepSeek-OCR - DeepSeek开源的光学字符识别模型

DeepSeek-OCR - модель оптического распознавания символов с открытым исходным кодом DeepSeek

DeepSeek-OCR - это усовершенствованная модель оптического распознавания символов (OCR), открытая командой DeepSeek, которая преобразует текст в изображения с помощью технологии "контекстного оптического сжатия" и использует визуальные маркеры для сжатия и декодирования для эффективной обработки длинных текстов.
5 месяцев назад
037.5K
VitaBench - 美团LongCat开源的交互式Agent评测基准

VitaBench - бенчмарки MMT LongCat Open Source Interactive Agent Review

VitaBench - это первый интерактивный эталон оценки агентов для сложных жизненных сценариев, выпущенный командой LongCat компании Meituan и оценивающий всесторонние возможности больших модельных интеллектов в реальных жизненных сценариях. В качестве носителей для создания пакетов используются три высокочастотных жизненных сценария: заказ еды на вынос, обед в ресторане и путешествие...
5 месяцев назад
029.3K
MinerU2.5 - 上海AI Lab联合北大开源的文档解析模型

MinerU2.5 - открытая модель синтаксического анализа документов из Шанхайской лаборатории искусственного интеллекта и Пекинского университета

MinerU2.5 - это модель визуального языка, разработанная совместно Шанхайской лабораторией искусственного интеллекта и командой Пекинского университета и направленная на эффективный разбор изображений документов высокого разрешения. Основная инновация заключается в двухфазном дизайне "обнаружение глобального расположения с последующим распознаванием локального содержания": первая фаза представляет собой низкое разрешение...
5 месяцев назад
042.1K
LongCat-Audio-Codec - 美团LongCat开源的语音编解码方案

LongCat-Audio-Codec - голосовой кодек LongCat с открытым исходным кодом для Meituan

LongCat-Audio-Codec - это речевой кодек с открытым исходным кодом от команды LongCat из Meituan. Решение предназначено для Speech Large Language Model (Speech LLM), посредством семантического и акустического механизма параллельного извлечения Token, учитывающего семантические и акустические особенности речи ...
5 месяцев назад
027.5K
PaddleOCR-VL - 百度开源的超轻量级视觉-语言模型

PaddleOCR-VL - ультралегкие визуально-лингвистические модели с открытым исходным кодом от Baidu

PaddleOCR-VL - это ультралегкая визуально-лингвистическая модель Baidu с открытым исходным кодом, оптимизированная для сценариев парсинга документов. Модель содержит всего 0,9 Б параметров, благодаря слиянию динамического визуального кодера высокого разрешения и легкой языковой модели ERNIE, сохраняя при этом высокую точность и значительно снижая вычислительные затраты.
5 месяцев назад
043.6K
UniPixel - 香港理工、腾讯、中科院等开源的像素级多模态模型

UniPixel - мультимодальная модель на уровне пикселя с открытым исходным кодом от Гонконгского политехнического института, Tencent, CAS и др.

UniPixel - это новая мультимодальная модель, совместно предложенная Гонконгским политехническим университетом, компанией Tencent, Китайской академией наук и компанией Vivo для достижения понимания визуального языка на уровне пикселей. Объединяя возможности привязки к объектам и сегментации, она поддерживает различные тонкие задачи, такие как сегментация изображений, сегментация видео, понимание регионов и пи...
5 месяцев назад
032.8K
DiaMoE-TTS - 清华联合巨人网络开源的多方言语音合成框架

DiaMoE-TTS - фреймворк для синтеза речи с открытым исходным кодом из нескольких диалектов, разработанный компаниями Tsinghua и Giant Network

DiaMoE-TTS - это система синтеза речи для нескольких диалектов, созданная совместно Университетом Цинхуа и Giant Network на основе Международного фонетического алфавита (IPA) для решения проблем нехватки диалектных данных, несоответствия орфографии и сложности фонологических изменений. Благодаря единому стандартизированному представлению фонем на основе IPA, устраняются междиалектные различия ...
5 месяцев назад
034.2K
Kandinsky 5.0 - 俄罗斯AI团队开源的视频生成模型系列

Кандинский 5.0 - серия моделей генерации видео с открытым исходным кодом от российской команды ИИ

Kandinsky 5.0 - это новейшая серия моделей поколения видео, разработанная российской командой искусственного интеллекта и ориентированная на легкий дизайн и высокую производительность. Первая модель серии, Kandinsky 5.0 Video Lite, имеет всего 2 миллиарда параметров, но превосходит аналогичные модели 14B, особенно...
5 месяцев назад
041.7K
SongBloom - 腾讯联合港中文、南大开源的歌曲生成模型

SongBloom - модель генерации песен с открытым исходным кодом от Tencent в сотрудничестве с HKCS и NTU

SongBloom - это модель генерации песен с открытым исходным кодом, разработанная Tencent AI Lab в сотрудничестве с Китайским университетом Гонконга (Шэньчжэнь) и Нанкинским университетом, которая решает проблему "пластичности" в генерации музыки ИИ и обеспечивает высококачественную, структурно полную генерацию песен. Просто введите 10 секунд эталонного аудио и соответствующий текст, и вы сможете...
5 месяцев назад
033.7K
Pyscn - 专为Python开发者开源的免费AI代码质量分析工具

Pyscn - бесплатный инструмент анализа качества AI-кода с открытым исходным кодом для разработчиков на Python

Pyscn - это интеллектуальный инструмент анализа качества кода, предназначенный для разработчиков на Python для обнаружения потенциальных проблем в коде с целью улучшения его сопровождаемости. Он анализирует мертвый код с помощью диаграмм потока управления, выявляет дубликаты кода с помощью алгоритма APTED+LSH, вычисляет такие метрики, как связь модулей и сложность круга...
5 месяцев назад
025.9K
Youtu-Embedding - 腾讯优图开源的通用文本表示模型

Youtu-Embedding - Tencent Youtu Open Source Универсальная модель представления текста

Youtu-Embedding - это универсальная модель представления текста с открытым исходным кодом от Tencent's Youtu Labs, предназначенная для корпоративных приложений. Текст отображается в векторное пространство высокой размерности с помощью глубоких нейронных сетей, так что семантически схожие предложения оказываются ближе друг к другу в этом пространстве, что позволяет добиться точного семантического поиска.
5 месяцев назад
031.6K
SAIL-VL2 - 字节跳动开源的多模态视觉语言模型

SAIL-VL2 - мультимодальная модель визуального языка с открытым исходным кодом от ByteHop

SAIL-VL2 - это мультимодальная модель визуального языка с открытым исходным кодом, разработанная командой Byte Jump и ориентированная на совместное моделирование мультимодальных входных данных, таких как изображения и текст. Используя архитектуру разреженной смеси экспертов (MoE) и стратегию прогрессивного обучения, она достигает высокой производительности при масштабах параметров от 2B до 8B, особенно в областях графического понимания, математического...
5 месяцев назад
024.2K
超参数(Hyperparameter)是什么,一文看懂

Гиперпараметр (Гиперпараметр) - что это, статья для ознакомления и понимания

В машинном обучении гиперпараметр - это параметр конфигурации, который задается вручную перед началом обучения модели, а не извлекается из данных. Главная роль заключается в управлении самим процессом обучения, как бы задавая набор операционных правил для алгоритма. Например, обучение...
5 месяцев назад
027.8K
决策树(Decision Tree)是什么,一文看懂

Дерево решений (Decision Tree) - что это такое, статья, чтобы увидеть и понять

Дерево решений (Decision Tree, DT) - это древовидная прогностическая модель, которая имитирует процесс принятия решений человеком, классифицируя или прогнозируя данные с помощью ряда правил. Каждый внутренний узел представляет собой тест признака, ветви соответствуют результатам теста, а листовые узлы хранят окончательное решение. Этот алгоритм использует стратегию "разделяй и властвуй"...
5 месяцев назад
025.9K
梯度下降(Gradient Descent)是什么,一文看懂

Что такое градиентный спуск (Gradient Descent), статья для чтения и понимания

Градиентный спуск - основной оптимизационный алгоритм для решения задачи о минимуме функции. Алгоритм определяет направление спуска, вычисляя градиент функции (вектор, состоящий из частных производных каждой из них), и итеративно обновляет параметры по правилу θ = θ - η - ∇J(θ).
5 месяцев назад
026.1K
MineContext - 字节开源的主动式上下文感知AI伙伴

MineContext - байтовый партнер по ИИ с открытым исходным кодом и активным контекстом

MineContext - это активный контекстно-ориентированный ИИ-партнер с открытым исходным кодом от команды ByteDance Viking, призванный помочь пользователям эффективно управлять огромными объемами информации и повысить эффективность работы со знаниями. С помощью технологии понимания скриншотов и контента, автоматической записи ежедневных операций пользователя (таких как просмотр веб-страниц, редактирование документов и т.д.), поддержки...
5 месяцев назад
042.9K
nanochat - Karpathy免费开源的低成本模型训练项目

nanochat - бесплатный и открытый проект Карпати по обучению недорогим моделям

nanochat - это проект с открытым исходным кодом, созданный легендой ИИ и бывшим директором Tesla AI Андреем Карпати, который позволяет людям быстро обучить небольшую языковую модель, подобную ChatGPT, при очень низких затратах и простоте. Весь проект использует всего около 800...
5 месяцев назад
030.8K
LLaVA-OneVision-1.5 - 免费开源的多模态模型,高性能多模态理解

LLaVA-OneVision-1.5 - бесплатная мультимодальная модель с открытым исходным кодом для высокопроизводительного мультимодального понимания

LLaVA-OneVision-1.5 - мультимодальная модель с открытым исходным кодом, разработанная командой EvolvingLMMS-Lab, использующая шкалу параметров 8B и прошедшая компактный трехэтапный процесс обучения (выравнивание языка и изображения, концептуальное уравновешивание и введение знаний, а также тонкая настройка инструкций) на 128 A800...
5 месяцев назад
029.5K
逻辑回归(Logistic Regression)是什么,一文看懂

Что такое логистическая регрессия (Логистическая регрессия), статья для чтения и понимания

Логистическая регрессия - это метод статистического обучения, используемый для решения задач бинарной классификации. Основная цель - предсказать вероятность принадлежности образца к определенной категории на основе входных признаков. Модель отображает линейный выходной сигнал между 0 и 1 путем линейного объединения собственных значений с помощью S-образной функции...
5 месяцев назад
025.1K
Paper2Video - 新加坡国立开源的学术论文自动生成演示视频项目

Paper2Video - проект NUS с открытым исходным кодом для автоматического создания демонстрационных видеороликов научных статей

Paper2Video - это проект с открытым исходным кодом для автоматизированного создания презентационных видеороликов для научных работ в лаборатории Show Lab, Национальный университет Сингапура. С помощью мультиинтеллектуального фреймворка PaperTalker статьи превращаются в полноценные презентационные видеоролики, содержащие слайды, субтитры, голос за кадром и аватар докладчика...
5 месяцев назад
031.9K
NeuTTS Air - 支持离线CPU运行的免费轻量级语音合成模型

NeuTTS Air - бесплатная и легкая модель синтеза речи с поддержкой автономной работы на процессоре

NeuTTS Air - это модель синтеза речи с открытым исходным кодом, разработанная командой Neuphonic, которая может работать в режиме реального времени на локальных устройствах (например, мобильных телефонах, ноутбуках, Raspberry Pi), не завися от облака. Используя 0,5B-параметрическую архитектуру Qwen и самостоятельно разработанный кодек NeuCodec...
5 месяцев назад
036.7K
KAT-Dev-72B-Exp - 快手开源的免费编程专用模型

KAT-Dev-72B-Exp - модель Racer с открытым исходным кодом для свободного программирования

KAT-Dev-72B-Exp - это модель большого языка программирования с открытым исходным кодом, созданная командой Racer, оптимизированная на основе методов обучения с подкреплением, которая достигла точности 74,6% в бенчмарке SWE-Bench Verified, что на данный момент является лучшим показателем среди моделей с открытым исходным кодом. Модель использует инновационные...
5 месяцев назад
029.2K
Jamba Reasoning 3B - 以色列AI21 Labs开源的轻量级推理模型

Jamba Reasoning 3B - израильская модель рассуждений с открытым исходным кодом от AI21 Labs

Jamba Reasoning 3B - это легкая модель умозаключений с открытым исходным кодом, созданная израильским ИИ-стартапом AI21 Labs, обладающая высокой производительностью и потенциалом для широкого спектра приложений. Она использует гибридную архитектуру SSM-Transformer, которая сочетает в себе транс...
5 месяцев назад
026.2K
吴恩达的《Agentic AI》最新智能体免费课程

Бесплатный курс по новейшим интеллектам от Agentic AI Эрнста Ву

Agentic AI - это новейший курс по интеллектуальным телам, запущенный Эрнестом Нг. Курс посвящен проектированию и созданию интеллектуальных тел, охватывая четыре паттерна проектирования: размышление, использование инструментов, планирование и совместная работа нескольких интеллектуальных тел. Учащиеся узнают, как сделать интеллектуальные тела, проверяющие выходы, автономно настраивающиеся с помощью теоретических объяснений и практического кода...
5 месяцев назад
047.1K
OpenAgents - 开源免费的构建AI Agent网络开放协作项目

OpenAgents - бесплатный проект с открытым исходным кодом для создания сетей агентов искусственного интеллекта

OpenAgents - это проект с открытым исходным кодом, который создает сеть агентов искусственного интеллекта и способствует открытому сотрудничеству между ними. Предоставляется базовая сетевая инфраструктура, позволяющая агентам ИИ легко соединяться и сотрудничать. Пользователи могут быстро создать свою собственную сеть агентов, расширить функциональность за счет модульной архитектуры, поддерживать...
5 месяцев назад
027.9K
Androidify - 谷歌开源如何在Android上构建AI应用的免费资源

Androidify - бесплатные ресурсы Google по созданию приложений с искусственным интеллектом на Android

Androidify - это проект Google с открытым исходным кодом, помогающий разработчикам научиться создавать приложения с искусственным интеллектом на Android. В проекте используются новейшие технологии Google, такие как Jetpack Compose, Gemini API (через Fire...
5 месяцев назад
029.6K
正则化(Regularization)是什么,一文看懂

Регуляризация (Регуляризация) - что это такое, статья для ознакомления

Регуляризация - один из основных методов машинного обучения и статистики, позволяющий предотвратить чрезмерную подгонку модели. Регуляризация контролирует степень подгонки путем добавления штрафного члена к объективной функции, связанного со сложностью модели. Распространенные формы включают регуляризацию L1 и L2: L1 создает разреженные решения и применяет...
5 месяцев назад
028.8K
生成对抗网络(Generative Adversarial Network)是什么,一文看懂

Что такое генеративная адверсарная сеть (GAN) в одной статье?

Генеративная адверсарная сеть (GAN) - это модель глубокого обучения, предложенная Яном Гудфеллоу и др. в 2014 году. Фреймворк реализует генеративную модель путем обучения двух нейронных сетей друг против друга...
5 месяцев назад
028K
Ling-1T - 蚂蚁集团开源的万亿参数通用语言模型

Ling-1T - универсальная модель языка с открытым исходным кодом от Ant Group с триллионами параметров

Ling-1T - универсальная языковая модель с триллионом параметров, открытая компанией Ant Group и являющаяся флагманским продуктом серии больших моделей Ling 2.0 компании Bering. Модель использует высокоэффективную архитектуру MoE, поддерживает 128K контекстных окон и превосходит GPT в 7 бенчмарках, включая генерацию кода, математические рассуждения и логические тесты...
5 месяцев назад
053.1K
聆音EchoCare - 香港科学院开源的超声基座大模型

EchoCare - Гонконгская академия наук с открытым исходным кодом Большая модель ультразвуковой базы

EchoCare - это большая модель ультразвуковой базы, разработанная Центром искусственного интеллекта и робототехники (CAIR) Гонконгского института инноваций и исследований Китайской академии наук (CAS), обученная на крупнейшем в мире наборе данных ультразвуковых изображений (более 4,5 миллионов изображений), охватывающем мультицентровые, мультирегиональные, мультиэтнические и более 50 индивидуальных...
5 месяцев назад
030.3K
自注意力(Self-Attention)是什么,一文看懂

Самонаблюдение (Self-Attention) - что это такое, статья для чтения и понимания

Самостоятельное внимание - ключевой механизм глубокого обучения, изначально предложенный и широко используемый в архитектуре Transformer. Основная идея заключается в том, чтобы позволить модели одновременно посещать все позиции во входной последовательности и вычислять каждую позицию путем взвешенного агрегирования...
5 месяцев назад
037.7K
Code2Video - Show Lab开源的AI教学视频生成框架

Code2Video - открытый фреймворк для создания обучающего видео с искусственным интеллектом от Show Lab

Code2Video - это инновационный проект с открытым исходным кодом, который автоматически преобразует фрагменты кода в высококачественный видеоконтент (формат mp4). Проект использует уникальную парадигму, ориентированную на код, используя инструменты carbon-now-cli для генерации кода в красивые изображения, использование ffmpeg будет этим ...
5 месяцев назад
035.7K
SceneGen - 上海交大开源的单图像生成3D场景框架

SceneGen - открытая платформа для генерации 3D-сцены из одного изображения, созданная Шанхайским университетом Цзяо Тун.

SceneGen - это метод генерации 3D-сцен из одного изображения, разработанный в Шанхайском университете Цзяо Тун. Из одного изображения сцены и маски целевого ресурса эффективно генерируется полная сцена, содержащая множество 3D-ресурсов, включая геометрическую структуру ресурсов, текстуру и относительное пространственное расположение.
5 месяцев назад
026.6K
Ming-UniAudio - 蚂蚁开源的统一音频多模态生成模型

Ming-UniAudio - Ant Open Source Unified Audio Multimodal Generation Model

Ming-UniAudio - это унифицированная мультимодальная модель генерации звука с открытым исходным кодом от Ant Group, которая поддерживает смешанный ввод и вывод текста, аудио, изображений и видео. Используя многомасштабную архитектуру трансформатора и смешанного эксперта (MoE), с помощью механизма маршрутизации с учетом модальностей для эффективной обработки кросс-модальных ...
5 месяцев назад
033.2K
AIMangaStudio - 免费的AI漫画创作工具,提供完整创作流程

AIMangaStudio - бесплатный инструмент для создания манги в формате AI для полного процесса создания!

AIMangaStudio - это бесплатный инструмент для создания манги с искусственным интеллектом, который предоставляет авторам полный цикл создания манги, включая генерацию сюжета, разработку субсцен, создание персонажей и другие функции, что позволяет упростить процесс создания от сценария до страницы манги. Поддержка генерации сценариев комиксов на естественном языке, включая сюжет, диалоги...
5 месяцев назад
039.2K
FireRedChat - 小红书开源的全双工语音交互系统

FireRedChat - система полнодуплексного голосового взаимодействия с открытым исходным кодом от Little Red Book

FireRedChat - это полнодуплексная система голосового взаимодействия с открытым исходным кодом для Xiaohongshu с возможностью двунаправленного диалога в реальном времени и поддержкой контролируемых прерываний. Используя модульный дизайн, включая модуль управления транскрипцией, модуль взаимодействия и менеджер диалога и т.д., поддерживает каскадную и полукаскадную архитектуру, гибкое развертывание.
5 месяцев назад
039.1K
Logics-Parsing - 阿里开源的文档解析模型

Logics-Parsing - модель разбора документов с открытым исходным кодом на Ali

Logics-Parsing - это модель сквозного разбора документов с открытым исходным кодом, основанная на Qwen2.5-VL-7B. Оптимизация анализа макета документа и вывода порядка чтения с помощью обучения с усилением, PDF-изображения могут быть преобразованы в структурированный HTML-вывод, поддержка разнообразного контента ...
5 месяцев назад
038.6K
Ring-1T-preview - 蚂蚁集团开源的万亿参数大模型

Ring-1T-preview - Большая модель с триллионом параметров от Ant Group с открытым исходным кодом

Ring-1T-preview - макромодель с открытым исходным кодом на триллион параметров от Ant Group, основанная на архитектуре Ling 2.0 MoE, предварительно обученная на корпусе 20T и натренированная на способность рассуждать с помощью ASystem, самостоятельно разработанной системы обучения с подкреплением. В рассуждениях на естественном языке ...
5 месяцев назад
046.2K
RoboBrain-X0 - 智源研究院开源的零样本跨本体泛化具身模型

RoboBrain-X0 - исследовательский институт Wisdom Source Research Institute с открытым исходным кодом и нулевым образцом кросс-онтологической обобщенной модели воплощения

RoboBrain-X0 - первая в мире воплощенная модель с открытым исходным кодом, поддерживающая кросс-онтологическое обобщение с нулевой выборкой, открытая исследовательским институтом Wisdom Source Research Institute и имеющая большое промышленное значение. Она может управлять несколькими реальными роботами различных конфигураций для выполнения базовых задач без тонкой настройки, а после небольшой тонкой настройки образца демонстрирует способность воспроизводить ...
5 месяцев назад
031.1K
扩散模型(Diffusion Model)是什么,一文看懂

Диффузионная модель (Модель диффузии) что это такое, статья для чтения и понимания

Модель диффузии - это генеративная модель, специально разработанная для создания новых образцов данных, таких как изображения, аудио или текст. В основе модели лежит процесс диффузии в физике, который имитирует естественную диффузию частиц из области с высокой концентрацией в область с низкой концентрацией. В машине...
5 месяцев назад
038.7K
模型微调(Fine-tuning)是什么,一文看懂

Что такое тонкая настройка в одной статье?

Тонкая настройка модели (Fine-tuning) - это специфическая реализация трансферного обучения в машинном обучении. Основной процесс основан на предварительном обучении моделей, которые используют большие наборы данных для изучения общих закономерностей и развития широких возможностей извлечения признаков. Затем на этапе тонкой настройки вводятся наборы данных по конкретным задачам, чтобы ...
5 месяцев назад
031.1K
Lynx - 字节跳动开源的高保真视频生成模型

Lynx - модель генерации видео высокой точности с открытым исходным кодом от ByteHop

Lynx - это модель генерации персонализированного видео с высокой точностью и открытым исходным кодом от ByteDance, которая может генерировать видео, соответствующее личности, используя только одну портретную фотографию. Построенная на основе базовой модели диффузионного трансформатора (DiT), введение ID-адаптера и Ref-адаптера...
5 месяцев назад
033.7K
Claude Sonnet 4.5 - Anthropic推出的最强AI编程模型

Claude Sonnet 4.5 - самая мощная модель программирования ИИ от Anthropic

Claude Sonnet 4.5 - модель искусственного интеллекта от компании Anthropic, предназначенная для программирования, работы с компьютером и автоматизации сложных задач. Модель отлично справляется с генерацией кода, обработкой длинных задач, рассуждениями и математическими вычислениями, поддерживая все - от начального планирования...
5 месяцев назад
038.7K
DeepSeek-V3.2-Exp - DeepSeek最新开源的实验性AI模型

DeepSeek-V3.2-Exp - новейшая экспериментальная модель искусственного интеллекта DeepSeek с открытым исходным кодом

DeepSeek-V3.2-Exp - экспериментальная модель искусственного интеллекта с открытым исходным кодом от компании DeepSeek, которая значительно повышает эффективность обработки длинных текстов за счет внедрения механизма DeepSeek Sparse Attention (DSA). Модель основана на DeepSeek...
5 месяцев назад
035.3K
HunyuanImage 3.0 - 腾讯开源的免费多模态图像生成模型

HunyuanImage 3.0 - бесплатная мультимодальная модель генерации изображений с открытым исходным кодом от Tencent

HunyuanImage 3.0 (Hunyuan Image 3.0) - нативная мультимодальная модель генерации изображений, выпущенная и открытая компанией Tencent. Размер параметров модели составляет 80B, на данный момент это лучшие результаты оценки, самое большое количество параметров среди моделей генерации изображений с открытым исходным кодом. Hybrid Image 3.0 поддерживает генерацию изображений в режиме реального времени, пользователи могут...
6 месяцев назад
044.9K
Hunyuan3D-Part - 腾讯开源的免费3D组件生成模型

Hunyuan3D-Part - бесплатная модель генерации 3D-компонентов с открытым исходным кодом от Tencent

Hunyuan3D-Part (Hybrid 3D-Part) - это модель 3D-генерации, выпущенная и открытая компанией Tencent. Состоящая из P3 - SAM и X - Part, она впервые достигла высокой точности и управляемости 3D-генерации на основе компонентов, поддерживая 50+ автоматически генерируемых компонентов. Пользователи могут использовать...
6 месяцев назад
044.6K
AudioFly - 科大讯飞开源的文本生成音效AI模型

AudioFly - модель искусственного интеллекта KU Xunfei с открытым исходным кодом для генерации текста и звука

AudioFly - это модель искусственного интеллекта с открытым исходным кодом для генерации звуковых эффектов из текста, разработанная компанией KDDI. Основана на архитектуре потенциальной диффузионной модели с 1 миллиардом параметров, обучена на крупномасштабных разнообразных аудиотекстовых наборах данных, включая публичные наборы данных, такие как AudioSet, AudioCaps, TUT и внутренние...
6 месяцев назад
038.9K
Hunyuan3D-Omni - 腾讯混元开源的3D模型生成框架

Hunyuan3D-Omni - Tencent Mixed Source Open Source 3D Model Generation Framework

Hunyuan3D-Omni (Hybrid 3D-Omni) - это фреймворк с открытым исходным кодом для создания 3D-активов, разработанный командой Tencent's Hybrid 3D, который позволяет точно генерировать 3D-модели с помощью нескольких управляющих сигналов. Основанный на архитектуре Hunyuan3D 2.1, он представляет унифицированный кодер управления, который может обрабатывать точечные...
6 месяцев назад
042.9K
FLM-Audio - 智源联合南洋理工开源的全双工音频对话模型

FLM-Audio - Модель полнодуплексного аудиодиалога (FLM-Audio) с открытым исходным кодом от WisdomSource в сотрудничестве с Наньянгским технологическим институтом (NTI)

FLM-Audio - это нативная полнодуплексная макромодель аудиодиалога, выпущенная Пекинским исследовательским институтом искусственного интеллекта Zhiyuan совместно с Spin Matrix и Наньянгским технологическим университетом Сингапура и поддерживающая китайский и английский языки. Используя родную полнодуплексную архитектуру, она может объединять слушание, говорение и монолог на каждом временном шаге...
6 месяцев назад
035.9K
注意力机制(Attention Mechanism)是什么,一文看懂

Механизм внимания (Механизм внимания) - что это, статья для чтения и понимания

Механизм внимания (Attention Mechanism) - это вычислительная техника, имитирующая человеческие когнитивные процессы, которая изначально применялась в области машинного перевода, а затем стала важной частью глубокого обучения.
6 месяцев назад
037K
Transformer 架构(Transformer Architecture)是什么,一文看懂

Что такое архитектура трансформера в одной статье?

Архитектура Transformer - это модель глубокого обучения, предназначенная для обработки задач, связанных с переходом от последовательности к последовательности, таких как машинный перевод или резюмирование текста. Основная инновация заключается в том, что модель полагается исключительно на механизм самовнимания, отказываясь от традиционных циклов или конволюционных структур. Позволяя модели обрабатывать все элементы последовательности параллельно, большие...
6 месяцев назад
035.7K
预训练模型(Pre-trained Model)是什么,一文看懂

Предварительно обученная модель (Pre-trained Model) что это такое, статья для чтения и понимания

Предварительно обученные модели (PTM) - это фундаментальная и мощная техника в искусственном интеллекте, представляющая собой модели машинного обучения, предварительно обученные на больших массивах данных. Модели формируют широкую базу знаний, обрабатывая огромные объемы информации и изучая общие закономерности и особенности данных...
6 месяцев назад
034.1K
大语言模型(Large Language Model)是什么,一文看懂

Что такое Большая языковая модель (LLM) в одной статье?

Large Language Model (LLM) - это система глубокого обучения, обученная на массивных текстовых данных, в основе которой лежит архитектура Transformer. Механизм самовнимания этой архитектуры позволяет эффективно улавливать дальние зависимости в языке. Модель "большой ...
6 месяцев назад
033.9K
长短期记忆网络(Long Short-Term Memory)是什么,一文看懂

Что такое сеть долговременной памяти (LSTM), статья для чтения и понимания

Long Short-Term Memory (LSTM) - это вариант рекуррентной нейронной сети, специально разработанный для обработки данных о последовательности. В области искусственного интеллекта данные последовательности широко используются в таких задачах, как прогнозирование временных рядов, обработка естественного языка и распознавание речи.
6 месяцев назад
028.9K
CWM - Meta FAIR开源的代码世界语言模型

CWM - Meta FAIR Open Source Code World Language Model

CWM (Code World Model) - это 32-миллиардная модель языка мира с открытым исходным кодом, выпущенная командой Meta FAIR и предназначенная для генерации и обоснования кода. Она вводит понятие "модель мира", которая может имитировать процесс выполнения кода, предсказывать изменения состояния переменных и продвигать...
6 месяцев назад
032.5K
Neovate Code - 蚂蚁开源的智能编程助手

Neovate Code - интеллектуальный помощник программиста Ant Open Source

Neovate Code - это интеллектуальный помощник программирования с открытым исходным кодом от отдела технологий Alipay Experience компании Ant Group, который повышает эффективность разработки с помощью технологии искусственного интеллекта. Благодаря функциям разговорной разработки разработчики могут описывать требования на естественном языке, Neovate Code понимает и генерирует соответствующие...
6 месяцев назад
036.1K
Audio2Face - NVIDIA开源的AI 3D面部动画生成模型

Audio2Face - открытая модель генерации 3D-анимации лица с искусственным интеллектом от NVIDIA

Audio2Face - это инструмент ИИ с открытым исходным кодом от NVIDIA, способный преобразовывать аудиосигнал в реалистичную 3D-анимацию лица. Анализируя особенности речи в аудио, такие как фонемы и интонации, он генерирует точную синхронизацию губ и тонкие эмоциональные выражения, чтобы придать виртуальным персонажам яркую человеческую мимику.
6 месяцев назад
038K
Qwen3-VL - 阿里云通义千问开源的多模态视觉语言大模型

Qwen3-VL - макромодели мультимодального визуального языка с открытым исходным кодом AliCloud Tongyi Qianqian

Qwen3-VL - это мультимодальная модель визуального языка с открытым исходным кодом, разработанная командой AliCloud Tongyi Qianqian, содержащая 235 миллиардов ссылок и около 471 ГБ файлов модели. Содержащая инструкции и версии мышления, она использует улучшенную чередующуюся компоновку MRope, DeepStack и другие технологии, которые могут эффективно использовать визуальные преобразования...
6 месяцев назад
049.8K
Qwen3Guard - 阿里Qwen开源的安全模型

Qwen3Guard - модель безопасности с открытым исходным кодом от Ali Qwen

Qwen3Guard - это модель тонкой защиты, основанная на базовой модели Qwen3 и предназначенная для обнаружения угроз безопасности. Она обеспечивает точную категоризацию запросов и ответов, предоставляет уровни риска и поддерживает английский, китайский и мультиязычные среды.Qwen3Guard доступен в двух про...
6 месяцев назад
040.3K
Qwen3-TTS-Flash - 阿里通义推出的语音合成模型

Qwen3-TTS-Flash - модели синтеза речи от Али Тонги

Qwen3-TTS-Flash - это передовая модель синтеза речи, разработанная Али Тонги, поддерживающая 17 тонов и 10 языков, включая мандаринский, английский, диалекты и т.д. Она обладает отличной стабильностью и высокой выразительностью китайской и английской речи, а также может автоматически регулировать тон голоса, чтобы сделать его более ярким.
6 месяцев назад
050.1K
Qwen3-Omni - 阿里通义推出的全模态AI模型

Qwen3-Omni - омнимодальная модель искусственного интеллекта, представленная Али Тонги

Qwen3-Omni - это полностью модальная модель ИИ, представленная командой Ali Tongyi, которая может работать с несколькими типами данных, такими как текст, изображения, аудио и видео, и поддерживает текстовое взаимодействие на 119 языках с низкой задержкой и высокой управляемостью.
6 месяцев назад
035.3K
DeepSeek-V3.1-Terminus - DeepSeek推出的最新版AI模型

DeepSeek-V3.1-Terminus - последняя версия модели искусственного интеллекта, представленная компанией DeepSeek.

DeepSeek-V3.1-Terminus - это обновленная версия DeepSeek-V3.1, языковой модели искусственного интеллекта от команды DeepSeek. Модель была оптимизирована с точки зрения согласованности языка, генерации кода и возможностей поиска для более точного...
6 месяцев назад
034.1K
联邦学习(Federated Learning)是什么,一文看懂

Что такое федеративное обучение в одной статье?

Federated Learning (FL) - это инновационный подход к машинному обучению, впервые предложенный группой исследователей Google в 2016 году и направленный на решение проблем конфиденциальности данных и распределенных вычислений.
6 месяцев назад
034.5K
Granite-Docling-258M - IBM开源的视觉语言模型

Гранит-Доклинг-258М - Визуальные языковые модели IBM с открытым исходным кодом

Granite-Docling-258M - это ультракомпактная модель визуального языка с открытым исходным кодом от IBM, предназначенная для эффективного преобразования документов. Модель преобразует документы в машиночитаемый формат, сохраняя при этом макет, таблицы, формулы и другие элементы в неизменном виде.
6 месяцев назад
031.6K
Lucy Edit - 开源的AI视频编辑工具,自然语言描述编辑

Lucy Edit - инструмент для редактирования видео с открытым исходным кодом и искусственным интеллектом, редактирование описаний на естественном языке

Lucy Edit - это инструмент для редактирования видео с открытым исходным кодом, разработанный компанией Decart AI. Позволяет пользователям редактировать видео с помощью простых описаний на естественном языке, таких как "изменить персонажа на белого медведя" или "превратить сцену в 2D-мультфильм", без необходимости сложной тонкой настройки или использования масок ...
6 месяцев назад
041.4K
LongCat-Flash-Thinking - 美团开源的高效推理模型

LongCat-Flash-Thinking - эффективная модель рассуждений для Meituan с открытым исходным кодом

LongCat-Flash-Thinking - это эффективная модель рассуждений, выпущенная командой LongCat в рамках Mission LongCat, которая становится все более мощной и профессиональной, сохраняя при этом экстремальную скорость LongCat-Flash-Chat. Модель основана на логике, математике, коде, интеллекте...
6 месяцев назад
031.5K
Ling-V2 - 蚂蚁百灵开源的MoE架构语言模型系列

Ling-V2 - Серия моделей языка архитектуры MoE с открытым исходным кодом Ant-Belling

Ling-V2 - это семейство крупномасштабных языковых моделей, основанных на архитектуре MoE, представленной командой Ant-Belling. Первая версия, Ling-mini-2.0, имеет 16 миллиардов общих параметров, при этом на одну входную лексему активируется только 1,4 миллиарда параметров.
6 месяцев назад
032.6K
Kronos - 清华和微软联合开源的金融K线图基础模型

Kronos - совместная открытая базовая модель финансовой K-диаграммы от Tsinghua и Microsoft

Kronos - это первая базовая модель K-линейного графика для финансового рынка, созданная совместно Университетом Цинхуа и Microsoft Research Asia. Анализируя данные K-линии акций, криптовалют и других активов, включая цену открытия, высокую цену, низкую цену, цену закрытия и объем, она может предсказывать будущее движение цен.
6 месяцев назад
053.6K
Wan2.2-Animate - 通义万相开源的动作生成模型

Wan2.2-Animate - генеративная модель для генерации действий из тунъи Ваньсяна с открытым исходным кодом

Wan2.2-Animate - это модель генерации действий с открытым исходным кодом от Tongyi Wanxiang, поддерживающая два режима: имитацию действий и ролевую игру. Пользователям нужно только ввести изображение персонажа и эталонное видео, модель может перенести движения и выражения видео персонажа на изображение персонажа, придавая изображению персонажа динамическое выражение...
6 месяцев назад
034.7K
Xiaomi-MiMo-Audio - 小米开源的首个原生端到端语音大模型

Xiaomi-MiMo-Audio - первая нативная сквозная речевая модель Xiaomi с открытым исходным кодом

Xiaomi-MiMo-Audio - это макромодель сквозной речи Xiaomi с открытым исходным кодом и 7 миллиардами параметров, обладающая такими мощными функциями, как многоязычный диалог, продолжение речи, обобщение с меньшим количеством образцов и понимание звука, которая способна достичь уровня SOTA в тестах на интеллект речи и понимание звука, превосходя Google Gemi...
6 месяцев назад
037.2K