Последние ресурсы по искусственному интеллекту

共 3094 篇文章
Bee - 腾讯混元联合清华开源的全栈多模态大模型项目

Bee - проект Tencent Mixed Meta и Tsinghua Open Source Full Stack Multimodal Large Model Project

Bee - это полнофункциональное решение с открытым исходным кодом для мультимодальных больших моделей, созданное совместными усилиями команды Tencent Mixed Element и Университета Цинхуа с целью сокращения разрыва в производительности между моделями с открытым и закрытым исходным кодом за счет повышения качества данных. Проект содержит три основных достижения: 15-миллионный высококачественный двухслойный набор данных CoT Honey-Data...
5 месяцев назад
028.5K
InfinityStar - 字节开源的统一时空自回归视频生成框架

InfinityStar - байтовая унифицированная система генерации пространственно-временного видео с авторегрессией с открытым исходным кодом

InfinityStar - это унифицированный пространственно-временной авторегрессионный фреймворк с открытым исходным кодом от ByteDance, предназначенный для создания изображений и видео высокого разрешения. Используя дискретный авторегрессионный подход, он может одновременно решать задачи преобразования текста в изображение, текста в видео и изображения в видео в рамках одной модели. Фреймворк протестирован в бенчмарке VBench ...
5 месяцев назад
030.8K
Koina - 慕尼黑工大联合密歇根大开源的去中心化机器学习平台

Koina - децентрализованная платформа машинного обучения с открытым исходным кодом, разработанная TU Munich совместно с Мичиганским университетом

Koina - это децентрализованная платформа машинного обучения с открытым исходным кодом, направленная на упрощение анализа данных по протеомике. Она разработана командой из Мюнхенского технического университета (Германия) и Мичиганского университета (США). Платформа интегрирует более 30 основных моделей (например, ProSIT, MS²PIP) через стандартизированный интерфейс и поддерживает пептидные масс...
5 месяцев назад
030.9K
VibeThinker-1.5B - 微博AI开源的15亿参数大型语言模型

VibeThinker-1.5B - крупномасштабная языковая модель с 1,5 миллиардами параметров, открытая Weibo AI

VibeThinker-1.5B - это крупномасштабная языковая модель с 1,5 миллиардами параметров, открыто представленная Weibo AI. Доработанная на основе Qwen2.5-Math-1.5B от Alibaba, она оптимизирована для решения математических задач и задач кодирования и демонстрирует лучшие в отрасли показатели точности выводов.
5 месяцев назад
034.1K
BestBlogs - 开源的AI内容聚合平台,精选优质技术内容

BestBlogs - платформа для агрегации контента ИИ с открытым исходным кодом и подборкой качественного технического контента

BestBlogs - это платформа, ориентированная на предоставление высококачественного контента для практиков в области технологий, предпринимателей, менеджеров по продуктам и других. Она собирает статьи, подкасты, видео и другой мультиформатный контент из более чем 400 высококачественных блогов с помощью RSS-каналов и технологии crawler. Основная сила компании заключается в использовании искусственного интеллекта, большого языка...
5 месяцев назад
027.1K
Egocentric-10K - Build AI开源的第一人称视角机器人数据集

Egocentric-10K - открытый набор данных для робототехники с перспективой от первого лица Build AI

Egocentric-10K - это крупномасштабная видеодата с видом от первого лица (эгоцентрическая), открытая командой build.ai. Набор содержит 10 000 часов видео, в общей сложности 1,08 миллиарда кадров, с участием 2...
5 месяцев назад
033K
LazyCraft - 开源AI Agent应用开发与管理平台,基于LazyLLM构建

LazyCraft - платформа для разработки и управления приложениями ИИ-агентов с открытым исходным кодом, построенная на базе LazyLLM

LazyCraft - это платформа разработки и управления приложениями AI Agent с открытым исходным кодом, созданная компанией Shangtang на основе открытого исходного кода LazyLLM, предоставляющая универсальные решения по разработке приложений AI для предприятий и разработчиков. Помогает разработчикам быстро создавать и выпускать крупные модели приложений с низким порогом и низкой стоимостью...
6 месяцев назад
038.1K
Kosong - Moonshot AI开源的全新AI Agent开发框架

Kosong - Moonshot AI's New Open Source AI Agent Development Framework

Kosong - это новый фреймворк для разработки агентов искусственного интеллекта с открытым исходным кодом от Moonshot AI, предоставляющий разработчикам легкую, гибкую и высокомасштабируемую базовую поддержку для создания интеллектуальных приложений следующего поколения. Асинхронный механизм планирования инструментов позволяет эффективно планировать работу нескольких инструментов...
6 месяцев назад
031.3K
SenseNova-SI - 商汤科技开源的空间智能大模型系列

SenseNova-SI - семейство больших моделей пространственной разведки с открытым исходным кодом от ShangTang Technology

SenseNova-SI - это грандиозная модель пространственного интеллекта с открытым исходным кодом, выпущенная компанией ShangTech и направленная на улучшение способностей ИИ к пространственному пониманию и рассуждению. Модель демонстрирует превосходство в шести основных измерениях, включая пространственные измерения, реконструкцию, оценку отношений, преобразование перспективы, анализ деформации и пространственные рассуждения, значительно превосходя другие...
6 месяцев назад
027.6K
Omnilingual ASR - Meta推出的多语言语音识别框架

Omnilingual ASR - многоязычный фреймворк для распознавания речи от Meta

Omnilingual ASR - это многоязычная система распознавания речи, представленная компанией Meta, охватывающая 1600+ языков, с 78% языковым коэффициентом ошибок ниже 10%. Ее кодер wav2vec 2.0 с 7 миллиардами параметров в сочетании с декодером CTC и Transformer, поддержива...
6 месяцев назад
032.1K
Frappe Builder - 开源的AI低代码网站构建工具,拖拽组件快速搭建

Frappe Builder - ИИ-конструктор сайтов с открытым исходным кодом, перетаскиваемые компоненты для быстрого создания.

Frappe Builder - это конструктор сайтов с открытым исходным кодом, разработанный компанией Frappe, основной особенностью которого является предоставление Figma-подобного визуального редактора, поддерживающего перетаскивание компонентов для быстрого создания сайтов. Является частью экологии Frappe (Frappeverse)...
6 месяцев назад
034.3K
DeepOCR - 基于DeepSeek-OCR模型的开源复刻项目

DeepOCR - проект реплики с открытым исходным кодом, основанный на модели DeepSeek-OCR

DeepOCR - проект репликации с открытым исходным кодом, реализующий основную архитектуру DeepSeek-OCR, которая эффективно обрабатывает текстовую информацию с помощью методов оптического сжатия. Ядром является DeepEncoder, состоящий из SAM-базы (обработка изображений высокого разрешения), 16× сверточного компрессора...
6 месяцев назад
030.5K
Glow - 开源的命令行工具,支持在终端渲染Markdown文件

Glow - инструмент командной строки с открытым исходным кодом, поддерживающий рендеринг файлов Markdown в терминале

Glow - это инструмент командной строки с открытым исходным кодом для элегантного отображения файлов Markdown в терминале. Инструмент поддерживает выделение блоков кода, математических формул и других сложных элементов, предоставляя множество возможностей, таких как пользовательские стили, отображение страниц, поддержка мыши и так далее.
6 месяцев назад
034.8K
NocoBase - 免费开源的AI无代码开发平台,可视化构建应用

NocoBase - бесплатная платформа для визуальной разработки приложений с открытым исходным кодом без ИИ

NocoBase основан на платформе разработки без кода, управляемой искусственным интеллектом, с открытым исходным кодом, поддерживает быстрое создание бизнес-систем, без программирования, может быть завершена через конфигурацию разработки приложений. Проект использует протокол Apache-2.0, обеспечивает частное развертывание и гибкую масштабируемость, подходит для управления предприятием, платформы сотрудничества и других областей ...
6 месяцев назад
031.3K
UniWorld V2 - 兔展智能联合北大推出的新一代图像编辑模型

UniWorld V2 - новое поколение моделей для редактирования изображений, выпущенное RabbitShow Intelligence и Пекинским университетом

UniWorld V2 - это новое поколение модели для редактирования изображений, созданной совместно RabbitZhan Intelligence и командой UniWorld Пекинского университета. Она обладает значительными преимуществами в области редактирования изображений, особенно в понимании китайского языка и выполнении сложных команд. Модель способна точно передавать художественные китайские шрифты и поддерживать тонкую...
6 месяцев назад
033.6K
SmartResume - 阿里巴巴开源的AI简历解析与优化工具

SmartResume - открытый инструмент Alibaba для анализа и оптимизации резюме с помощью искусственного интеллекта

SmartResume - это интеллектуальный инструмент Alibaba с открытым исходным кодом для разбора и оптимизации резюме, который эффективно извлекает структурированную информацию, такую как основные сведения, образование и опыт работы, из документов PDF, изображений или документов Office. Благодаря интеграции технологии OCR и метаданных PDF...
6 месяцев назад
034.3K
Step-Audio-EditX - 阶跃星辰开源的首个LLM级音频编辑大模型

Step-Audio-EditX - первая большая модель редактирования звука с открытым исходным кодом уровня LLM от Step-Star

Step-Audio-EditX - макромодель редактирования звука с открытым исходным кодом, разработанная командой Step-Star и ориентированная на тонкую манипуляцию аудиоконтентом с помощью технологий искусственного интеллекта. Модель способна динамически настраивать настроение аудио, стиль речи (например, мелочность, акцент старика и т. д.) и паралингвистические элементы (например, смех, вздох...
6 месяцев назад
033.5K
Open-o3 Video - 北大联合字节开源的视频推理模型

Open-o3 Video - модель рассуждений о видео с открытым исходным кодом Пекинского университета Объединенные байты

Open-o3 Video - это модель вывода видео с открытым исходным кодом, разработанная совместно Пекинским университетом и ByteDance и направленная на улучшение вывода видео с помощью временных и пространственных данных. Явное обозначение ключевых свидетельств временными метками и ограничительными рамками помогает модели лучше понимать и интерпретировать видеоконтент.
6 месяцев назад
032K
Handy - 开源免费的本地AI语音转文字工具

Handy - бесплатный инструмент для преобразования речи в текст с открытым исходным кодом на основе искусственного интеллекта

Handy - это бесплатный локальный инструмент преобразования речи в текст с открытым исходным кодом, поддерживающий системы Windows, MacOS и Linux, разработанный на Rust и React. Обрабатывая голосовые данные локально, без загрузки в облако, он гарантирует конфиденциальность и безопасность, а также подходит для быстрой транскрипции и ввода текста.
6 месяцев назад
067.1K
FG-CLIP 2 - 360开源的图文跨模态视觉语言模型

FG-CLIP 2 - 360 Open Source Cross-Modal Visual Language Model for Graphics

FG-CLIP 2 - ведущая в мире графическая кросс-модальная модель визуального языка (VL-M), созданная 360 Artificial Intelligence Research Institute, превосходящая аналогичные модели от Google и Meta в 29 авторитетных бенчмарках, что делает ее самой мощной VL-M на сегодняшний день.Она способна точно определить грубые...
6 месяцев назад
030.9K
微舆BettaFish - 开源的多智能体舆情分析系统

Micro Opinion BettaFish - мультиинтеллектуальная система анализа мнений с открытым исходным кодом

BettaFish - это мультиинтеллектуальная система анализа мнений с открытым исходным кодом. Используя многоинтеллектуальную архитектуру, агенты Query, Media, Insight, Report и другие работают вместе, чтобы достичь замкнутого цикла поиска, извлечения и отчетности. Система поддерживает управляемую искусственным интеллектом полную ...
6 месяцев назад
065.5K
Ouro - 字节跳动Seed团队开源的新型循环语言模型

Ouro - новая циклическая языковая модель с открытым исходным кодом от команды ByteHopper Seed

Ouro - это новый тип Looped Language Models (LLMs), разработанный командой ByteDance Seed, основной инновацией которого является непосредственное построение возможностей вывода на этапе предварительного обучения с помощью рекуррентной вычислительной структуры с общим доступом к параметрам. Модель использует 24 слоя в качестве базового блока, через...
6 месяцев назад
040.9K
ChronoEdit - 英伟达与多伦多大学联合开源的AI图像编辑框架

ChronoEdit - ИИ-фреймворк для редактирования изображений с открытым исходным кодом от NVIDIA и Университета Торонто

ChronoEdit, система редактирования изображений с открытым исходным кодом, разработанная NVIDIA совместно с Университетом Торонто, переопределяет задачу редактирования изображений как задачу генерации видео, чтобы обеспечить временное и физическое соответствие результатов редактирования. Путем дистилляции предварительно обученной модели генерации видео с 14B параметрами из...
6 месяцев назад
034.7K
LongCat-Flash-Omni - 美团开源的全模态大语言模型

LongCat-Flash-Omni - полностью модальная модель большого языка для Meituan с открытым исходным кодом

LongCat-Flash-Omni - это полностью модальная модель большого языка с открытым исходным кодом, выпущенная командой LongCat из Meituan. С масштабом параметров 560 миллиардов (27 миллиардов активированных параметров) она позволяет достичь миллисекундного уровня взаимодействия в реальном времени с аудио и видео при сохранении большого количества параметров.
6 месяцев назад
033.1K
Petri - Anthropic开源的 AI 安全审计框架

Petri - система аудита безопасности ИИ с открытым исходным кодом от Anthropic

Petri - это система аудита безопасности ИИ с открытым исходным кодом, разработанная компанией Anthropic, которая систематически оценивает безопасность и поведенческую согласованность моделей ИИ. Имитируя реальный сценарий, в котором автоматический аудитор проводит несколько раундов диалога с целевой моделью, а затем агент-судья действует на...
6 месяцев назад
029.3K
Kimi Linear - 月之暗面开源的新型混合线性注意力架构

Kimi Linear - новая гибридная архитектура линейного внимания с открытым исходным кодом на темной стороне Луны

Kimi Linear - это новая гибридная архитектура линейного внимания с открытым исходным кодом от Dark Side of the Moon, в основе которой лежит Kimi Delta Attention (KDA), оптимизирующая традиционную модель внимания за счет более тонкого механизма регулировки, значительно повышающего эффективность аппаратного обеспечения и возможности управления памятью...
6 месяцев назад
042.1K
FIBO - 全球首个开源原生支持JSON的文本生成图像模型

FIBO - первая в мире программа с открытым исходным кодом, поддерживающая JSON-текст для создания моделей изображений.

FIBO - это первая в мире модель изображений для генерации текста с открытым исходным кодом и поддержкой JSON, разработанная компанией Bria AI. Основанная на архитектуре DiT (Diffusion Transformer) с 8B параметрами, она использует метод обучения Flow Matching...
6 месяцев назад
033.8K
SoulX-Podcast - Soul AI Lab开源的对话式语音合成模型

SoulX-Podcast - модель синтеза разговорной речи от Soul AI Lab с открытым исходным кодом

SoulX-Podcast - это продвинутая модель синтеза разговорной речи с открытым исходным кодом от Soul AI Lab, предназначенная для создания высококачественного подкаст-контента. SoulX-Podcast способна генерировать несколько раундов диалога и имитировать плавный диалог в реальных сценариях подкастинга, поддерживая мандаринский, английский и несколько китайских...
6 месяцев назад
042.9K
GigaBrain-0 - 开源的具身基础模型,由世界模型生成数据驱动

GigaBrain-0 - базовая воплощенная модель с открытым исходным кодом, управляемая данными генерации модели мира

GigaBrain-0 - первая в Китае сквозная воплощенная базовая модель Vision-Language-Action (VLA), использующая мировые данные о генерации моделей для достижения реального машинного обобщения и совместно выпущенная с открытым исходным кодом компаниями GigaVision и Hubei Humanoid Robotics Innovation Centre. В ней используется гибридная архитектура Transformer, объединяющая ...
6 месяцев назад
030.6K
Ming-flash-omni-Preview - 蚂蚁集团开源的全模态大模型

Ming-flash-omni-Preview - макромодель Ant Group с открытым исходным кодом и полной модальностью

Ming-flash-omni-Preview - полномодальная макромодель с открытым исходным кодом, выпущенная Ant Group inclusionAI, с масштабом параметров в сотни миллиардов, основанная на разреженной MoE архитектуре Ling 2.0, с общими параметрами 103B и активациями 9B...
6 месяцев назад
034.8K
OmniVinci - NVIDIA开源的全模态大语言模型

OmniVinci - Омнимодальная модель большого языка с открытым исходным кодом от NVIDIA

OmniVinci - это крупномасштабная языковая модель с открытым исходным кодом, полностью модальная, разработанная NVIDIA, которая решает проблему модальной фрагментации в мультимодальных моделях с помощью архитектурных инноваций и оптимизации данных. Выравнивание визуальных и аудио вкраплений улучшено с помощью OmniAlignNet, которая использует временной групповой захват...
6 месяцев назад
034.4K
olmOCR 2 - AI2开源的多模态文档解析模型

olmOCR 2 - модель мультимодального разбора документов с открытым исходным кодом AI2

olmOCR 2 - это мультимодальная модель разбора документов с открытым исходным кодом от Института искусственного интеллекта Аллена (AI2), которая является обновленной версией olmOCR. Оцифрованные печатные документы (например, PDF) будут иметь высокую...
6 месяцев назад
040.3K
ValueCell - 开源的多智能体金融平台,多个Agent分工协作

ValueCell - многоинтеллектуальная финансовая платформа с открытым исходным кодом и совместной работой нескольких агентов

ValueCell - это финансовая платформа с открытым исходным кодом, повышающая эффективность финансового анализа и управления инвестициями с помощью технологии искусственного интеллекта. Имитируя профессиональную инвестиционную команду, множество интеллектов ИИ работают вместе, охватывая анализ рынка, анализ настроений, фундаментальные исследования, автоматическую торговлю и другие функции, предоставляя пользователям всесторонний...
6 месяцев назад
059.9K
Dexbotic - 原力灵机开源的具身智能VLA模型一站式科研服务平台

Dexbotic - машина Силы Духа с открытым исходным кодом воплощенного интеллекта VLA модель универсальной платформы исследовательских услуг

Dexbotic - это сервисная платформа с открытым исходным кодом Visual-Linguistic-Action (VLA) model of embodied intelligence one-stop research service platform компании Dexmal, которая решает проблемы фрагментации и низкой эффективности исследований в области воплощенного интеллекта. Основанная на PyTorch, Dexbotic является универсальной платформой исследовательского сервиса для решения проблем фрагментации и низкой эффективности исследований в области воплощенного интеллекта...
6 месяцев назад
031.9K
LongCat-Video - 美团LongCat开源的视频生成模型

LongCat-Video - LongCat - модель генерации видео с открытым исходным кодом Mission

LongCat-Video - это модель генерации видео с открытым исходным кодом на 1,36 миллиарда параметров, созданная командой LongCat по протоколу MIT с открытым исходным кодом и поддерживающая три основные задачи: генерация видео с текстом, генерация видео с графом и продолжение видео. Модель, благодаря стратегии генерации "от грубого к тонкому" и блочному механизму разреженного внимания, может в течение нескольких минут ...
6 месяцев назад
054.2K
DreamOmni2 - 港科大开源的多模态AI图像编辑与生成模型

DreamOmni2 - модель редактирования и генерации мультимодальных изображений ИИ с открытым исходным кодом HKUST

DreamOmni2 - это мультимодальная модель редактирования и генерации изображений с открытым исходным кодом, созданная командой Цзяцзя в HKUST. Она может одновременно обрабатывать текстовые и графические команды, а также поддерживает несколько опорных изображений, предоставляя создателям более гибкие возможности для творчества. Модель обучается с помощью трехэтапного процесса синтеза данных, совместного обучения генерации/редактирования...
6 месяцев назад
038.3K
混元世界模型1.1 - 腾讯混元发布的开源3D重建大模型

Модель смешанного мира 1.1 - Tencent Mixed World выпустила открытую 3D-реконструированную большую модель

WorldMirror 1.1 (WorldMirror) - это 3D-реконструкция больших моделей с открытым исходным кодом, выпущенная командой Tencent's WorldMirror, которая является обновленной версией серии WorldMirror. Она поддерживает многоракурсные изображения, видео и мультимодальные априорные данные, такие как положение камеры, внутренняя ссылка, карта глубины и т. д. Она преодолевает традиционную 3D-реконструкцию, которая полагается только на...
6 месяцев назад
038K
DeepSeek-OCR - DeepSeek开源的光学字符识别模型

DeepSeek-OCR - модель оптического распознавания символов с открытым исходным кодом DeepSeek

DeepSeek-OCR - это усовершенствованная модель оптического распознавания символов (OCR), открытая командой DeepSeek, которая преобразует текст в изображения с помощью технологии "контекстного оптического сжатия" и использует визуальные маркеры для сжатия и декодирования для эффективной обработки длинных текстов.
6 месяцев назад
043K
VitaBench - 美团LongCat开源的交互式Agent评测基准

VitaBench - бенчмарки MMT LongCat Open Source Interactive Agent Review

VitaBench - это первый интерактивный эталон оценки агентов для сложных жизненных сценариев, выпущенный командой LongCat компании Meituan и оценивающий всесторонние возможности больших модельных интеллектов в реальных жизненных сценариях. В качестве носителей для создания пакетов используются три высокочастотных жизненных сценария: заказ еды на вынос, обед в ресторане и путешествие...
6 месяцев назад
034.4K
MinerU2.5 - 上海AI Lab联合北大开源的文档解析模型

MinerU2.5 - открытая модель синтаксического анализа документов из Шанхайской лаборатории искусственного интеллекта и Пекинского университета

MinerU2.5 - это модель визуального языка, разработанная совместно Шанхайской лабораторией искусственного интеллекта и командой Пекинского университета и направленная на эффективный разбор изображений документов высокого разрешения. Основная инновация заключается в двухфазном дизайне "обнаружение глобального расположения с последующим распознаванием локального содержания": первая фаза представляет собой низкое разрешение...
6 месяцев назад
049.1K
LongCat-Audio-Codec - 美团LongCat开源的语音编解码方案

LongCat-Audio-Codec - голосовой кодек LongCat с открытым исходным кодом для Meituan

LongCat-Audio-Codec - это речевой кодек с открытым исходным кодом от команды LongCat из Meituan. Решение предназначено для Speech Large Language Model (Speech LLM), посредством семантического и акустического механизма параллельного извлечения Token, учитывающего семантические и акустические особенности речи ...
6 месяцев назад
032.5K
PaddleOCR-VL - 百度开源的超轻量级视觉-语言模型

PaddleOCR-VL - ультралегкие визуально-лингвистические модели с открытым исходным кодом от Baidu

PaddleOCR-VL - это ультралегкая визуально-лингвистическая модель Baidu с открытым исходным кодом, оптимизированная для сценариев парсинга документов. Модель содержит всего 0,9 Б параметров, благодаря слиянию динамического визуального кодера высокого разрешения и легкой языковой модели ERNIE, сохраняя при этом высокую точность и значительно снижая вычислительные затраты.
6 месяцев назад
050.6K
UniPixel - 香港理工、腾讯、中科院等开源的像素级多模态模型

UniPixel - мультимодальная модель на уровне пикселя с открытым исходным кодом от Гонконгского политехнического института, Tencent, CAS и др.

UniPixel - это новая мультимодальная модель, совместно предложенная Гонконгским политехническим университетом, компанией Tencent, Китайской академией наук и компанией Vivo для достижения понимания визуального языка на уровне пикселей. Объединяя возможности привязки к объектам и сегментации, она поддерживает различные тонкие задачи, такие как сегментация изображений, сегментация видео, понимание регионов и пи...
6 месяцев назад
037.9K
DiaMoE-TTS - 清华联合巨人网络开源的多方言语音合成框架

DiaMoE-TTS - фреймворк для синтеза речи с открытым исходным кодом из нескольких диалектов, разработанный компаниями Tsinghua и Giant Network

DiaMoE-TTS - это система синтеза речи для нескольких диалектов, созданная совместно Университетом Цинхуа и Giant Network на основе Международного фонетического алфавита (IPA) для решения проблем нехватки диалектных данных, несоответствия орфографии и сложности фонологических изменений. Благодаря единому стандартизированному представлению фонем на основе IPA, устраняются междиалектные различия ...
6 месяцев назад
040.5K
Kandinsky 5.0 - 俄罗斯AI团队开源的视频生成模型系列

Кандинский 5.0 - серия моделей генерации видео с открытым исходным кодом от российской команды ИИ

Kandinsky 5.0 - это новейшая серия моделей поколения видео, разработанная российской командой искусственного интеллекта и ориентированная на легкий дизайн и высокую производительность. Первая модель серии, Kandinsky 5.0 Video Lite, имеет всего 2 миллиарда параметров, но превосходит аналогичные модели 14B, особенно...
6 месяцев назад
047.8K
SongBloom - 腾讯联合港中文、南大开源的歌曲生成模型

SongBloom - модель генерации песен с открытым исходным кодом от Tencent в сотрудничестве с HKCS и NTU

SongBloom - это модель генерации песен с открытым исходным кодом, разработанная Tencent AI Lab в сотрудничестве с Китайским университетом Гонконга (Шэньчжэнь) и Нанкинским университетом, которая решает проблему "пластичности" в генерации музыки ИИ и обеспечивает высококачественную, структурно полную генерацию песен. Просто введите 10 секунд эталонного аудио и соответствующий текст, и вы сможете...
6 месяцев назад
039.2K
Pyscn - 专为Python开发者开源的免费AI代码质量分析工具

Pyscn - бесплатный инструмент анализа качества AI-кода с открытым исходным кодом для разработчиков на Python

Pyscn - это интеллектуальный инструмент анализа качества кода, предназначенный для разработчиков на Python для обнаружения потенциальных проблем в коде с целью улучшения его сопровождаемости. Он анализирует мертвый код с помощью диаграмм потока управления, выявляет дубликаты кода с помощью алгоритма APTED+LSH, вычисляет такие метрики, как связь модулей и сложность круга...
6 месяцев назад
031.5K
Youtu-Embedding - 腾讯优图开源的通用文本表示模型

Youtu-Embedding - Tencent Youtu Open Source Универсальная модель представления текста

Youtu-Embedding - это универсальная модель представления текста с открытым исходным кодом от Tencent's Youtu Labs, предназначенная для корпоративных приложений. Текст отображается в векторное пространство высокой размерности с помощью глубоких нейронных сетей, так что семантически схожие предложения оказываются ближе друг к другу в этом пространстве, что позволяет добиться точного семантического поиска.
6 месяцев назад
036.7K
SAIL-VL2 - 字节跳动开源的多模态视觉语言模型

SAIL-VL2 - мультимодальная модель визуального языка с открытым исходным кодом от ByteHop

SAIL-VL2 - это мультимодальная модель визуального языка с открытым исходным кодом, разработанная командой Byte Jump и ориентированная на совместное моделирование мультимодальных входных данных, таких как изображения и текст. Используя архитектуру разреженной смеси экспертов (MoE) и стратегию прогрессивного обучения, она достигает высокой производительности при масштабах параметров от 2B до 8B, особенно в областях графического понимания, математического...
6 месяцев назад
029.5K
MineContext - 字节开源的主动式上下文感知AI伙伴

MineContext - байтовый партнер по ИИ с открытым исходным кодом и активным контекстом

MineContext - это активный контекстно-ориентированный ИИ-партнер с открытым исходным кодом от команды ByteDance Viking, призванный помочь пользователям эффективно управлять огромными объемами информации и повысить эффективность работы со знаниями. С помощью технологии понимания скриншотов и контента, автоматической записи ежедневных операций пользователя (таких как просмотр веб-страниц, редактирование документов и т.д.), поддержки...
6 месяцев назад
051K
nanochat - Karpathy免费开源的低成本模型训练项目

nanochat - бесплатный и открытый проект Карпати по обучению недорогим моделям

nanochat - это проект с открытым исходным кодом, созданный легендой ИИ и бывшим директором Tesla AI Андреем Карпати, который позволяет людям быстро обучить небольшую языковую модель, подобную ChatGPT, при очень низких затратах и простоте. Весь проект использует всего около 800...
6 месяцев назад
036.5K
LLaVA-OneVision-1.5 - 免费开源的多模态模型,高性能多模态理解

LLaVA-OneVision-1.5 - бесплатная мультимодальная модель с открытым исходным кодом для высокопроизводительного мультимодального понимания

LLaVA-OneVision-1.5 - мультимодальная модель с открытым исходным кодом, разработанная командой EvolvingLMMS-Lab, использующая шкалу параметров 8B и прошедшая компактный трехэтапный процесс обучения (выравнивание языка и изображения, концептуальное уравновешивание и введение знаний, а также тонкая настройка инструкций) на 128 A800...
6 месяцев назад
034.6K
Paper2Video - 新加坡国立开源的学术论文自动生成演示视频项目

Paper2Video - проект NUS с открытым исходным кодом для автоматического создания демонстрационных видеороликов научных статей

Paper2Video - это проект с открытым исходным кодом для автоматизированного создания презентационных видеороликов для научных работ в лаборатории Show Lab, Национальный университет Сингапура. С помощью мультиинтеллектуального фреймворка PaperTalker статьи превращаются в полноценные презентационные видеоролики, содержащие слайды, субтитры, голос за кадром и аватар докладчика...
7 месяцев назад
037.7K
NeuTTS Air - 支持离线CPU运行的免费轻量级语音合成模型

NeuTTS Air - бесплатная и легкая модель синтеза речи с поддержкой автономной работы на процессоре

NeuTTS Air - это модель синтеза речи с открытым исходным кодом, разработанная командой Neuphonic, которая может работать в режиме реального времени на локальных устройствах (например, мобильных телефонах, ноутбуках, Raspberry Pi), не завися от облака. Используя 0,5B-параметрическую архитектуру Qwen и самостоятельно разработанный кодек NeuCodec...
7 месяцев назад
043.2K
KAT-Dev-72B-Exp - 快手开源的免费编程专用模型

KAT-Dev-72B-Exp - модель Racer с открытым исходным кодом для свободного программирования

KAT-Dev-72B-Exp - это модель большого языка программирования с открытым исходным кодом, созданная командой Racer, оптимизированная на основе методов обучения с подкреплением, которая достигла точности 74,6% в бенчмарке SWE-Bench Verified, что на данный момент является лучшим показателем среди моделей с открытым исходным кодом. Модель использует инновационные...
7 месяцев назад
034.9K
Jamba Reasoning 3B - 以色列AI21 Labs开源的轻量级推理模型

Jamba Reasoning 3B - израильская модель рассуждений с открытым исходным кодом от AI21 Labs

Jamba Reasoning 3B - это легкая модель умозаключений с открытым исходным кодом, созданная израильским ИИ-стартапом AI21 Labs, обладающая высокой производительностью и потенциалом для широкого спектра приложений. Она использует гибридную архитектуру SSM-Transformer, которая сочетает в себе транс...
7 месяцев назад
031.7K
吴恩达的《Agentic AI》最新智能体免费课程

Бесплатный курс по новейшим интеллектам от Agentic AI Эрнста Ву

Agentic AI - это новейший курс по интеллектуальным телам, запущенный Эрнестом Нг. Курс посвящен проектированию и созданию интеллектуальных тел, охватывая четыре паттерна проектирования: размышление, использование инструментов, планирование и совместная работа нескольких интеллектуальных тел. Учащиеся узнают, как сделать интеллектуальные тела, проверяющие выходы, автономно настраивающиеся с помощью теоретических объяснений и практического кода...
7 месяцев назад
058.6K
OpenAgents - 开源免费的构建AI Agent网络开放协作项目

OpenAgents - бесплатный проект с открытым исходным кодом для создания сетей агентов искусственного интеллекта

OpenAgents - это проект с открытым исходным кодом, который создает сеть агентов искусственного интеллекта и способствует открытому сотрудничеству между ними. Предоставляется базовая сетевая инфраструктура, позволяющая агентам ИИ легко соединяться и сотрудничать. Пользователи могут быстро создать свою собственную сеть агентов, расширить функциональность за счет модульной архитектуры, поддерживать...
7 месяцев назад
033.5K
Androidify - 谷歌开源如何在Android上构建AI应用的免费资源

Androidify - бесплатные ресурсы Google по созданию приложений с искусственным интеллектом на Android

Androidify - это проект Google с открытым исходным кодом, помогающий разработчикам научиться создавать приложения с искусственным интеллектом на Android. В проекте используются новейшие технологии Google, такие как Jetpack Compose, Gemini API (через Fire...
7 месяцев назад
034.7K
Ling-1T - 蚂蚁集团开源的万亿参数通用语言模型

Ling-1T - универсальная модель языка с открытым исходным кодом от Ant Group с триллионами параметров

Ling-1T - универсальная языковая модель с триллионом параметров, открытая компанией Ant Group и являющаяся флагманским продуктом серии больших моделей Ling 2.0 компании Bering. Модель использует высокоэффективную архитектуру MoE, поддерживает 128K контекстных окон и превосходит GPT в 7 бенчмарках, включая генерацию кода, математические рассуждения и логические тесты...
7 месяцев назад
060.5K
聆音EchoCare - 香港科学院开源的超声基座大模型

EchoCare - Гонконгская академия наук с открытым исходным кодом Большая модель ультразвуковой базы

EchoCare - это большая модель ультразвуковой базы, разработанная Центром искусственного интеллекта и робототехники (CAIR) Гонконгского института инноваций и исследований Китайской академии наук (CAS), обученная на крупнейшем в мире наборе данных ультразвуковых изображений (более 4,5 миллионов изображений), охватывающем мультицентровые, мультирегиональные, мультиэтнические и более 50 индивидуальных...
7 месяцев назад
037K
Code2Video - Show Lab开源的AI教学视频生成框架

Code2Video - открытый фреймворк для создания обучающего видео с искусственным интеллектом от Show Lab

Code2Video - это инновационный проект с открытым исходным кодом, который автоматически преобразует фрагменты кода в высококачественный видеоконтент (формат mp4). Проект использует уникальную парадигму, ориентированную на код, используя инструменты carbon-now-cli для генерации кода в красивые изображения, использование ffmpeg будет этим ...
7 месяцев назад
041.5K
SceneGen - 上海交大开源的单图像生成3D场景框架

SceneGen - открытая платформа для генерации 3D-сцены из одного изображения, созданная Шанхайским университетом Цзяо Тун.

SceneGen - это метод генерации 3D-сцен из одного изображения, разработанный в Шанхайском университете Цзяо Тун. Из одного изображения сцены и маски целевого ресурса эффективно генерируется полная сцена, содержащая множество 3D-ресурсов, включая геометрическую структуру ресурсов, текстуру и относительное пространственное расположение.
7 месяцев назад
032.3K
Ming-UniAudio - 蚂蚁开源的统一音频多模态生成模型

Ming-UniAudio - Ant Open Source Unified Audio Multimodal Generation Model

Ming-UniAudio - это унифицированная мультимодальная модель генерации звука с открытым исходным кодом от Ant Group, которая поддерживает смешанный ввод и вывод текста, аудио, изображений и видео. Используя многомасштабную архитектуру трансформатора и смешанного эксперта (MoE), с помощью механизма маршрутизации с учетом модальностей для эффективной обработки кросс-модальных ...
7 месяцев назад
039.1K
AIMangaStudio - 免费的AI漫画创作工具,提供完整创作流程

AIMangaStudio - бесплатный инструмент для создания манги в формате AI для полного процесса создания!

AIMangaStudio - это бесплатный инструмент для создания манги с искусственным интеллектом, который предоставляет авторам полный цикл создания манги, включая генерацию сюжета, разработку субсцен, создание персонажей и другие функции, что позволяет упростить процесс создания от сценария до страницы манги. Поддержка генерации сценариев комиксов на естественном языке, включая сюжет, диалоги...
7 месяцев назад
046.5K
FireRedChat - 小红书开源的全双工语音交互系统

FireRedChat - система полнодуплексного голосового взаимодействия с открытым исходным кодом от Little Red Book

FireRedChat - это полнодуплексная система голосового взаимодействия с открытым исходным кодом для Xiaohongshu с возможностью двунаправленного диалога в реальном времени и поддержкой контролируемых прерываний. Используя модульный дизайн, включая модуль управления транскрипцией, модуль взаимодействия и менеджер диалога и т.д., поддерживает каскадную и полукаскадную архитектуру, гибкое развертывание.
7 месяцев назад
046.2K
Logics-Parsing - 阿里开源的文档解析模型

Logics-Parsing - модель разбора документов с открытым исходным кодом на Ali

Logics-Parsing - это модель сквозного разбора документов с открытым исходным кодом, основанная на Qwen2.5-VL-7B. Оптимизация анализа макета документа и вывода порядка чтения с помощью обучения с усилением, PDF-изображения могут быть преобразованы в структурированный HTML-вывод, поддержка разнообразного контента ...
7 месяцев назад
044K
Ring-1T-preview - 蚂蚁集团开源的万亿参数大模型

Ring-1T-preview - Большая модель с триллионом параметров от Ant Group с открытым исходным кодом

Ring-1T-preview - макромодель с открытым исходным кодом на триллион параметров от Ant Group, основанная на архитектуре Ling 2.0 MoE, предварительно обученная на корпусе 20T и натренированная на способность рассуждать с помощью ASystem, самостоятельно разработанной системы обучения с подкреплением. В рассуждениях на естественном языке ...
7 месяцев назад
052K
RoboBrain-X0 - 智源研究院开源的零样本跨本体泛化具身模型

RoboBrain-X0 - исследовательский институт Wisdom Source Research Institute с открытым исходным кодом и нулевым образцом кросс-онтологической обобщенной модели воплощения

RoboBrain-X0 - первая в мире воплощенная модель с открытым исходным кодом, поддерживающая кросс-онтологическое обобщение с нулевой выборкой, открытая исследовательским институтом Wisdom Source Research Institute и имеющая большое промышленное значение. Она может управлять несколькими реальными роботами различных конфигураций для выполнения базовых задач без тонкой настройки, а после небольшой тонкой настройки образца демонстрирует способность воспроизводить ...
7 месяцев назад
037.1K
Lynx - 字节跳动开源的高保真视频生成模型

Lynx - модель генерации видео высокой точности с открытым исходным кодом от ByteHop

Lynx - это модель генерации персонализированного видео с высокой точностью и открытым исходным кодом от ByteDance, которая может генерировать видео, соответствующее личности, используя только одну портретную фотографию. Построенная на основе базовой модели диффузионного трансформатора (DiT), введение ID-адаптера и Ref-адаптера...
7 месяцев назад
038.9K
Claude Sonnet 4.5 - Anthropic推出的最强AI编程模型

Claude Sonnet 4.5 - самая мощная модель программирования ИИ от Anthropic

Claude Sonnet 4.5 - модель искусственного интеллекта от компании Anthropic, предназначенная для программирования, работы с компьютером и автоматизации сложных задач. Модель отлично справляется с генерацией кода, обработкой длинных задач, рассуждениями и математическими вычислениями, поддерживая все - от начального планирования...
7 месяцев назад
044.3K
DeepSeek-V3.2-Exp - DeepSeek最新开源的实验性AI模型

DeepSeek-V3.2-Exp - новейшая экспериментальная модель искусственного интеллекта DeepSeek с открытым исходным кодом

DeepSeek-V3.2-Exp - экспериментальная модель искусственного интеллекта с открытым исходным кодом от компании DeepSeek, которая значительно повышает эффективность обработки длинных текстов за счет внедрения механизма DeepSeek Sparse Attention (DSA). Модель основана на DeepSeek...
7 месяцев назад
040.4K
HunyuanImage 3.0 - 腾讯开源的免费多模态图像生成模型

HunyuanImage 3.0 - бесплатная мультимодальная модель генерации изображений с открытым исходным кодом от Tencent

HunyuanImage 3.0 (Hunyuan Image 3.0) - нативная мультимодальная модель генерации изображений, выпущенная и открытая компанией Tencent. Размер параметров модели составляет 80B, на данный момент это лучшие результаты оценки, самое большое количество параметров среди моделей генерации изображений с открытым исходным кодом. Hybrid Image 3.0 поддерживает генерацию изображений в режиме реального времени, пользователи могут...
7 месяцев назад
049.9K
Hunyuan3D-Part - 腾讯开源的免费3D组件生成模型

Hunyuan3D-Part - бесплатная модель генерации 3D-компонентов с открытым исходным кодом от Tencent

Hunyuan3D-Part (Hybrid 3D-Part) - это модель 3D-генерации, выпущенная и открытая компанией Tencent. Состоящая из P3 - SAM и X - Part, она впервые достигла высокой точности и управляемости 3D-генерации на основе компонентов, поддерживая 50+ автоматически генерируемых компонентов. Пользователи могут использовать...
7 месяцев назад
051.1K
AudioFly - 科大讯飞开源的文本生成音效AI模型

AudioFly - модель искусственного интеллекта KU Xunfei с открытым исходным кодом для генерации текста и звука

AudioFly - это модель искусственного интеллекта с открытым исходным кодом для генерации звуковых эффектов из текста, разработанная компанией KDDI. Основана на архитектуре потенциальной диффузионной модели с 1 миллиардом параметров, обучена на крупномасштабных разнообразных аудиотекстовых наборах данных, включая публичные наборы данных, такие как AudioSet, AudioCaps, TUT и внутренние...
7 месяцев назад
045.3K
Hunyuan3D-Omni - 腾讯混元开源的3D模型生成框架

Hunyuan3D-Omni - Tencent Mixed Source Open Source 3D Model Generation Framework

Hunyuan3D-Omni (Hybrid 3D-Omni) - это фреймворк с открытым исходным кодом для создания 3D-активов, разработанный командой Tencent's Hybrid 3D, который позволяет точно генерировать 3D-модели с помощью нескольких управляющих сигналов. Основанный на архитектуре Hunyuan3D 2.1, он представляет унифицированный кодер управления, который может обрабатывать точечные...
7 месяцев назад
049.2K
FLM-Audio - 智源联合南洋理工开源的全双工音频对话模型

FLM-Audio - Модель полнодуплексного аудиодиалога (FLM-Audio) с открытым исходным кодом от WisdomSource в сотрудничестве с Наньянгским технологическим институтом (NTI)

FLM-Audio - это нативная полнодуплексная макромодель аудиодиалога, выпущенная Пекинским исследовательским институтом искусственного интеллекта Zhiyuan совместно с Spin Matrix и Наньянгским технологическим университетом Сингапура и поддерживающая китайский и английский языки. Используя родную полнодуплексную архитектуру, она может объединять слушание, говорение и монолог на каждом временном шаге...
7 месяцев назад
042.4K
CWM - Meta FAIR开源的代码世界语言模型

CWM - Meta FAIR Open Source Code World Language Model

CWM (Code World Model) - это 32-миллиардная модель языка мира с открытым исходным кодом, выпущенная командой Meta FAIR и предназначенная для генерации и обоснования кода. Она вводит понятие "модель мира", которая может имитировать процесс выполнения кода, предсказывать изменения состояния переменных и продвигать...
7 месяцев назад
038.8K
Neovate Code - 蚂蚁开源的智能编程助手

Neovate Code - интеллектуальный помощник программиста Ant Open Source

Neovate Code - это интеллектуальный помощник программирования с открытым исходным кодом от отдела технологий Alipay Experience компании Ant Group, который повышает эффективность разработки с помощью технологии искусственного интеллекта. Благодаря функциям разговорной разработки разработчики могут описывать требования на естественном языке, Neovate Code понимает и генерирует соответствующие...
7 месяцев назад
042.4K
Audio2Face - NVIDIA开源的AI 3D面部动画生成模型

Audio2Face - открытая модель генерации 3D-анимации лица с искусственным интеллектом от NVIDIA

Audio2Face - это инструмент ИИ с открытым исходным кодом от NVIDIA, способный преобразовывать аудиосигнал в реалистичную 3D-анимацию лица. Анализируя особенности речи в аудио, такие как фонемы и интонации, он генерирует точную синхронизацию губ и тонкие эмоциональные выражения, чтобы придать виртуальным персонажам яркую человеческую мимику.
7 месяцев назад
044.1K
Qwen3-VL - 阿里云通义千问开源的多模态视觉语言大模型

Qwen3-VL - макромодели мультимодального визуального языка с открытым исходным кодом AliCloud Tongyi Qianqian

Qwen3-VL - это мультимодальная модель визуального языка с открытым исходным кодом, разработанная командой AliCloud Tongyi Qianqian, содержащая 235 миллиардов ссылок и около 471 ГБ файлов модели. Содержащая инструкции и версии мышления, она использует улучшенную чередующуюся компоновку MRope, DeepStack и другие технологии, которые могут эффективно использовать визуальные преобразования...
7 месяцев назад
056.1K
Qwen3Guard - 阿里Qwen开源的安全模型

Qwen3Guard - модель безопасности с открытым исходным кодом от Ali Qwen

Qwen3Guard - это модель тонкой защиты, основанная на базовой модели Qwen3 и предназначенная для обнаружения угроз безопасности. Она обеспечивает точную категоризацию запросов и ответов, предоставляет уровни риска и поддерживает английский, китайский и мультиязычные среды.Qwen3Guard доступен в двух про...
7 месяцев назад
046.9K
Qwen3-TTS-Flash - 阿里通义推出的语音合成模型

Qwen3-TTS-Flash - модели синтеза речи от Али Тонги

Qwen3-TTS-Flash - это передовая модель синтеза речи, разработанная Али Тонги, поддерживающая 17 тонов и 10 языков, включая мандаринский, английский, диалекты и т.д. Она обладает отличной стабильностью и высокой выразительностью китайской и английской речи, а также может автоматически регулировать тон голоса, чтобы сделать его более ярким.
7 месяцев назад
056.2K
Qwen3-Omni - 阿里通义推出的全模态AI模型

Qwen3-Omni - омнимодальная модель искусственного интеллекта, представленная Али Тонги

Qwen3-Omni - это полностью модальная модель ИИ, представленная командой Ali Tongyi, которая может работать с несколькими типами данных, такими как текст, изображения, аудио и видео, и поддерживает текстовое взаимодействие на 119 языках с низкой задержкой и высокой управляемостью.
7 месяцев назад
041.7K
DeepSeek-V3.1-Terminus - DeepSeek推出的最新版AI模型

DeepSeek-V3.1-Terminus - последняя версия модели искусственного интеллекта, представленная компанией DeepSeek.

DeepSeek-V3.1-Terminus - это обновленная версия DeepSeek-V3.1, языковой модели искусственного интеллекта от команды DeepSeek. Модель была оптимизирована с точки зрения согласованности языка, генерации кода и возможностей поиска для более точного...
7 месяцев назад
040.4K
Granite-Docling-258M - IBM开源的视觉语言模型

Гранит-Доклинг-258М - Визуальные языковые модели IBM с открытым исходным кодом

Granite-Docling-258M - это ультракомпактная модель визуального языка с открытым исходным кодом от IBM, предназначенная для эффективного преобразования документов. Модель преобразует документы в машиночитаемый формат, сохраняя при этом макет, таблицы, формулы и другие элементы в неизменном виде.
7 месяцев назад
038.1K
Lucy Edit - 开源的AI视频编辑工具,自然语言描述编辑

Lucy Edit - инструмент для редактирования видео с открытым исходным кодом и искусственным интеллектом, редактирование описаний на естественном языке

Lucy Edit - это инструмент для редактирования видео с открытым исходным кодом, разработанный компанией Decart AI. Позволяет пользователям редактировать видео с помощью простых описаний на естественном языке, таких как "изменить персонажа на белого медведя" или "превратить сцену в 2D-мультфильм", без необходимости сложной тонкой настройки или использования масок ...
7 месяцев назад
047K
LongCat-Flash-Thinking - 美团开源的高效推理模型

LongCat-Flash-Thinking - эффективная модель рассуждений для Meituan с открытым исходным кодом

LongCat-Flash-Thinking - это эффективная модель рассуждений, выпущенная командой LongCat в рамках Mission LongCat, которая становится все более мощной и профессиональной, сохраняя при этом экстремальную скорость LongCat-Flash-Chat. Модель основана на логике, математике, коде, интеллекте...
7 месяцев назад
037.2K
Ling-V2 - 蚂蚁百灵开源的MoE架构语言模型系列

Ling-V2 - Серия моделей языка архитектуры MoE с открытым исходным кодом Ant-Belling

Ling-V2 - это семейство крупномасштабных языковых моделей, основанных на архитектуре MoE, представленной командой Ant-Belling. Первая версия, Ling-mini-2.0, имеет 16 миллиардов общих параметров, при этом на одну входную лексему активируется только 1,4 миллиарда параметров.
7 месяцев назад
038.9K
Kronos - 清华和微软联合开源的金融K线图基础模型

Kronos - совместная открытая базовая модель финансовой K-диаграммы от Tsinghua и Microsoft

Kronos - это первая базовая модель K-линейного графика для финансового рынка, созданная совместно Университетом Цинхуа и Microsoft Research Asia. Анализируя данные K-линии акций, криптовалют и других активов, включая цену открытия, высокую цену, низкую цену, цену закрытия и объем, она может предсказывать будущее движение цен.
7 месяцев назад
068.4K
Wan2.2-Animate - 通义万相开源的动作生成模型

Wan2.2-Animate - генеративная модель для генерации действий из тунъи Ваньсяна с открытым исходным кодом

Wan2.2-Animate - это модель генерации действий с открытым исходным кодом от Tongyi Wanxiang, поддерживающая два режима: имитацию действий и ролевую игру. Пользователям нужно только ввести изображение персонажа и эталонное видео, модель может перенести движения и выражения видео персонажа на изображение персонажа, придавая изображению персонажа динамическое выражение...
7 месяцев назад
039.6K
Xiaomi-MiMo-Audio - 小米开源的首个原生端到端语音大模型

Xiaomi-MiMo-Audio - первая нативная сквозная речевая модель Xiaomi с открытым исходным кодом

Xiaomi-MiMo-Audio - это макромодель сквозной речи Xiaomi с открытым исходным кодом и 7 миллиардами параметров, обладающая такими мощными функциями, как многоязычный диалог, продолжение речи, обобщение с меньшим количеством образцов и понимание звука, которая способна достичь уровня SOTA в тестах на интеллект речи и понимание звука, превосходя Google Gemi...
7 месяцев назад
043.3K
InternVLA-A1 - 上海AI Lab开源一体化操作能力的具身大模型

InternVLA-A1 - Shanghai AI Lab Интеграция операционных возможностей для воплощенных больших моделей с открытым исходным кодом

InternVLA-A1 - это большая модель воплощенной работы, открытая Шанхайской лабораторией искусственного интеллекта. Она способна понимать, представлять и выполнять интеграцию, а также точно выполнять поставленные задачи. Модель объединяет реальные и симулированные операционные данные и автоматизирует построение массивных мультимодальных через крупномасштабные виртуально-реальные гибридные активы сцены...
7 месяцев назад
044.9K
VoxCPM - 面壁智能联合清华开源的端到端TTS模型

VoxCPM - Facing Intelligence и Tsinghua Open Source End-to-End TTS Model

VoxCPM - это модель генерации речи, совместно созданная Facade Intelligence и Шэньчжэньской международной высшей школой Университета Цинхуа. VoxCPM использует сквозную диффузионную авторегрессионную архитектуру для генерации непрерывных речевых представлений непосредственно из текста, преодолевая ограничения традиционной дискретной деамбигуации. Благодаря иерархическому моделированию языка и квантованию конечных состояний...
7 месяцев назад
049K
InternVLA·N1 - 上海AI Lab开源的端到端双系统导航大模型

InternVLA-N1 - Shanghai AI Lab Open Source End-to-End Dual System Navigation Large Model

InternVLA-N1 - это сквозная двухсистемная навигационная макромодель, открытая Шанхайской лабораторией искусственного интеллекта. Используя двухсистемную архитектуру, система 2 отвечает за понимание лингвистических команд и планирование дальних маршрутов, в то время как система 1 фокусируется на высокочастотной реакции и маневренном обходе препятствий. Модель обучается полностью на основе синтетических данных с помощью крупномасштабных цифровых ...
7 месяцев назад
044.2K
WebWeaver - 阿里通义开源的新型双智能体框架

WebWeaver - Ali Tongyi открыл новый фреймворк для тела с двойным интеллектом

WebWeaver - это новый фреймворк с двумя интеллектами, представленный командой Alibaba Tongyi, который в основном используется в открытых глубоких исследованиях и может имитировать процесс исследования человека, который делится на два интеллекта: планирование и письмо.
7 месяцев назад
041.9K
MCP Registry - GitHub推出的官方MCP服务器管理平台

MCP Registry - официальная платформа управления серверами MCP с GitHub.

MCP Registry - это централизованная платформа от GitHub, которая помогает разработчикам легче находить и устанавливать MCP-серверы. С помощью MCP Registry разработчики могут быстро найти необходимые им инструменты искусственного интеллекта в одном месте, что значительно упрощает...
7 месяцев назад
040.8K
VLAC - 上海AI Lab开源的具身奖励大模型

VLAC - большая модель воплощенных вознаграждений с открытым исходным кодом от Shanghai AI Lab

VLAC - это макромодель воплощенного вознаграждения с открытым исходным кодом от Шанхайской лаборатории искусственного интеллекта. Основанная на мультимодальной макромодели InternVL, она объединяет данные интернет-видео и данные о работе робота, чтобы обеспечить вознаграждение за процесс и оценку выполнения задачи для обучения робота с подкреплением в реальном мире.VLAC может эффективно ...
7 месяцев назад
035.9K
通义DeepResearch - 阿里通义开源的深度研究智能体

Tongyi DeepResearch - Орган глубокой разведки с открытым исходным кодом Ali Tongyi

Tongyi DeepResearch (Tongyi DeepResearch) - интеллектуальный орган с открытым исходным кодом, запущенный компанией Alibaba, предназначенный для глубокого поиска информации и рассуждений о сложных задачах, с 30 миллиардами параметров, поддерживающий несколько режимов рассуждений, включая режим ReAct и режим глубины...
7 месяцев назад
045.1K