Последние ресурсы по искусственному интеллекту

共 2922 篇文章
悟界·Emu3.5 - 智源研究院开源的多模态世界大模型

Wujie-Emu3.5 - Исследовательский институт Wisdom Source с открытым исходным кодом мультимодальной большой модели мира

Wujie-Emu3.5 - мультимодальная макромодель мира с открытым исходным кодом от Beijing Zhiyuan Artificial Intelligence Research Institute, имеющая 34 миллиарда ссылок и способная моделировать мир. Обученная на 10 триллионах мультимодальных токенов (включая 790 лет видеоданных), она может моделировать законы физики и достигать генерации графики, визуального руководства...
1 месяц назад
016K
GELab-Zero - 阶跃团队开源的端侧多模态GUI Agent模型

GELab-Zero - мультимодальная GUI-модель агента с открытым исходным кодом от команды Steps

GELab-Zero - это мультимодальная модель агента GUI с открытым исходным кодом от команды Step Leap, построенная на базовой модели Qwen3-VL-4B-Instruct с параметрами 4B. Она может распознавать элементы пользовательского интерфейса и выполнять такие операции, как нажатие, скольжение и т.д., а также поддерживает кросс-прикладную постановку задач...
1 месяц назад
020.2K
Depth Anything 3 - 字节跳动Seed开源的3D视觉重建模型

Depth Anything 3 - 3D модели визуальной реконструкции с открытым исходным кодом от Bitmap Seed

Depth Anything 3 (DA3) - это модель визуальной 3D-реконструкции, разработанная командой Byte Jump Seed с открытым исходным кодом. Благодаря единой архитектуре трансформеров для достижения пространственной реконструкции геометрии в любой точке обзора, необходимо только предсказать карту глубины и карту лучей, чтобы восстановить 3D-сцену, по сравнению с...
2 месяца назад
023.2K
DeepSeek-Math-V2 - DeepSeek开源的数学推理模型

DeepSeek-Math-V2 - математическая модель рассуждений с открытым исходным кодом DeepSeek

DeepSeek-Math-V2 - это математическая модель рассуждений с открытым исходным кодом от DeepSeek, компании по разработке искусственного интеллекта Phantom Cube. Последняя версия основана на улучшении DeepSeek-V3.2-Exp-Base, по производительности превосходит Gemini DeepThink и достигла международного номера...
2 месяца назад
018.7K
Z-Image - 阿里通义实验室开源的图像生成模型

Z-Image - модель генерации изображений с открытым исходным кодом от Ali Tongyi Labs

Z-Image - это модель генерации изображений с открытым исходным кодом от Ali Tongyi Labs, обладающая эффективными, быстрыми и мощными возможностями генерации изображений. Используя архитектуру однопоточного диффузионного трансформатора (S3-DiT), она объединяет текст, визуальную семантику и маркеры VAE изображений в единый входной поток...
2 месяца назад
030.9K
ROCK - 阿里巴巴开源的智能体训练环境沙箱

ROCK - песочница с открытым исходным кодом Alibaba для интеллектуальной среды тренировки тела

ROCK (Reinforcement Open Construction Kit) - это открытая песочница Alibaba для тренировки интеллекта, которая решает проблему невозможности масштабного обучения интеллекта в реальных условиях. ROCK предоставляет высокостабильный сервис управления песочницей...
2 месяца назад
016K
ViMax - 香港大学开源的多智能体视频生成框架

ViMax - мультиинтеллектуальная система генерации видеоизображения тела с открытым исходным кодом в Гонконгском университете

ViMax - это мультиинтеллектуальная система генерации видео с открытым исходным кодом от Лаборатории науки о данных Гонконгского университета, которая может автоматизировать весь процесс от творческого ввода до вывода видео. Интеграция функций генерации сценария, проектирования сцены, планирования съемок и рендеринга видео позволяет пользователям генерировать целостное видео кино- и телевизионного уровня с помощью описания на естественном языке...
2 месяца назад
027.8K
FLUX.2 - 黑森林开源的图像生成与编辑模型

FLUX.2 - модель генерации и редактирования изображений с открытым исходным кодом Black Forest

FLUX.2 - это модель генерации и редактирования изображений с открытым исходным кодом, выпущенная Black Forest Labs, которая поддерживает текстовые необработанные изображения, ссылки на несколько изображений и редактирование изображений с более богатой детализацией, четкими текстурами и стабильным освещением. Существует четыре версии: FLUX.2 [pro] (сравнима с топовой закрытой...
2 месяца назад
016K
Fara-7B - 微软开源的计算机操作Agent助手模型

Fara-7B - модель компьютерного ассистента Agent с открытым исходным кодом от Microsoft

Fara-7B - это выпущенная Microsoft с открытым исходным кодом модель компьютерно-оперативного агента (CUA) с 7 миллиардами параметров, основанная на архитектуре Qwen 2.5-VL-7B. Благодаря визуальному разбору скриншотов веб-страниц и выполнению кликов, вводов и т. д. на экране, ей не нужно полагаться на дополнительные деревья доступности или многочисленные большие модели...
2 месяца назад
020K
HunyuanOCR - 腾讯混元开源的光学字符识别专家模型

HunyuanOCR - экспертная модель Tencent с открытым исходным кодом для оптического распознавания символов

HunyuanOCR - это высокопроизводительная модель оптического распознавания символов с открытым исходным кодом, созданная гибридной командой Tencent и имеющая всего 1 миллиард ссылок. Разработанная на основе гибридной мультимодальной архитектуры, она имеет сквозной дизайн и может эффективно справляться с задачами обнаружения, распознавания и разбора текста. Модель набрала 94,1 балла в тесте на сложные документы, превзойдя...
2 месяца назад
021.9K
Supertonic - 开源的高性能AI 文本转语音系统,极速离线运行

Supertonic - высокопроизводительная система преобразования текста в речь на основе искусственного интеллекта с открытым исходным кодом, работающая в автономном режиме с бешеной скоростью.

Supertonic - это высокопроизводительная система преобразования текста в речь (TTS) с открытым исходным кодом, ориентированная на быструю генерацию речи на локальных устройствах. Используя технологию ONNX Runtime, она может работать на таких устройствах, как мобильные телефоны, компьютеры и даже Raspberry Pi, поддерживает 23 языка и речевые клоны, и не требует сетевого...
2 месяца назад
017.7K
MiMo-Embodied - 小米开源的跨领域具身智能基座模型

MiMo-Embodied - модель педалированного интеллекта Xiaomi с открытым исходным кодом для кросс-доменного встраивания

MiMo-Embodied - это первая в мире кросс-эмбодиальная базовая модель, открытая Xiaomi Group, которая успешно объединяет эмбодированный ИИ и автономное вождение. Она решает проблему миграции знаний между воплощенным ИИ и автономным вождением и обеспечивает единое моделирование задач в этих двух областях.
2 месяца назад
022.6K
MOSS-Speech - 复旦大学开源的语音到语音大模型

MOSS-Speech - Большая модель преобразования речи в речь с открытым исходным кодом Фуданьского университета

MOSS-Speech - это большая модель преобразования речи в речь (Speech-to-Speech) с открытым исходным кодом, разработанная командой профессора Цю Сипэна в Фуданьском университете. Она преодолевает традиционную обработку речи, не нуждаясь в текстовых подсказках, и напрямую понимает и генерирует речь, которая может захватывать нетекстовые элементы, такие как интонация и эмоции, делая...
2 месяца назад
017.3K
Parallax - Gradient开源的全球首个全自主AI操作系统

Parallax - первая в мире полностью автономная операционная система с искусственным интеллектом с открытым исходным кодом от Gradient

Parallax - это первая в мире "полностью автономная операционная система ИИ", открытая Gradient, распределенной лабораторией ИИ. Она поддерживает кроссплатформенное развертывание больших моделей на Mac, Windows и других гетерогенных устройствах, позволяя пользователям полностью контролировать модель, данные и память ИИ. В систему встроена сетевая ...
2 месяца назад
036.5K
HunyuanVideo 1.5 - 腾讯混元免费开源的轻量级视频生成模型

HunyuanVideo 1.5 - бесплатная модель генерации видео с открытым исходным кодом Tencent mixed yuan

HunyuanVideo 1.5 является Tencent гибридной большой модели команды открытым исходным кодом легкая модель генерации видео, основанная на Diffusion Transformer (DiT) архитектуры, количество параметров составляет 8,3B. поддержка генерации 5-10 секунд видео высокой четкости, суб...
2 месяца назад
021.2K
Awex - 蚂蚁集团开源的高性能权重交换框架

Awex - фреймворк для высокопроизводительного обмена весом с открытым исходным кодом от Ant Group

Awex - это высокопроизводительный фреймворк с открытым исходным кодом Ant Group, предназначенный для крупномасштабной синхронизации параметров в обучении с подкреплением. Он может выполнять терабайты обмена параметрами за секунды, значительно повышая эффективность обучения и вывода. Awex обладает очень высокой скоростью синхронизации, в кластере с тысячей карт модели с триллионом параметров могут быть завершены за 6 секунд после полного...
2 месяца назад
034.1K
Seekdb - 蚂蚁OceanBase开源的AI原生混合搜索数据库

Seekdb - гибридная поисковая база данных Ant OceanBase с открытым исходным кодом и искусственным интеллектом

Seekdb (OceanBase Seekdb) - это гибридная поисковая база данных Ant OceanBase с открытым исходным кодом AI native, поддерживающая унифицированный гибридный поиск векторных, полнотекстовых, скалярных и геопространственных данных, использующая многоступенчатый механизм поиска, для достижения высокой точности поиска при низкой задержке ...
2 месяца назад
016.7K
LoopTool - 上海交大联合小红书开源的自动化工具调用数据进化框架

LoopTool - автоматизированный инструмент с открытым исходным кодом для вызова механизма эволюции данных, разработанный Шанхайским университетом Цзяотун и компанией Little Red Book.

LoopTool - это автоматизированный фреймворк для эволюции данных "инструмент-вызов", открытый Шанхайским университетом Цзяо Тун и командой Little Red Book, разработанный для расширения возможностей "инструмент-вызов" больших языковых моделей. Он оптимизирует генерацию данных и обучение модели через замкнутый цикл итераций, используя модели с открытым исходным кодом (например, Qwen3-32B) в качестве генерации данных...
2 месяца назад
034.6K
SAM 3D - Meta开源的3D重建模型系列

SAM 3D - серия моделей для 3D-реконструкции с открытым исходным кодом Meta

SAM 3D - это модель 3D-реконструкции на основе серии SAM от Meta, включающая две ветви: SAM 3D Objects и SAM 3D Body. SAM 3D Objects может генерировать интерактивные 3D-модели объектов по одной фотографии, поддерживая...
2 месяца назад
019.5K
AgentEvolver - 阿里通义实验室开源的智能体进化系统

AgentEvolver - система с открытым исходным кодом для эволюционирующих интеллектов от Ali Tongyi Lab

AgentEvolver - это интеллектуальная система эволюции тела с открытым исходным кодом от Alibaba Tongyi Lab. Благодаря трем механизмам самоопроса, самонавигации и самоатрибуции, она обеспечивает автономное обучение и эволюцию интеллекта.AgentEvolver использует сервис-ориентированную архитектуру, которая объединяет экологическую песочницу, LLM и sc...
2 месяца назад
040.5K
MemOS - 开源的AI记忆管理与调度平台,共享长期记忆

MemOS - платформа управления памятью и планирования ИИ с открытым исходным кодом для обмена долгосрочными воспоминаниями

MemOS - это фреймворк с открытым исходным кодом для управления памятью и планирования для больших языковых моделей (LLM), таких как MemTensor. Рассматривая память как ресурс, столь же важный, как и арифметическая мощность, он унифицирует управление открытым текстом, состоянием активации и памятью параметров с помощью стандартизированных блоков памяти MemCube.
2 месяца назад
034.3K
WithAnyone - 复旦联合阶跃星辰开源的AI合照生成模型

WithAnyone - Фудань совместный шаг прыжок звезда открытым исходным кодом AI модель генерации фотографий

WithAnyone - это модель искусственного интеллекта для создания фотографий, разработанная совместно Фуданьским университетом и компанией StepStar, которая решает распространенную проблему "копирования и вставки" в традиционном искусственном интеллекте для создания изображений и обеспечивает более естественное и контролируемое создание изображений с участием нескольких человек. Модель основана на крупномасштабном наборе данных MultiID-2M ...
2 месяца назад
034.1K
ChatTutor - 开源的AI教学辅助工具,可视化互动学习

ChatTutor - учебное пособие с искусственным интеллектом с открытым исходным кодом для визуализации интерактивного обучения

ChatTutor - это учебное пособие с открытым исходным кодом AI, ориентированное на визуальное интерактивное обучение по предметам STEM. Благодаря многоинтеллектуальной архитектуре тела для достижения диалога Q&A и динамической функции рисования, могут быть нарисованы на доске в реальном времени математические графики, физические схемы или карты ума, чтобы помочь пользователям интуитивно понять абстрактные общие...
2 месяца назад
014.5K
DPAI Arena - JetBrains开源的AI编程基准测试平台

DPAI Arena - платформа бенчмаркинга JetBrains с открытым исходным кодом для программирования ИИ

DPAI Arena (Developer Productivity AI Arena) - это открытая платформа бенчмаркинга, созданная компанией JetBrains для измерения эффективности инструментов разработки с помощью искусственного интеллекта в реальных задачах программной инженерии. С помощью прозрачного потока оценок...
2 месяца назад
018.8K
EverMemOS - 盛大团队推出的开源长期记忆操作系统

EverMemOS - операционная система с открытым исходным кодом для долговременной памяти от команды Shanda

EverMemOS - операционная система долговременной памяти с открытым исходным кодом, созданная командой Shanda под руководством Чена Тяньцяо, предназначенная для искусственного интеллекта, чтобы решить проблему нехватки памяти, вызванную фиксированным контекстным окном больших языковых моделей. Система основана на механизме памяти человеческого мозга и использует четырехслойную архитектуру (слой агента, слой памяти, слой индекса...
2 месяца назад
020.1K
Astron Agent - 科大讯飞开源的企业级智能工作流开发平台

Astron Agent - открытая платформа KDDI для разработки интеллектуальных рабочих процессов корпоративного класса

Astron Agent - это платформа разработки интеллектуальных рабочих процессов корпоративного уровня с открытым исходным кодом от KDDI, ориентированная на то, чтобы помочь предприятиям быстро создать пригодное для использования приложение AI-агента. Используя стек технологий Java + Spring Boot, поддерживается легкое частное развертывание (минимум 2-ядерная конфигурация 4G), встроенный ...
2 месяца назад
018.4K
Bee - 腾讯混元联合清华开源的全栈多模态大模型项目

Bee - проект Tencent Mixed Meta и Tsinghua Open Source Full Stack Multimodal Large Model Project

Bee - это полнофункциональное решение с открытым исходным кодом для мультимодальных больших моделей, созданное совместными усилиями команды Tencent Mixed Element и Университета Цинхуа с целью сокращения разрыва в производительности между моделями с открытым и закрытым исходным кодом за счет повышения качества данных. Проект содержит три основных достижения: 15-миллионный высококачественный двухслойный набор данных CoT Honey-Data...
2 месяца назад
016.3K
InfinityStar - 字节开源的统一时空自回归视频生成框架

InfinityStar - байтовая унифицированная система генерации пространственно-временного видео с авторегрессией с открытым исходным кодом

InfinityStar - это унифицированный пространственно-временной авторегрессионный фреймворк с открытым исходным кодом от ByteDance, предназначенный для создания изображений и видео высокого разрешения. Используя дискретный авторегрессионный подход, он может одновременно решать задачи преобразования текста в изображение, текста в видео и изображения в видео в рамках одной модели. Фреймворк протестирован в бенчмарке VBench ...
2 месяца назад
016.9K
Koina - 慕尼黑工大联合密歇根大开源的去中心化机器学习平台

Koina - децентрализованная платформа машинного обучения с открытым исходным кодом, разработанная TU Munich совместно с Мичиганским университетом

Koina - это децентрализованная платформа машинного обучения с открытым исходным кодом, направленная на упрощение анализа данных по протеомике. Она разработана командой из Мюнхенского технического университета (Германия) и Мичиганского университета (США). Платформа интегрирует более 30 основных моделей (например, ProSIT, MS²PIP) через стандартизированный интерфейс и поддерживает пептидные масс...
2 месяца назад
018K
VibeThinker-1.5B - 微博AI开源的15亿参数大型语言模型

VibeThinker-1.5B - крупномасштабная языковая модель с 1,5 миллиардами параметров, открытая Weibo AI

VibeThinker-1.5B - это крупномасштабная языковая модель с 1,5 миллиардами параметров, открыто представленная Weibo AI. Доработанная на основе Qwen2.5-Math-1.5B от Alibaba, она оптимизирована для решения математических задач и задач кодирования и демонстрирует лучшие в отрасли показатели точности выводов.
2 месяца назад
022K
BestBlogs - 开源的AI内容聚合平台,精选优质技术内容

BestBlogs - платформа для агрегации контента ИИ с открытым исходным кодом и подборкой качественного технического контента

BestBlogs - это платформа, ориентированная на предоставление высококачественного контента для практиков в области технологий, предпринимателей, менеджеров по продуктам и других. Она собирает статьи, подкасты, видео и другой мультиформатный контент из более чем 400 высококачественных блогов с помощью RSS-каналов и технологии crawler. Основная сила компании заключается в использовании искусственного интеллекта, большого языка...
2 месяца назад
015.7K
Egocentric-10K - Build AI开源的第一人称视角机器人数据集

Egocentric-10K - открытый набор данных для робототехники с перспективой от первого лица Build AI

Egocentric-10K - это крупномасштабная видеодата с видом от первого лица (эгоцентрическая), открытая командой build.ai. Набор содержит 10 000 часов видео, в общей сложности 1,08 миллиарда кадров, с участием 2...
2 месяца назад
017.2K
LazyCraft - 开源AI Agent应用开发与管理平台,基于LazyLLM构建

LazyCraft - платформа для разработки и управления приложениями ИИ-агентов с открытым исходным кодом, построенная на базе LazyLLM

LazyCraft - это платформа разработки и управления приложениями AI Agent с открытым исходным кодом, созданная компанией Shangtang на основе открытого исходного кода LazyLLM, предоставляющая универсальные решения по разработке приложений AI для предприятий и разработчиков. Помогает разработчикам быстро создавать и выпускать крупные модели приложений с низким порогом и низкой стоимостью...
2 месяца назад
022.2K
Kosong - Moonshot AI开源的全新AI Agent开发框架

Kosong - Moonshot AI's New Open Source AI Agent Development Framework

Kosong - это новый фреймворк для разработки агентов искусственного интеллекта с открытым исходным кодом от Moonshot AI, предоставляющий разработчикам легкую, гибкую и высокомасштабируемую базовую поддержку для создания интеллектуальных приложений следующего поколения. Асинхронный механизм планирования инструментов позволяет эффективно планировать работу нескольких инструментов...
2 месяца назад
019.9K
SenseNova-SI - 商汤科技开源的空间智能大模型系列

SenseNova-SI - семейство больших моделей пространственной разведки с открытым исходным кодом от ShangTang Technology

SenseNova-SI - это грандиозная модель пространственного интеллекта с открытым исходным кодом, выпущенная компанией ShangTech и направленная на улучшение способностей ИИ к пространственному пониманию и рассуждению. Модель демонстрирует превосходство в шести основных измерениях, включая пространственные измерения, реконструкцию, оценку отношений, преобразование перспективы, анализ деформации и пространственные рассуждения, значительно превосходя другие...
2 месяца назад
016K
Omnilingual ASR - Meta推出的多语言语音识别框架

Omnilingual ASR - многоязычный фреймворк для распознавания речи от Meta

Omnilingual ASR - это многоязычная система распознавания речи, представленная компанией Meta, охватывающая 1600+ языков, с 78% языковым коэффициентом ошибок ниже 10%. Ее кодер wav2vec 2.0 с 7 миллиардами параметров в сочетании с декодером CTC и Transformer, поддержива...
2 месяца назад
019.5K
Frappe Builder - 开源的AI低代码网站构建工具,拖拽组件快速搭建

Frappe Builder - ИИ-конструктор сайтов с открытым исходным кодом, перетаскиваемые компоненты для быстрого создания.

Frappe Builder - это конструктор сайтов с открытым исходным кодом, разработанный компанией Frappe, основной особенностью которого является предоставление Figma-подобного визуального редактора, поддерживающего перетаскивание компонентов для быстрого создания сайтов. Является частью экологии Frappe (Frappeverse)...
2 месяца назад
017.9K
DeepOCR - 基于DeepSeek-OCR模型的开源复刻项目

DeepOCR - проект реплики с открытым исходным кодом, основанный на модели DeepSeek-OCR

DeepOCR - проект репликации с открытым исходным кодом, реализующий основную архитектуру DeepSeek-OCR, которая эффективно обрабатывает текстовую информацию с помощью методов оптического сжатия. Ядром является DeepEncoder, состоящий из SAM-базы (обработка изображений высокого разрешения), 16× сверточного компрессора...
2 месяца назад
017.1K
Glow - 开源的命令行工具,支持在终端渲染Markdown文件

Glow - инструмент командной строки с открытым исходным кодом, поддерживающий рендеринг файлов Markdown в терминале

Glow - это инструмент командной строки с открытым исходным кодом для элегантного отображения файлов Markdown в терминале. Инструмент поддерживает выделение блоков кода, математических формул и других сложных элементов, предоставляя множество возможностей, таких как пользовательские стили, отображение страниц, поддержка мыши и так далее.
2 месяца назад
018.3K
NocoBase - 免费开源的AI无代码开发平台,可视化构建应用

NocoBase - бесплатная платформа для визуальной разработки приложений с открытым исходным кодом без ИИ

NocoBase основан на платформе разработки без кода, управляемой искусственным интеллектом, с открытым исходным кодом, поддерживает быстрое создание бизнес-систем, без программирования, может быть завершена через конфигурацию разработки приложений. Проект использует протокол Apache-2.0, обеспечивает частное развертывание и гибкую масштабируемость, подходит для управления предприятием, платформы сотрудничества и других областей ...
2 месяца назад
014.9K
UniWorld V2 - 兔展智能联合北大推出的新一代图像编辑模型

UniWorld V2 - новое поколение моделей для редактирования изображений, выпущенное RabbitShow Intelligence и Пекинским университетом

UniWorld V2 - это новое поколение модели для редактирования изображений, созданной совместно RabbitZhan Intelligence и командой UniWorld Пекинского университета. Она обладает значительными преимуществами в области редактирования изображений, особенно в понимании китайского языка и выполнении сложных команд. Модель способна точно передавать художественные китайские шрифты и поддерживать тонкую...
2 месяца назад
018.4K
SmartResume - 阿里巴巴开源的AI简历解析与优化工具

SmartResume - открытый инструмент Alibaba для анализа и оптимизации резюме с помощью искусственного интеллекта

SmartResume - это интеллектуальный инструмент Alibaba с открытым исходным кодом для разбора и оптимизации резюме, который эффективно извлекает структурированную информацию, такую как основные сведения, образование и опыт работы, из документов PDF, изображений или документов Office. Благодаря интеграции технологии OCR и метаданных PDF...
2 месяца назад
019.8K
Step-Audio-EditX - 阶跃星辰开源的首个LLM级音频编辑大模型

Step-Audio-EditX - первая большая модель редактирования звука с открытым исходным кодом уровня LLM от Step-Star

Step-Audio-EditX - макромодель редактирования звука с открытым исходным кодом, разработанная командой Step-Star и ориентированная на тонкую манипуляцию аудиоконтентом с помощью технологий искусственного интеллекта. Модель способна динамически настраивать настроение аудио, стиль речи (например, мелочность, акцент старика и т. д.) и паралингвистические элементы (например, смех, вздох...
2 месяца назад
020.3K
Open-o3 Video - 北大联合字节开源的视频推理模型

Open-o3 Video - модель рассуждений о видео с открытым исходным кодом Пекинского университета Объединенные байты

Open-o3 Video - это модель вывода видео с открытым исходным кодом, разработанная совместно Пекинским университетом и ByteDance и направленная на улучшение вывода видео с помощью временных и пространственных данных. Явное обозначение ключевых свидетельств временными метками и ограничительными рамками помогает модели лучше понимать и интерпретировать видеоконтент.
2 месяца назад
017K
Handy - 开源免费的本地AI语音转文字工具

Handy - бесплатный инструмент для преобразования речи в текст с открытым исходным кодом на основе искусственного интеллекта

Handy - это бесплатный локальный инструмент преобразования речи в текст с открытым исходным кодом, поддерживающий системы Windows, MacOS и Linux, разработанный на Rust и React. Обрабатывая голосовые данные локально, без загрузки в облако, он гарантирует конфиденциальность и безопасность, а также подходит для быстрой транскрипции и ввода текста.
2 месяца назад
029.1K
FG-CLIP 2 - 360开源的图文跨模态视觉语言模型

FG-CLIP 2 - 360 Open Source Cross-Modal Visual Language Model for Graphics

FG-CLIP 2 - ведущая в мире графическая кросс-модальная модель визуального языка (VL-M), созданная 360 Artificial Intelligence Research Institute, превосходящая аналогичные модели от Google и Meta в 29 авторитетных бенчмарках, что делает ее самой мощной VL-M на сегодняшний день.Она способна точно определить грубые...
2 месяца назад
018.2K
微舆BettaFish - 开源的多智能体舆情分析系统

Micro Opinion BettaFish - мультиинтеллектуальная система анализа мнений с открытым исходным кодом

BettaFish - это мультиинтеллектуальная система анализа мнений с открытым исходным кодом. Используя многоинтеллектуальную архитектуру, агенты Query, Media, Insight, Report и другие работают вместе, чтобы достичь замкнутого цикла поиска, извлечения и отчетности. Система поддерживает управляемую искусственным интеллектом полную ...
2 месяца назад
045.1K
Ouro - 字节跳动Seed团队开源的新型循环语言模型

Ouro - новая циклическая языковая модель с открытым исходным кодом от команды ByteHopper Seed

Ouro - это новый тип Looped Language Models (LLMs), разработанный командой ByteDance Seed, основной инновацией которого является непосредственное построение возможностей вывода на этапе предварительного обучения с помощью рекуррентной вычислительной структуры с общим доступом к параметрам. Модель использует 24 слоя в качестве базового блока, через...
2 месяца назад
023.8K
ChronoEdit - 英伟达与多伦多大学联合开源的AI图像编辑框架

ChronoEdit - ИИ-фреймворк для редактирования изображений с открытым исходным кодом от NVIDIA и Университета Торонто

ChronoEdit, система редактирования изображений с открытым исходным кодом, разработанная NVIDIA совместно с Университетом Торонто, переопределяет задачу редактирования изображений как задачу генерации видео, чтобы обеспечить временное и физическое соответствие результатов редактирования. Путем дистилляции предварительно обученной модели генерации видео с 14B параметрами из...
2 месяца назад
023K
LongCat-Flash-Omni - 美团开源的全模态大语言模型

LongCat-Flash-Omni - полностью модальная модель большого языка для Meituan с открытым исходным кодом

LongCat-Flash-Omni - это полностью модальная модель большого языка с открытым исходным кодом, выпущенная командой LongCat из Meituan. С масштабом параметров 560 миллиардов (27 миллиардов активированных параметров) она позволяет достичь миллисекундного уровня взаимодействия в реальном времени с аудио и видео при сохранении большого количества параметров.
2 месяца назад
022.2K
Petri - Anthropic开源的 AI 安全审计框架

Petri - система аудита безопасности ИИ с открытым исходным кодом от Anthropic

Petri - это система аудита безопасности ИИ с открытым исходным кодом, разработанная компанией Anthropic, которая систематически оценивает безопасность и поведенческую согласованность моделей ИИ. Имитируя реальный сценарий, в котором автоматический аудитор проводит несколько раундов диалога с целевой моделью, а затем агент-судья действует на...
2 месяца назад
018.5K
Kimi Linear - 月之暗面开源的新型混合线性注意力架构

Kimi Linear - новая гибридная архитектура линейного внимания с открытым исходным кодом на темной стороне Луны

Kimi Linear - это новая гибридная архитектура линейного внимания с открытым исходным кодом от Dark Side of the Moon, в основе которой лежит Kimi Delta Attention (KDA), оптимизирующая традиционную модель внимания за счет более тонкого механизма регулировки, значительно повышающего эффективность аппаратного обеспечения и возможности управления памятью...
2 месяца назад
029.6K
FIBO - 全球首个开源原生支持JSON的文本生成图像模型

FIBO - первая в мире программа с открытым исходным кодом, поддерживающая JSON-текст для создания моделей изображений.

FIBO - это первая в мире модель изображений для генерации текста с открытым исходным кодом и поддержкой JSON, разработанная компанией Bria AI. Основанная на архитектуре DiT (Diffusion Transformer) с 8B параметрами, она использует метод обучения Flow Matching...
2 месяца назад
021.5K
SoulX-Podcast - Soul AI Lab开源的对话式语音合成模型

SoulX-Podcast - модель синтеза разговорной речи от Soul AI Lab с открытым исходным кодом

SoulX-Podcast - это продвинутая модель синтеза разговорной речи с открытым исходным кодом от Soul AI Lab, предназначенная для создания высококачественного подкаст-контента. SoulX-Podcast способна генерировать несколько раундов диалога и имитировать плавный диалог в реальных сценариях подкастинга, поддерживая мандаринский, английский и несколько китайских...
3 месяца назад
030.5K
GigaBrain-0 - 开源的具身基础模型,由世界模型生成数据驱动

GigaBrain-0 - базовая воплощенная модель с открытым исходным кодом, управляемая данными генерации модели мира

GigaBrain-0 - первая в Китае сквозная воплощенная базовая модель Vision-Language-Action (VLA), использующая мировые данные о генерации моделей для достижения реального машинного обобщения и совместно выпущенная с открытым исходным кодом компаниями GigaVision и Hubei Humanoid Robotics Innovation Centre. В ней используется гибридная архитектура Transformer, объединяющая ...
3 месяца назад
018.8K
Ming-flash-omni-Preview - 蚂蚁集团开源的全模态大模型

Ming-flash-omni-Preview - макромодель Ant Group с открытым исходным кодом и полной модальностью

Ming-flash-omni-Preview - полномодальная макромодель с открытым исходным кодом, выпущенная Ant Group inclusionAI, с масштабом параметров в сотни миллиардов, основанная на разреженной MoE архитектуре Ling 2.0, с общими параметрами 103B и активациями 9B...
3 месяца назад
022.8K
OmniVinci - NVIDIA开源的全模态大语言模型

OmniVinci - Омнимодальная модель большого языка с открытым исходным кодом от NVIDIA

OmniVinci - это крупномасштабная языковая модель с открытым исходным кодом, полностью модальная, разработанная NVIDIA, которая решает проблему модальной фрагментации в мультимодальных моделях с помощью архитектурных инноваций и оптимизации данных. Выравнивание визуальных и аудио вкраплений улучшено с помощью OmniAlignNet, которая использует временной групповой захват...
3 месяца назад
022.8K
olmOCR 2 - AI2开源的多模态文档解析模型

olmOCR 2 - модель мультимодального разбора документов с открытым исходным кодом AI2

olmOCR 2 - это мультимодальная модель разбора документов с открытым исходным кодом от Института искусственного интеллекта Аллена (AI2), которая является обновленной версией olmOCR. Оцифрованные печатные документы (например, PDF) будут иметь высокую...
3 месяца назад
027.6K
ValueCell - 开源的多智能体金融平台,多个Agent分工协作

ValueCell - многоинтеллектуальная финансовая платформа с открытым исходным кодом и совместной работой нескольких агентов

ValueCell - это финансовая платформа с открытым исходным кодом, повышающая эффективность финансового анализа и управления инвестициями с помощью технологии искусственного интеллекта. Имитируя профессиональную инвестиционную команду, множество интеллектов ИИ работают вместе, охватывая анализ рынка, анализ настроений, фундаментальные исследования, автоматическую торговлю и другие функции, предоставляя пользователям всесторонний...
3 месяца назад
044.6K
Dexbotic - 原力灵机开源的具身智能VLA模型一站式科研服务平台

Dexbotic - машина Силы Духа с открытым исходным кодом воплощенного интеллекта VLA модель универсальной платформы исследовательских услуг

Dexbotic - это сервисная платформа с открытым исходным кодом Visual-Linguistic-Action (VLA) model of embodied intelligence one-stop research service platform компании Dexmal, которая решает проблемы фрагментации и низкой эффективности исследований в области воплощенного интеллекта. Основанная на PyTorch, Dexbotic является универсальной платформой исследовательского сервиса для решения проблем фрагментации и низкой эффективности исследований в области воплощенного интеллекта...
3 месяца назад
020.5K
LongCat-Video - 美团LongCat开源的视频生成模型

LongCat-Video - LongCat - модель генерации видео с открытым исходным кодом Mission

LongCat-Video - это модель генерации видео с открытым исходным кодом на 1,36 миллиарда параметров, созданная командой LongCat по протоколу MIT с открытым исходным кодом и поддерживающая три основные задачи: генерация видео с текстом, генерация видео с графом и продолжение видео. Модель, благодаря стратегии генерации "от грубого к тонкому" и блочному механизму разреженного внимания, может в течение нескольких минут ...
3 месяца назад
038.7K
DreamOmni2 - 港科大开源的多模态AI图像编辑与生成模型

DreamOmni2 - модель редактирования и генерации мультимодальных изображений ИИ с открытым исходным кодом HKUST

DreamOmni2 - это мультимодальная модель редактирования и генерации изображений с открытым исходным кодом, созданная командой Цзяцзя в HKUST. Она может одновременно обрабатывать текстовые и графические команды, а также поддерживает несколько опорных изображений, предоставляя создателям более гибкие возможности для творчества. Модель обучается с помощью трехэтапного процесса синтеза данных, совместного обучения генерации/редактирования...
3 месяца назад
025.5K
混元世界模型1.1 - 腾讯混元发布的开源3D重建大模型

Модель смешанного мира 1.1 - Tencent Mixed World выпустила открытую 3D-реконструированную большую модель

WorldMirror 1.1 (WorldMirror) - это 3D-реконструкция больших моделей с открытым исходным кодом, выпущенная командой Tencent's WorldMirror, которая является обновленной версией серии WorldMirror. Она поддерживает многоракурсные изображения, видео и мультимодальные априорные данные, такие как положение камеры, внутренняя ссылка, карта глубины и т. д. Она преодолевает традиционную 3D-реконструкцию, которая полагается только на...
3 месяца назад
025.2K
DeepSeek-OCR - DeepSeek开源的光学字符识别模型

DeepSeek-OCR - модель оптического распознавания символов с открытым исходным кодом DeepSeek

DeepSeek-OCR - это усовершенствованная модель оптического распознавания символов (OCR), открытая командой DeepSeek, которая преобразует текст в изображения с помощью технологии "контекстного оптического сжатия" и использует визуальные маркеры для сжатия и декодирования для эффективной обработки длинных текстов.
3 месяца назад
031K
VitaBench - 美团LongCat开源的交互式Agent评测基准

VitaBench - бенчмарки MMT LongCat Open Source Interactive Agent Review

VitaBench - это первый интерактивный эталон оценки агентов для сложных жизненных сценариев, выпущенный командой LongCat компании Meituan и оценивающий всесторонние возможности больших модельных интеллектов в реальных жизненных сценариях. В качестве носителей для создания пакетов используются три высокочастотных жизненных сценария: заказ еды на вынос, обед в ресторане и путешествие...
3 месяца назад
022.3K
MinerU2.5 - 上海AI Lab联合北大开源的文档解析模型

MinerU2.5 - открытая модель синтаксического анализа документов из Шанхайской лаборатории искусственного интеллекта и Пекинского университета

MinerU2.5 - это модель визуального языка, разработанная совместно Шанхайской лабораторией искусственного интеллекта и командой Пекинского университета и направленная на эффективный разбор изображений документов высокого разрешения. Основная инновация заключается в двухфазном дизайне "обнаружение глобального расположения с последующим распознаванием локального содержания": первая фаза представляет собой низкое разрешение...
3 месяца назад
033.4K
LongCat-Audio-Codec - 美团LongCat开源的语音编解码方案

LongCat-Audio-Codec - голосовой кодек LongCat с открытым исходным кодом для Meituan

LongCat-Audio-Codec - это речевой кодек с открытым исходным кодом от команды LongCat из Meituan. Решение предназначено для Speech Large Language Model (Speech LLM), посредством семантического и акустического механизма параллельного извлечения Token, учитывающего семантические и акустические особенности речи ...
3 месяца назад
020.1K
PaddleOCR-VL - 百度开源的超轻量级视觉-语言模型

PaddleOCR-VL - ультралегкие визуально-лингвистические модели с открытым исходным кодом от Baidu

PaddleOCR-VL - это ультралегкая визуально-лингвистическая модель Baidu с открытым исходным кодом, оптимизированная для сценариев парсинга документов. Модель содержит всего 0,9 Б параметров, благодаря слиянию динамического визуального кодера высокого разрешения и легкой языковой модели ERNIE, сохраняя при этом высокую точность и значительно снижая вычислительные затраты.
3 месяца назад
031.3K
UniPixel - 香港理工、腾讯、中科院等开源的像素级多模态模型

UniPixel - мультимодальная модель на уровне пикселя с открытым исходным кодом от Гонконгского политехнического института, Tencent, CAS и др.

UniPixel - это новая мультимодальная модель, совместно предложенная Гонконгским политехническим университетом, компанией Tencent, Китайской академией наук и компанией Vivo для достижения понимания визуального языка на уровне пикселей. Объединяя возможности привязки к объектам и сегментации, она поддерживает различные тонкие задачи, такие как сегментация изображений, сегментация видео, понимание регионов и пи...
3 месяца назад
025.4K
DiaMoE-TTS - 清华联合巨人网络开源的多方言语音合成框架

DiaMoE-TTS - фреймворк для синтеза речи с открытым исходным кодом из нескольких диалектов, разработанный компаниями Tsinghua и Giant Network

DiaMoE-TTS - это система синтеза речи для нескольких диалектов, созданная совместно Университетом Цинхуа и Giant Network на основе Международного фонетического алфавита (IPA) для решения проблем нехватки диалектных данных, несоответствия орфографии и сложности фонологических изменений. Благодаря единому стандартизированному представлению фонем на основе IPA, устраняются междиалектные различия ...
3 месяца назад
026.7K
Kandinsky 5.0 - 俄罗斯AI团队开源的视频生成模型系列

Кандинский 5.0 - серия моделей генерации видео с открытым исходным кодом от российской команды ИИ

Kandinsky 5.0 - это новейшая серия моделей поколения видео, разработанная российской командой искусственного интеллекта и ориентированная на легкий дизайн и высокую производительность. Первая модель серии, Kandinsky 5.0 Video Lite, имеет всего 2 миллиарда параметров, но превосходит аналогичные модели 14B, особенно...
3 месяца назад
032.8K
SongBloom - 腾讯联合港中文、南大开源的歌曲生成模型

SongBloom - модель генерации песен с открытым исходным кодом от Tencent в сотрудничестве с HKCS и NTU

SongBloom - это модель генерации песен с открытым исходным кодом, разработанная Tencent AI Lab в сотрудничестве с Китайским университетом Гонконга (Шэньчжэнь) и Нанкинским университетом, которая решает проблему "пластичности" в генерации музыки ИИ и обеспечивает высококачественную, структурно полную генерацию песен. Просто введите 10 секунд эталонного аудио и соответствующий текст, и вы сможете...
3 месяца назад
026.5K
Pyscn - 专为Python开发者开源的免费AI代码质量分析工具

Pyscn - бесплатный инструмент анализа качества AI-кода с открытым исходным кодом для разработчиков на Python

Pyscn - это интеллектуальный инструмент анализа качества кода, предназначенный для разработчиков на Python для обнаружения потенциальных проблем в коде с целью улучшения его сопровождаемости. Он анализирует мертвый код с помощью диаграмм потока управления, выявляет дубликаты кода с помощью алгоритма APTED+LSH, вычисляет такие метрики, как связь модулей и сложность круга...
3 месяца назад
019K
Youtu-Embedding - 腾讯优图开源的通用文本表示模型

Youtu-Embedding - Tencent Youtu Open Source Универсальная модель представления текста

Youtu-Embedding - это универсальная модель представления текста с открытым исходным кодом от Tencent's Youtu Labs, предназначенная для корпоративных приложений. Текст отображается в векторное пространство высокой размерности с помощью глубоких нейронных сетей, так что семантически схожие предложения оказываются ближе друг к другу в этом пространстве, что позволяет добиться точного семантического поиска.
3 месяца назад
025.5K
SAIL-VL2 - 字节跳动开源的多模态视觉语言模型

SAIL-VL2 - мультимодальная модель визуального языка с открытым исходным кодом от ByteHop

SAIL-VL2 - это мультимодальная модель визуального языка с открытым исходным кодом, разработанная командой Byte Jump и ориентированная на совместное моделирование мультимодальных входных данных, таких как изображения и текст. Используя архитектуру разреженной смеси экспертов (MoE) и стратегию прогрессивного обучения, она достигает высокой производительности при масштабах параметров от 2B до 8B, особенно в областях графического понимания, математического...
3 месяца назад
018.9K
MineContext - 字节开源的主动式上下文感知AI伙伴

MineContext - байтовый партнер по ИИ с открытым исходным кодом и активным контекстом

MineContext - это активный контекстно-ориентированный ИИ-партнер с открытым исходным кодом от команды ByteDance Viking, призванный помочь пользователям эффективно управлять огромными объемами информации и повысить эффективность работы со знаниями. С помощью технологии понимания скриншотов и контента, автоматической записи ежедневных операций пользователя (таких как просмотр веб-страниц, редактирование документов и т.д.), поддержки...
3 месяца назад
033.1K
nanochat - Karpathy免费开源的低成本模型训练项目

nanochat - бесплатный и открытый проект Карпати по обучению недорогим моделям

nanochat - это проект с открытым исходным кодом, созданный легендой ИИ и бывшим директором Tesla AI Андреем Карпати, который позволяет людям быстро обучить небольшую языковую модель, подобную ChatGPT, при очень низких затратах и простоте. Весь проект использует всего около 800...
3 месяца назад
023.4K
LLaVA-OneVision-1.5 - 免费开源的多模态模型,高性能多模态理解

LLaVA-OneVision-1.5 - бесплатная мультимодальная модель с открытым исходным кодом для высокопроизводительного мультимодального понимания

LLaVA-OneVision-1.5 - мультимодальная модель с открытым исходным кодом, разработанная командой EvolvingLMMS-Lab, использующая шкалу параметров 8B и прошедшая компактный трехэтапный процесс обучения (выравнивание языка и изображения, концептуальное уравновешивание и введение знаний, а также тонкая настройка инструкций) на 128 A800...
3 месяца назад
022K
Paper2Video - 新加坡国立开源的学术论文自动生成演示视频项目

Paper2Video - проект NUS с открытым исходным кодом для автоматического создания демонстрационных видеороликов научных статей

Paper2Video - это проект с открытым исходным кодом для автоматизированного создания презентационных видеороликов для научных работ в лаборатории Show Lab, Национальный университет Сингапура. С помощью мультиинтеллектуального фреймворка PaperTalker статьи превращаются в полноценные презентационные видеоролики, содержащие слайды, субтитры, голос за кадром и аватар докладчика...
3 месяца назад
024.3K
NeuTTS Air - 支持离线CPU运行的免费轻量级语音合成模型

NeuTTS Air - бесплатная и легкая модель синтеза речи с поддержкой автономной работы на процессоре

NeuTTS Air - это модель синтеза речи с открытым исходным кодом, разработанная командой Neuphonic, которая может работать в режиме реального времени на локальных устройствах (например, мобильных телефонах, ноутбуках, Raspberry Pi), не завися от облака. Используя 0,5B-параметрическую архитектуру Qwen и самостоятельно разработанный кодек NeuCodec...
3 месяца назад
028.4K
KAT-Dev-72B-Exp - 快手开源的免费编程专用模型

KAT-Dev-72B-Exp - модель Racer с открытым исходным кодом для свободного программирования

KAT-Dev-72B-Exp - это модель большого языка программирования с открытым исходным кодом, созданная командой Racer, оптимизированная на основе методов обучения с подкреплением, которая достигла точности 74,6% в бенчмарке SWE-Bench Verified, что на данный момент является лучшим показателем среди моделей с открытым исходным кодом. Модель использует инновационные...
3 месяца назад
023.5K
Jamba Reasoning 3B - 以色列AI21 Labs开源的轻量级推理模型

Jamba Reasoning 3B - израильская модель рассуждений с открытым исходным кодом от AI21 Labs

Jamba Reasoning 3B - это легкая модель умозаключений с открытым исходным кодом, созданная израильским ИИ-стартапом AI21 Labs, обладающая высокой производительностью и потенциалом для широкого спектра приложений. Она использует гибридную архитектуру SSM-Transformer, которая сочетает в себе транс...
3 месяца назад
020K
吴恩达的《Agentic AI》最新智能体免费课程

Бесплатный курс по новейшим интеллектам от Agentic AI Эрнста Ву

Agentic AI - это новейший курс по интеллектуальным телам, запущенный Эрнестом Нг. Курс посвящен проектированию и созданию интеллектуальных тел, охватывая четыре паттерна проектирования: размышление, использование инструментов, планирование и совместная работа нескольких интеллектуальных тел. Учащиеся узнают, как сделать интеллектуальные тела, проверяющие выходы, автономно настраивающиеся с помощью теоретических объяснений и практического кода...
3 месяца назад
033.7K
OpenAgents - 开源免费的构建AI Agent网络开放协作项目

OpenAgents - бесплатный проект с открытым исходным кодом для создания сетей агентов искусственного интеллекта

OpenAgents - это проект с открытым исходным кодом, который создает сеть агентов искусственного интеллекта и способствует открытому сотрудничеству между ними. Предоставляется базовая сетевая инфраструктура, позволяющая агентам ИИ легко соединяться и сотрудничать. Пользователи могут быстро создать свою собственную сеть агентов, расширить функциональность за счет модульной архитектуры, поддерживать...
3 месяца назад
022.1K
Androidify - 谷歌开源如何在Android上构建AI应用的免费资源

Androidify - бесплатные ресурсы Google по созданию приложений с искусственным интеллектом на Android

Androidify - это проект Google с открытым исходным кодом, помогающий разработчикам научиться создавать приложения с искусственным интеллектом на Android. В проекте используются новейшие технологии Google, такие как Jetpack Compose, Gemini API (через Fire...
3 месяца назад
021.9K
Ling-1T - 蚂蚁集团开源的万亿参数通用语言模型

Ling-1T - универсальная модель языка с открытым исходным кодом от Ant Group с триллионами параметров

Ling-1T - универсальная языковая модель с триллионом параметров, открытая компанией Ant Group и являющаяся флагманским продуктом серии больших моделей Ling 2.0 компании Bering. Модель использует высокоэффективную архитектуру MoE, поддерживает 128K контекстных окон и превосходит GPT в 7 бенчмарках, включая генерацию кода, математические рассуждения и логические тесты...
3 месяца назад
043.8K
聆音EchoCare - 香港科学院开源的超声基座大模型

EchoCare - Гонконгская академия наук с открытым исходным кодом Большая модель ультразвуковой базы

EchoCare - это большая модель ультразвуковой базы, разработанная Центром искусственного интеллекта и робототехники (CAIR) Гонконгского института инноваций и исследований Китайской академии наук (CAS), обученная на крупнейшем в мире наборе данных ультразвуковых изображений (более 4,5 миллионов изображений), охватывающем мультицентровые, мультирегиональные, мультиэтнические и более 50 индивидуальных...
3 месяца назад
022.3K
Code2Video - Show Lab开源的AI教学视频生成框架

Code2Video - открытый фреймворк для создания обучающего видео с искусственным интеллектом от Show Lab

Code2Video - это инновационный проект с открытым исходным кодом, который автоматически преобразует фрагменты кода в высококачественный видеоконтент (формат mp4). Проект использует уникальную парадигму, ориентированную на код, используя инструменты carbon-now-cli для генерации кода в красивые изображения, использование ffmpeg будет этим ...
3 месяца назад
028.1K
SceneGen - 上海交大开源的单图像生成3D场景框架

SceneGen - открытая платформа для генерации 3D-сцены из одного изображения, созданная Шанхайским университетом Цзяо Тун.

SceneGen - это метод генерации 3D-сцен из одного изображения, разработанный в Шанхайском университете Цзяо Тун. Из одного изображения сцены и маски целевого ресурса эффективно генерируется полная сцена, содержащая множество 3D-ресурсов, включая геометрическую структуру ресурсов, текстуру и относительное пространственное расположение.
3 месяца назад
020.5K
Ming-UniAudio - 蚂蚁开源的统一音频多模态生成模型

Ming-UniAudio - Ant Open Source Unified Audio Multimodal Generation Model

Ming-UniAudio - это унифицированная мультимодальная модель генерации звука с открытым исходным кодом от Ant Group, которая поддерживает смешанный ввод и вывод текста, аудио, изображений и видео. Используя многомасштабную архитектуру трансформатора и смешанного эксперта (MoE), с помощью механизма маршрутизации с учетом модальностей для эффективной обработки кросс-модальных ...
3 месяца назад
025.6K
AIMangaStudio - 免费的AI漫画创作工具,提供完整创作流程

AIMangaStudio - бесплатный инструмент для создания манги в формате AI для полного процесса создания!

AIMangaStudio - это бесплатный инструмент для создания манги с искусственным интеллектом, который предоставляет авторам полный цикл создания манги, включая генерацию сюжета, разработку субсцен, создание персонажей и другие функции, что позволяет упростить процесс создания от сценария до страницы манги. Поддержка генерации сценариев комиксов на естественном языке, включая сюжет, диалоги...
3 месяца назад
029K
FireRedChat - 小红书开源的全双工语音交互系统

FireRedChat - система полнодуплексного голосового взаимодействия с открытым исходным кодом от Little Red Book

FireRedChat - это полнодуплексная система голосового взаимодействия с открытым исходным кодом для Xiaohongshu с возможностью двунаправленного диалога в реальном времени и поддержкой контролируемых прерываний. Используя модульный дизайн, включая модуль управления транскрипцией, модуль взаимодействия и менеджер диалога и т.д., поддерживает каскадную и полукаскадную архитектуру, гибкое развертывание.
3 месяца назад
030.2K
Logics-Parsing - 阿里开源的文档解析模型

Logics-Parsing - модель разбора документов с открытым исходным кодом на Ali

Logics-Parsing - это модель сквозного разбора документов с открытым исходным кодом, основанная на Qwen2.5-VL-7B. Оптимизация анализа макета документа и вывода порядка чтения с помощью обучения с усилением, PDF-изображения могут быть преобразованы в структурированный HTML-вывод, поддержка разнообразного контента ...
3 месяца назад
029.7K
Ring-1T-preview - 蚂蚁集团开源的万亿参数大模型

Ring-1T-preview - Большая модель с триллионом параметров от Ant Group с открытым исходным кодом

Ring-1T-preview - макромодель с открытым исходным кодом на триллион параметров от Ant Group, основанная на архитектуре Ling 2.0 MoE, предварительно обученная на корпусе 20T и натренированная на способность рассуждать с помощью ASystem, самостоятельно разработанной системы обучения с подкреплением. В рассуждениях на естественном языке ...
3 месяца назад
038.2K
RoboBrain-X0 - 智源研究院开源的零样本跨本体泛化具身模型

RoboBrain-X0 - исследовательский институт Wisdom Source Research Institute с открытым исходным кодом и нулевым образцом кросс-онтологической обобщенной модели воплощения

RoboBrain-X0 - первая в мире воплощенная модель с открытым исходным кодом, поддерживающая кросс-онтологическое обобщение с нулевой выборкой, открытая исследовательским институтом Wisdom Source Research Institute и имеющая большое промышленное значение. Она может управлять несколькими реальными роботами различных конфигураций для выполнения базовых задач без тонкой настройки, а после небольшой тонкой настройки образца демонстрирует способность воспроизводить ...
3 месяца назад
022.8K
Lynx - 字节跳动开源的高保真视频生成模型

Lynx - модель генерации видео высокой точности с открытым исходным кодом от ByteHop

Lynx - это модель генерации персонализированного видео с высокой точностью и открытым исходным кодом от ByteDance, которая может генерировать видео, соответствующее личности, используя только одну портретную фотографию. Построенная на основе базовой модели диффузионного трансформатора (DiT), введение ID-адаптера и Ref-адаптера...
4 месяца назад
024.1K
Claude Sonnet 4.5 - Anthropic推出的最强AI编程模型

Claude Sonnet 4.5 - самая мощная модель программирования ИИ от Anthropic

Claude Sonnet 4.5 - модель искусственного интеллекта от компании Anthropic, предназначенная для программирования, работы с компьютером и автоматизации сложных задач. Модель отлично справляется с генерацией кода, обработкой длинных задач, рассуждениями и математическими вычислениями, поддерживая все - от начального планирования...
4 месяца назад
029.6K
DeepSeek-V3.2-Exp - DeepSeek最新开源的实验性AI模型

DeepSeek-V3.2-Exp - новейшая экспериментальная модель искусственного интеллекта DeepSeek с открытым исходным кодом

DeepSeek-V3.2-Exp - экспериментальная модель искусственного интеллекта с открытым исходным кодом от компании DeepSeek, которая значительно повышает эффективность обработки длинных текстов за счет внедрения механизма DeepSeek Sparse Attention (DSA). Модель основана на DeepSeek...
4 месяца назад
027.4K
HunyuanImage 3.0 - 腾讯开源的免费多模态图像生成模型

HunyuanImage 3.0 - бесплатная мультимодальная модель генерации изображений с открытым исходным кодом от Tencent

HunyuanImage 3.0 (Hunyuan Image 3.0) - нативная мультимодальная модель генерации изображений, выпущенная и открытая компанией Tencent. Размер параметров модели составляет 80B, на данный момент это лучшие результаты оценки, самое большое количество параметров среди моделей генерации изображений с открытым исходным кодом. Hybrid Image 3.0 поддерживает генерацию изображений в режиме реального времени, пользователи могут...
4 месяца назад
036.3K