MobileLLM-R1 - серия специализированных эффективных моделей вывода с открытым исходным кодом Meta
MobileLLM-R1 - это серия эффективных моделей вывода с открытым исходным кодом от Meta, предназначенная для математических, программистских и научных рассуждений. Она содержит базовую и конечную модели, с версиями 140 миллионов, 360 миллионов и 950 миллионов параметров соответственно. Модели не являются типовыми моделями чатов и имеют тонкую настройку под наблюдением (SFT...
ERNIE-4.5-21B-A3B-Thinking - модель мышления с открытым исходным кодом Baidu
ERNIE-4.5-21B-A3B-Thinking - это крупномасштабная языковая модель Baidu с открытым исходным кодом, ориентированная на задачи рассуждения. Используя архитектуру Mixed Expert (MoE), общее количество ссылок достигает 21 миллиарда, каждая лексема активирует 3 миллиарда параметров для поддержки 128K длинного контекстного окна ...
MobiAgent - открытый фреймворк для создания полного стека мобильных интеллектуальных тел, разработанный Шанхайским университетом Цзяотун
MobiAgent - это инструментарий мобильного интеллектуального тела с открытым исходным кодом от IPADS Lab Шанхайского университета Цзяотун, который помогает пользователям создавать собственные мобильные интеллектуальные помощники. Записывая траекторию движения пользователя и генерируя высококачественные данные, он обучает интеллектуальные тела, способные понимать команды на естественном языке. Среди основных функций - эффективная...
ZipVoice - семейство моделей Xiaomi с открытым исходным кодом для синтеза речи
ZipVoice - это серия моделей синтеза речи (TTS) на основе архитектуры Flow Matching, выпущенная компанией Xiaomi, включая ZipVoice (модель синтеза речи с нулевой выборкой для одного диктора) и ZipVoice-Dialog (модель синтеза речи с нулевой выборкой для диалога...
PP-OCRv5 - модель ИИ с открытым исходным кодом от Baidu для распознавания текста нового поколения
PP-OCRv5 - это последнее поколение модели ИИ для распознавания текста, выпущенное компанией Baidu. Благодаря облегченной конструкции и объему памяти всего 0,07 ББ она подходит для эффективной работы на центральных процессорах и пограничных устройствах и может обрабатывать более 370 символов в секунду. Модель поддерживает упрощенный китайский, традиционный китайский, английский, японский и пиньинь...
Youtu-GraphRAG - Tencent Youtu Labs Open Source Enhanced Graph Retrieval Generation Framework
Youtu-GraphRAG - это фреймворк с открытым исходным кодом для создания дополнений к графовому поиску от Tencent Youtu Labs, который помогает большим языковым моделям более точно обрабатывать сложные задачи вопросов и ответов. Построив четырехслойное дерево знаний, знания разбираются на четыре уровня: атрибуты, отношения, ключевые слова и сообщества, чтобы получить междоменные знания о самообладании акта...
Stand-In - Tencent WeChat Visual Open Source Lightweight Video Generation Framework
Stand-In - это легкий и простой в использовании фреймворк для создания видео с сохранением идентификационных данных от команды WeChat Vision компании Tencent. Сосредоточившись на сохранении специфических особенностей личности при генерации видео, он требует лишь обучения дополнительных параметров базовой модели 1% и позволяет добиться отличных результатов в схожести и естественности лиц.
IndexTTS2 - свободная модель TTS с открытым исходным кодом, впервые поддерживающая точный контроль продолжительности.
IndexTTS2 - это новая свободная модель преобразования текста в речь (TTS) с открытым исходным кодом от команды озвучивания станции B, которая достигла значительного прорыва в эмоциональном выражении и контроле продолжительности, первая авторегрессионная модель TTS, поддерживающая точный контроль продолжительности. Поддержка клонирования голоса с нулевым образцом, только один аудиофайл может точно скопировать звук...
HuMo - фреймворк для создания мультимодального видео с открытым исходным кодом от Университета Цинхуа United Bytes
HuMo - это мультимодальный фреймворк для генерации видео, совместно открытый Университетом Цинхуа и ByteDance Intelligent Creation Lab, ориентированный на генерацию видео с участием человека. Он может генерировать высококачественные, тонкие и управляемые человеческие видео из мультимодальных входных данных, таких как текст, изображения и аудио.HuMo поддерживает мощные возможности следования текстовым подсказкам...
AntSK FileChunk - бесплатный инструмент для семантической нарезки документов AI, динамическая настройка нарезки
AntSK FileChunk - это бесплатный интеллектуальный инструмент для нарезки документов, предназначенный для приложений RAG (Retrieval Augmented Generation). Семантика как основа, документ будет интеллектуально нарезан на семантически полные, последовательные сегменты, поддержка нескольких языков, динамическая настройка размера фрагмента для обеспечения контекстной целостности.