Youtu-GraphRAG - Tencent Youtu Labs Open Source Enhanced Graph Retrieval Generation Framework
Youtu-GraphRAG - это фреймворк с открытым исходным кодом для создания дополнений к графовому поиску от Tencent Youtu Labs, который помогает большим языковым моделям более точно обрабатывать сложные задачи вопросов и ответов. Построив четырехслойное дерево знаний, знания разбираются на четыре уровня: атрибуты, отношения, ключевые слова и сообщества, чтобы получить междоменные знания о самообладании акта...
Stand-In - Tencent WeChat Visual Open Source Lightweight Video Generation Framework
Stand-In - это легкий и простой в использовании фреймворк для создания видео с сохранением идентификационных данных от команды WeChat Vision компании Tencent. Сосредоточившись на сохранении специфических особенностей личности при генерации видео, он требует лишь обучения дополнительных параметров базовой модели 1% и позволяет добиться отличных результатов в схожести и естественности лиц.
IndexTTS2 - свободная модель TTS с открытым исходным кодом, впервые поддерживающая точный контроль продолжительности.
IndexTTS2 - это новая свободная модель преобразования текста в речь (TTS) с открытым исходным кодом от команды озвучивания станции B, которая достигла значительного прорыва в эмоциональном выражении и контроле продолжительности, первая авторегрессионная модель TTS, поддерживающая точный контроль продолжительности. Поддержка клонирования голоса с нулевым образцом, только один аудиофайл может точно скопировать звук...
HuMo - фреймворк для создания мультимодального видео с открытым исходным кодом от Университета Цинхуа United Bytes
HuMo - это мультимодальный фреймворк для генерации видео, совместно открытый Университетом Цинхуа и ByteDance Intelligent Creation Lab, ориентированный на генерацию видео с участием человека. Он может генерировать высококачественные, тонкие и управляемые человеческие видео из мультимодальных входных данных, таких как текст, изображения и аудио.HuMo поддерживает мощные возможности следования текстовым подсказкам...
AntSK FileChunk - бесплатный инструмент для семантической нарезки документов AI, динамическая настройка нарезки
AntSK FileChunk - это бесплатный интеллектуальный инструмент для нарезки документов, предназначенный для приложений RAG (Retrieval Augmented Generation). Семантика как основа, документ будет интеллектуально нарезан на семантически полные, последовательные сегменты, поддержка нескольких языков, динамическая настройка размера фрагмента для обеспечения контекстной целостности.
UnifiedTTS - единая сервисная платформа TTS API, мониторинг производительности в реальном времени
UnifiedTTS - это универсальная платформа для предоставления услуг преобразования текста в речь (TTS). Она поддерживает множество языков, включая китайский, английский, японский и корейский, чтобы удовлетворить потребности глобального бизнеса. Благодаря унифицированному API-интерфейсу в нее интегрированы многие основные TTS-сервисы, включая Micro...
MiniCPM 4.1 - сверхэффективное макромоделирование с торцевой стороны с помощью технологии Facing Face Intelligence
MiniCPM 4.1 - это сверхэффективная конечная модель большого языка, представленная компанией Facade Intelligence. Благодаря архитектуре разреженного внимания InfLLM v2, каждой лексеме требуется вычислять корреляцию только с менее чем 5% лексем, что значительно снижает затраты на обработку длинных текстов. В сценарии с длинным текстом объемом 128K...
WeKnora - фреймворк для понимания документов и семантического поиска в Tencent WeChat с открытым исходным кодом
WeKnora является Tencent WeChat команды открытым исходным кодом на основе большой языковой модели (LLM) понимание документа и семантического поиска рамки, предназначенные для структуры сложных, гетерогенных сценариев содержания документа и предназначен для использования модульной архитектуры, интеграции мультимодальных предварительной обработки, семантического индексирования вектора, интеллектуальный отзыв и большой модели генеративного рассуждения ...
XTuner V1 - открытый движок Shanghai AI Lab для обучения больших моделей
XTuner V1 - это новое поколение движка для обучения больших моделей с открытым исходным кодом Шанхайской лаборатории искусственного интеллекта, предназначенного для обучения сверхбольших моделей с разреженными смешанными экспертами (MoE). Разработанный на основе PyTorch FSDP, он достигает высокой производительности за счет многомерной оптимизации памяти, связи и нагрузки...
Qwen3-ASR-Flash - серия моделей распознавания речи, выпущенная Али Тунъи Цяньцянем
Qwen3-ASR-Flash - это новейшая высокоточная модель распознавания речи Alibaba, основанная на базовой модели Qwen3 и обученная на массивных мультимодальных данных. Она поддерживает 11 языков и множество акцентов, включая мандаринский, сычуаньский, миньнаньский, у, кантонский и другие диалекты...









