AudioGen-Omni - мультимодальная модель генерации звука от Racer
AudioGen-Omni - это мультимодальная модель генерации звука от Racer, которая генерирует высококачественное аудио, речь и песни на основе таких входных данных, как видео, текст и т.д. AudioGen-Omni основана на передовых технологиях, таких как мультимодальный диффузионный трансформатор и фазово-выровненная...
RedOne - новейшая социальная мегамодель от Little Red Book
RedOne - это большая языковая модель, адаптированная для социальных сетей, представленная в Little Red Book. Модель обучается с помощью трехступенчатой стратегии обучения, которая включает в себя социальные и культурные знания, усиливает возможности многозадачности и выравнивает человеческие предпочтения. RedOne значительно превосходит базовую модель в выполнении социальных задач, в обнаружении вредного контента и просмотре...
FastDeploy - высокопроизводительный инструмент Baidu для обоснования и развертывания больших моделей
FastDeploy - это высокопроизводительный инструмент для обоснования и развертывания от Baidu, предназначенный для больших языковых моделей (LLM) и визуальных языковых моделей (VLM).FastDeploy разработан на основе фреймворка Flying Paddle (PaddlePaddle) и поддерживает различные аппаратные платформы....
InteriorGS - 3D гауссовский семантический набор данных от Qunar Technology
InteriorGS - это высококачественный трехмерный гауссовый семантический набор данных, представленный компанией Qunar Technology. Набор содержит 1 000 3D-сцен, охватывающих более 80 внутренних помещений, таких как дома, магазины, свадебные залы и музеи. Набор содержит более 554 000 экземпляров объектов в 755 категориях...
DragonV2.1 - модель синтеза речи с нулевым образцом от Microsoft
DragonV2.1 - это передовая модель преобразования текста в речь (TTS) с нулевой выборкой от Microsoft. Основанная на архитектуре Transformer, модель поддерживает многоязычное клонирование речи с нулевым образцом и генерирует естественную, выразительную речь всего за 5-90 секунд голосовых подсказок.
ScreenCoder - инструмент для генерации скриншотов пользовательского интерфейса с открытым исходным кодом
ScreenCoder - это интеллектуальный инструмент с открытым исходным кодом, который позволяет быстро преобразовывать скриншоты дизайна пользовательского интерфейса в высококачественный HTML/CSS код. Инструмент основан на модульной мультиинтеллектуальной архитектуре, в сочетании с визуальным пониманием, планированием макета и методами синтеза кода для поддержки генерации высокоточных и семантических фронт-энд ...
Kimi K2 High-Speed Edition - высокоскоростное издание языковой модели, выпущенной Кими из Dark Side of Moon.
Kimi K2 high-speed version (kimi-k2-turbo-preview) - высокопроизводительная модель языка, представленная Kimi, Темная сторона Луны. Модель оптимизирована на основе Kimi K2, а скорость вывода значительно увеличена и может генерировать 40 токенов в секунду...
dots.ocr - многоязычная модель разбора документов с открытым исходным кодом из лаборатории Little Red Book hi lab
dots.ocr - это многоязычная модель разбора документов с открытым исходным кодом от лаборатории Xiaohongshu hi, основанная на визуальной языковой модели (VLM) с 1,7 миллиардами параметров, которая может эффективно выполнять определение макета документа и распознавание содержимого, сохраняя при этом хороший порядок чтения.
HYPIR - новая большая модель для восстановления изображений, представленная командой из Китайской академии наук.
HYPIR - это большая модель для восстановления изображений, разработанная командой Донг Чао в Шэньчжэньском институте передовых технологий Китайской академии наук. Модель сочетает в себе дробное предшествование диффузионной модели с генеративной сетью состязательного типа для достижения эффективного и высококачественного восстановления изображений. HYPIR может быстро восстановить старые фотографии и улучшить разрешение, сохраняя при этом четкость текста...
FLUX.1 Krea [dev] - совместная венсенская модель графов Шварцшильда и Krea AI
FLUX.1 Krea [dev] - это генерируемая текстом графическая модель от Black Forest Labs и Krea AI. Модель генерирует высококачественные, реалистичные изображения на основе вводимых текстовых описаний, с уникальным эстетическим стилем, который позволяет избежать традиционных A...