DeepSeek-OCR - модель оптического распознавания символов с открытым исходным кодом DeepSeek
DeepSeek-OCR - это усовершенствованная модель оптического распознавания символов (OCR), открытая командой DeepSeek, которая преобразует текст в изображения с помощью технологии "контекстного оптического сжатия" и использует визуальные маркеры для сжатия и декодирования для эффективной обработки длинных текстов.
VitaBench - бенчмарки MMT LongCat Open Source Interactive Agent Review
VitaBench - это первый интерактивный эталон оценки агентов для сложных жизненных сценариев, выпущенный командой LongCat компании Meituan и оценивающий всесторонние возможности больших модельных интеллектов в реальных жизненных сценариях. В качестве носителей для создания пакетов используются три высокочастотных жизненных сценария: заказ еды на вынос, обед в ресторане и путешествие...
MinerU2.5 - открытая модель синтаксического анализа документов из Шанхайской лаборатории искусственного интеллекта и Пекинского университета
MinerU2.5 - это модель визуального языка, разработанная совместно Шанхайской лабораторией искусственного интеллекта и командой Пекинского университета и направленная на эффективный разбор изображений документов высокого разрешения. Основная инновация заключается в двухфазном дизайне "обнаружение глобального расположения с последующим распознаванием локального содержания": первая фаза представляет собой низкое разрешение...
LongCat-Audio-Codec - голосовой кодек LongCat с открытым исходным кодом для Meituan
LongCat-Audio-Codec - это речевой кодек с открытым исходным кодом от команды LongCat из Meituan. Решение предназначено для Speech Large Language Model (Speech LLM), посредством семантического и акустического механизма параллельного извлечения Token, учитывающего семантические и акустические особенности речи ...
PaddleOCR-VL - ультралегкие визуально-лингвистические модели с открытым исходным кодом от Baidu
PaddleOCR-VL - это ультралегкая визуально-лингвистическая модель Baidu с открытым исходным кодом, оптимизированная для сценариев парсинга документов. Модель содержит всего 0,9 Б параметров, благодаря слиянию динамического визуального кодера высокого разрешения и легкой языковой модели ERNIE, сохраняя при этом высокую точность и значительно снижая вычислительные затраты.
UniPixel - мультимодальная модель на уровне пикселя с открытым исходным кодом от Гонконгского политехнического института, Tencent, CAS и др.
UniPixel - это новая мультимодальная модель, совместно предложенная Гонконгским политехническим университетом, компанией Tencent, Китайской академией наук и компанией Vivo для достижения понимания визуального языка на уровне пикселей. Объединяя возможности привязки к объектам и сегментации, она поддерживает различные тонкие задачи, такие как сегментация изображений, сегментация видео, понимание регионов и пи...
DiaMoE-TTS - фреймворк для синтеза речи с открытым исходным кодом из нескольких диалектов, разработанный компаниями Tsinghua и Giant Network
DiaMoE-TTS - это система синтеза речи для нескольких диалектов, созданная совместно Университетом Цинхуа и Giant Network на основе Международного фонетического алфавита (IPA) для решения проблем нехватки диалектных данных, несоответствия орфографии и сложности фонологических изменений. Благодаря единому стандартизированному представлению фонем на основе IPA, устраняются междиалектные различия ...
Кандинский 5.0 - серия моделей генерации видео с открытым исходным кодом от российской команды ИИ
Kandinsky 5.0 - это новейшая серия моделей поколения видео, разработанная российской командой искусственного интеллекта и ориентированная на легкий дизайн и высокую производительность. Первая модель серии, Kandinsky 5.0 Video Lite, имеет всего 2 миллиарда параметров, но превосходит аналогичные модели 14B, особенно...
SongBloom - модель генерации песен с открытым исходным кодом от Tencent в сотрудничестве с HKCS и NTU
SongBloom - это модель генерации песен с открытым исходным кодом, разработанная Tencent AI Lab в сотрудничестве с Китайским университетом Гонконга (Шэньчжэнь) и Нанкинским университетом, которая решает проблему "пластичности" в генерации музыки ИИ и обеспечивает высококачественную, структурно полную генерацию песен. Просто введите 10 секунд эталонного аудио и соответствующий текст, и вы сможете...
Pyscn - бесплатный инструмент анализа качества AI-кода с открытым исходным кодом для разработчиков на Python
Pyscn - это интеллектуальный инструмент анализа качества кода, предназначенный для разработчиков на Python для обнаружения потенциальных проблем в коде с целью улучшения его сопровождаемости. Он анализирует мертвый код с помощью диаграмм потока управления, выявляет дубликаты кода с помощью алгоритма APTED+LSH, вычисляет такие метрики, как связь модулей и сложность круга...








