Youtu-agent - Tencent open source efficient intelligent body framework
Youtu-agent - это фреймворк с открытым исходным кодом для создания и запуска автономных интеллектов от Tencent Youtu Labs. Фреймворк демонстрирует хорошие результаты в бенчмарках WebWalkerQA и GAIA, с точностью 71,47% и 72,8% соответственно.Фреймворк...
HunyuanVideo-Foley - модель генерации звукового видео с открытым исходным кодом от Tencent
HunyuanVideo-Foley - это модель генерации видеозвука с открытым исходным кодом от команды Tencent's Mixed Yuan, которая поддерживает добавление точно подобранных звуковых эффектов к беззвучным видео. Модель основана на крупномасштабном тренировочном наборе данных, с архитектурой мультимодального диффузионного преобразователя, в сочетании с представлением функции потерь при выравнивании и методами оптимизации аудио VAE ...
PixVerse V5 - видеомодель с искусственным интеллектом, разработанная компанией Aishi Technologies
PixVerse V5 - это крупная модель искусственного интеллекта для создания видео, выпущенная компанией Aishi Technology. Модель может генерировать высококачественный видеоконтент на основе введенных пользователем текстовых описаний или изображений и поддерживает различные стили, такие как аниме, научная фантастика и национальный стиль.
Ask White 5 - универсальная модель искусственного интеллекта от Ask White
Ask White 5 - флагманская модель "Все в одном" с очень высоким уровнем интеллекта. Модель демонстрирует высокие результаты по многим показателям, например, по композитному индексу AA-Index - 64,7 балла, по STEM-способностям - 86 баллов, что близко к мировому лидеру GPT-5.
Gemini 2.5 Flash Image - самая мощная модель генерации и редактирования изображений от Google
Gemini 2.5 Flash Image (кодовое название nano banana) - это современная модель генерации и редактирования изображений от Google, которая сохраняет согласованность персонажей в разных сценах и поддерживает точное редактирование изображений с помощью естественного языка, например, размытие фона и удаление пятен.
Wan2.2-S2V - модель генерации видео с открытым исходным кодом от Ali Tongyi, управляемая звуком
Wan2.2-S2V - это мультимодальная модель генерации видео с открытым исходным кодом от Ali Tongyi, только статическая картинка и фрагмент аудио, может генерировать высококачественное цифровое видео человека, и поддерживает различные типы изображений и кадров.
Бесплатный курс по разработке советов ChatGPT для разработчиков от Эрнеста Нг
ChatGPT Tip Engineering for Developers - это совместный курс DeepLearning.AI и OpenAI, предназначенный для разработчиков, в котором участвуют Иза Фулфорд, Эндрю Нг, чтобы научить использовать большие языковые модели (LLM)...
Ask o4 - модель параллельного мышления, представленная Ask o4, которая открывает 8 путей мышления одновременно
Ask White o4 - это инновационная модель параллельного мышления, которая открывает 8 путей мышления одновременно, анализирует проблему с разных точек зрения и автоматически отфильтровывает оптимальное решение. Модель использует передовые технологии обучения с подкреплением Long-CoT и обучения с вознаграждением за процесс, обладает мощными возможностями глубоких рассуждений и отлично справляется со сложными задачами.
VibeVoice - моделирование преобразования текста в речь от Microsoft
VibeVoice - это новая модель преобразования текста в речь (TTS) от Microsoft. Модель генерирует разговорный звук из четырех различных динамиков и поддерживает до 90 минут непрерывного голосового вывода, преодолевая ограничения по длительности традиционных систем TTS.
SpatialGen - модели генерации 3D-сцен с открытым исходным кодом от Qunar Technologies
SpatialGen - это модель генерации 3D-сцен с открытым исходным кодом от Qunar Technology, основанная на архитектуре диффузионной модели, поддерживающая генерацию пространственно-временных согласованных многоракурсных изображений на основе текстовых описаний, эталонных изображений и пространственного 3D-макета, а также генерацию 3D-гауссовых сцен и рендеринг роуминговых видео.