Проект с открытым исходным кодом AI

Всего 1020 статей
расставлять по порядку
CrisperWhisper:精确的逐字语音转录工具

CrisperWhisper: инструмент для точной стенографической расшифровки речи

Общее описание CrisperWhisper - это продвинутый инструмент распознавания речи, основанный на OpenAI Whisper и ориентированный на быструю, точную и пословную транскрипцию речи. Он обеспечивает точные временные метки на уровне слов, даже в случае заполнения речи и пауз...
9 месяцев назад
028K
KG Gen:从纯文本中自动生成知识图谱的开源工具

KG Gen: инструмент с открытым исходным кодом для автоматического создания графов знаний из обычного текста

Общее представление KGGen - это инструмент с открытым исходным кодом, разработанный Стэнфордской лабораторией по исследованию доверенного искусственного интеллекта (STAIR Lab) и размещенный на GitHub, предназначенный для автоматической генерации графов знаний из произвольного текста. Он использует передовые алгоритмы языкового моделирования и кластеризации для получения неструктурированного текста...
8 месяцев назад
028K
Agno:构建具备记忆、知识和工具的多模态智能体框架

Agno: Создание основы для мультимодального интеллекта с помощью памяти, знаний и инструментов

Общее представление Agno - это библиотека с открытым исходным кодом на языке Python, разработанная командой agno-agi и размещенная на GitHub, которая призвана облегчить разработчикам создание искусственного интеллекта с памятью, знаниями и инструментами. Она поддерживает мультимодальный текст, изображения, аудио и видео...
7 месяцев назад
028K
Sonic:音频驱动肖像图片生成面部表情生动的数字人口播视频

Sonic: портретные изображения с аудиоуправлением создают цифровые демонстрационные видеоролики с яркой мимикой

Общее представление Sonic - это инновационная платформа, ориентированная на глобальное восприятие звука и предназначенная для создания ярких портретных анимаций, управляемых звуком. Разработанная группой исследователей из Tencent и Чжэцзянского университета, платформа использует аудиоинформацию для управления мимикой и движениями головы, чтобы генерировать естественные и плавные анимационные видеоролики.S...
7 месяцев назад
028K
Orion:小米开源的端到端自动驾驶推理与规划框架

Orion: открытый исходный код Xiaomi для комплексного планирования и обработки выводов для самодвижущихся автомобилей

Всеобъемлющее введение Orion - это проект с открытым исходным кодом, разработанный Xiaomi Labs, сфокусированный на сквозной технологии автономного вождения (E2E). Он решает проблему недостаточного обоснования причинно-следственных связей в сложных сценариях традиционными методами автономного вождения с помощью визуальных языковых моделей (VLM) и генеративных планировщиков.Orion интегрирует длинные...
6 месяцев назад
027.9K
RF-DETR:实时视觉对象检测开源模型

RF-DETR: модель с открытым исходным кодом для обнаружения визуальных объектов в реальном времени

Всеобъемлющее введение RF-DETR - это модель обнаружения объектов с открытым исходным кодом, разработанная командой Roboflow. Она основана на архитектуре Transformer, и ее основной особенностью является эффективность в реальном времени. Впервые модель достигла более 60 точек доступа в реальном времени на наборе данных Microsoft COCO...
7 месяцев назад
027.9K
NV Ingest:解析复杂格式文档,提取多模态数据为元数据和文本

NV Ingest: разбор документов сложного формата, извлечение мультимодальных данных в метаданные и текст

Всеобъемлющее введение NV Ingest (NVIDIA Ingest) - это набор микросервисов раннего доступа, предназначенных для разбора сотен тысяч сложных, беспорядочных неструктурированных PDF-файлов и других корпоративных документов. Он может преобразовывать эти документы в метаданные и текст для встраивания в поисковые...
9 месяцев назад
027.8K
Chonkie:轻量级RAG文本切块库

Chonkie: легкая библиотека для разбивки текста на части в RAG

Всеобъемлющее введение Chonkie - это легкая и эффективная библиотека RAG (Retrieval-Augmented Generation) для разбивки текста на куски, призванная помочь разработчикам быстро и легко разбивать текст на куски. Библиотека поддерживает различные методы разбивки, включая ...
8 месяцев назад
027.8K
StreamingT2V:从文本到长视频的动态且可扩展的生成技术

StreamingT2V: динамическая и масштабируемая генерация из текста в длинное видео

Всеобъемлющее введение StreamingT2V - это публичный проект, разработанный исследовательской группой Picsart AI и направленный на генерацию связных, динамичных и масштабируемых длинных видео на основе текстовых описаний. Эта технология использует передовой авторегрессионный подход, который гарантирует временную согласованность видео с текстом описания...
11 месяцев назад
027.8K
InstantIR:受损图像修复与图像高清放大开源项目,最低16G显存

InstantIR: проект с открытым исходным кодом по восстановлению поврежденных изображений и их HD-зуму, минимум 16 Гб видеопамяти

Общее описание InstantIR - это инновационная модель восстановления одного изображения, разработанная командой InstantX, предназначенная для воскрешения ваших поврежденных изображений с чрезвычайно высоким качеством и реалистичными деталями, способная выполнять высококачественное восстановление поврежденных изображений. Инструмент не только восстанавливает детали изображения...
11 месяцев назад
027.8K
PocketFlow:100行代码实现AI应用开发的极简框架

PocketFlow: минималистичный фреймворк для разработки приложений искусственного интеллекта за 100 строк кода

Всеобъемлющее введение PocketFlow - это легкий фреймворк для разработки приложений искусственного интеллекта, состоящий всего из 100 строк кода, разработанный командой The-Pocket и открытый на GitHub. Он преследует минималистский дизайн, ядро управления кодом в 100 строк, никаких внешних зависимостей ...
7 месяцев назад
027.8K
YuE:将歌词转化为完整歌曲的基础模型,支持多种音乐风格

YuE: Преобразовывает текст в базовую модель полной песни, поддерживая широкий спектр музыкальных стилей

Общее представление YuE - это базовая модель генерации полных песен с открытым исходным кодом, которая фокусируется на преобразовании текстов в полные песни. В отличие от других моделей, которые генерируют только короткие фрагменты невокальной музыки, YuE способна генерировать полные песни с ведущим и бэк-вокалом длиной до нескольких минут. Модель рассматривает генерацию музыки в...
9 месяцев назад
027.8K
BlinkShot:输入提示词实时生成图像(免费接入Flux Schnell模型)

BlinkShot: создание изображений в режиме реального времени путем ввода слов подсказки (бесплатный доступ к модели Flux Schnell)

Общее описание BlinkShot - это генератор изображений с открытым исходным кодом, работающий в режиме реального времени и использующий технологию Together AI и Flux Schnell, чтобы позволить пользователям генерировать высококачественные изображения по мере ввода подсказок. Платформа полностью бесплатна, поддерживает пользовательскую настройку и вторичные открытые...
1 год назад
027.7K
MiniMind:2小时从零训练26M参数GPT的开源工具

MiniMind: 2 часа обучения с нуля 26M параметрам GPT с открытым исходным кодом

Общее введение MiniMind - это проект с открытым исходным кодом, созданный разработчиком jingyaogong. Его основная цель - позволить обычным людям также быстро обучать свои собственные модели искусственного интеллекта. Основной особенностью MiniMind является использование 2 часов в одном NVIDIA ...
7 месяцев назад
027.7K
n8n自托管AI入门套件:快速搭建本地AI环境的开源模板

n8n Self-hosted AI Starter Kit: шаблон с открытым исходным кодом для быстрого создания локальной среды ИИ

Всеобъемлющее введение Стартовый набор n8n Self-Hosted AI Starter Kit - это шаблон Docker Compose с открытым исходным кодом, предназначенный для быстрой инициализации комплексной локальной среды разработки ИИ и низкокодового кода. Созданный командой n8n, этот набор объединяет в себе платформу n8n, размещаемую на собственном хостинге, и ряд совместимых AI...
8 месяцев назад
027.7K
Step-Audio:多模态语音交互框架,识别语音并使用克隆语音交流等功能

Step-Audio: мультимодальный фреймворк для голосового взаимодействия, который распознает речь и общается с помощью клонированной речи, среди прочих возможностей

Всеобъемлющее введение Step-Audio - это фреймворк с открытым исходным кодом для интеллектуального речевого взаимодействия, предназначенный для обеспечения готовых возможностей понимания и генерации речи в производственных средах. Фреймворк поддерживает многоязычные разговоры (например, китайский, английский, японский), эмоциональную речь (например, счастливую, грустную), региональные диалекты (например, кантонский, чечуаньский ...
8 месяцев назад
027.7K
Mem0:为AI助手和代理提供智能记忆层的开源项目

Mem0: проект с открытым исходным кодом, обеспечивающий интеллектуальный уровень памяти для ИИ-помощников и агентов.

Общее представление Mem0 (произносится как "мем-ноль") - это проект с открытым исходным кодом, который предоставляет интеллектуальный слой памяти для ИИ-помощников и агентов. Он запоминает предпочтения пользователей, адаптируется к индивидуальным потребностям и улучшается со временем, что делает его идеальным для чат-ботов, ИИ-помощников и автономных систем...
1 год назад
027.7K
wechat-article-exporter:一键部署微信公众号文章批量导出工具

wechat-article-exporter: развертывание одним щелчком мыши инструмента для пакетного экспорта статей из публичных номеров Wechat

Комплексное введение wechat-article-exporter - это инструмент с открытым исходным кодом, предназначенный для помощи пользователям в пакетном экспорте статей из публичного номера WeChat. Инструмент поддерживает экспорт встроенного аудио и видео в статье без создания какой-либо среды, может 100% восстановить стиль статьи, а также поддерживает частную часть...
12 месяцев назад
027.6K
Qwen-Agent:基于Qwen的智能代理应用框架,包括工具调用、代码解释器、RAG和Chrome扩展。

Qwen-Agent: основанный на Qwen фреймворк для приложений интеллектуальных агентов, включающий вызовы инструментов, интерпретаторы кода, RAG и расширения для Chrome.

Всеобъемлющее введение Qwen-Agent - это фреймворк интеллектуальных агентских приложений, разработанный на основе Qwen 2.0 и выше, с такими возможностями, как выполнение команд, использование инструментов, планирование и память. Фреймворк предоставляет множество примеров приложений, таких как браузерные помощники, интерпретаторы кода и пользовательские помощники...
10 месяцев назад
027.6K
Open Deep Research:LangChain开源的深度研究智能助手

Open Deep Research: интеллектуальный помощник LangChain с открытым исходным кодом для глубоких исследований

Всеобъемлющее введение Open Deep Research - это веб-помощник для проведения исследований, способный генерировать всесторонние отчеты по любой теме. Система работает по принципу "планируй и делай", что позволяет пользователям спланировать и просмотреть структуру отчета, прежде чем переходить к трудоемкой фазе исследования...
7 месяцев назад
027.6K
Midjourney Proxy:代理/逆向Midjourney Discord频道,实现AI绘图API调用(免费测试)

Midjourney Proxy: проксирование/реверсирование канала Midjourney Discord для вызовов API AI mapping (бесплатный тест)

Всеобъемлющее введение Midjourney Proxy - это проект с открытым исходным кодом, предназначенный для предоставления прокси-услуг для канала Midjourney's Discord, преобразующий функции рисования AI в форму API. Проект полностью бесплатный и с открытым исходным кодом, поддерживает подмену лица одним кликом, смешивание изображений, генерацию графики...
10 месяцев назад
027.6K
Datalab:专用OCR识别AI模型,PDF转Markdown(开源/API)

Datalab: специализированная модель ИИ для распознавания OCR, преобразование PDF в Markdown (открытый исходный код/API).

Всеобъемлющее представление Datalab предлагает ряд продвинутых моделей искусственного интеллекта, ориентированных на OCR, анализ макетов, преобразование PDF в Markdown и многое другое. Эти модели не только высокопроизводительны, но и просты в использовании и имеют открытый исходный код. Модели Marker на платформе могут быстро и точно...
11 месяцев назад
027.6K
Memary:利用知识图谱增强Agent长期记忆的开源项目

Memary: проект с открытым исходным кодом для улучшения долговременной памяти агента с помощью графов знаний

Общее представление Memary - это инновационный проект с открытым исходным кодом, направленный на предоставление решений по управлению долгосрочной памятью для автономных интеллектов. Проект помогает интеллектам преодолеть ограничения традиционных контекстных окон и достичь более интеллектуального взаимодействия с помощью графов знаний и специализированных модулей памяти. Memary использует...
10 месяцев назад
027.5K
RMBG-2-Studio:批量移除图像和视频背景的开源程序,基于RMBG 2.0优化

RMBG-2-Studio: программа с открытым исходным кодом для пакетного удаления фонов изображений и видео, оптимизированная для RMBG 2.0

Общее представление RMBG-2-Studio - это усовершенствованное приложение для удаления и замены фона, разработанное на основе модели BRIA-RMBG-2.0. Приложение предназначено для предоставления пользователям эффективных и точных возможностей обработки фона изображений для различных типов изображений, включая электронную коммерцию, игры и...
10 месяцев назад
027.5K
ChatTTS:模仿真人说话声音的语音生成模型(ChatTTS一键加速包)

ChatTTS: модель генерации речи, имитирующая голос реального собеседника (пакет ускорения ChatTTS в один клик)

Общее представление ChatTTS - это генеративная модель речи, разработанная для сценариев диалога. Она генерирует естественную и выразительную речь, поддерживает несколько языков и нескольких дикторов и подходит для интерактивных диалогов. Для этого модель предсказывает и контролирует такие тонкие ритмические особенности, как смех, паузы и междометия, а также...
8 месяцев назад
027.5K
Anon-Kode:命令行AI代码助手(Claude Code代码反编译)

Anon-Kode: помощник ИИ-кода из командной строки (декомпиляция кода Claude Code)

Общее представление Anon-Kode - это кодовый помощник ИИ с открытым исходным кодом для терминальных операций, запущенный на GitHub разработчиком Даниилом Наковым. Он предназначен для программистов, чтобы поддерживать API в стиле OpenAI, интегрируя языковые модели, поддерживающие...
7 месяцев назад
027.5K
Whisper Input:利用Groq免费且高速的语音转录文本服务

Whisper Input: бесплатный и высокоскоростной сервис транскрипции голоса в текст с помощью Groq.

Общее описание Whisper Input - это инструмент транскрипции голоса с открытым исходным кодом, который позволяет пользователям начинать запись голоса нажатием кнопки Option и заканчивать запись поднятием кнопки. Инструмент вызывает Groq Whisper Large V3 Turbo ...
8 месяцев назад
027.5K
ChatGPT-on-WeChat:基于大模型构建的智能对话机器人,支持微信等多对话平台接入

ChatGPT-on-WeChat: интеллектуальный диалоговый робот, построенный на основе большой модели, поддерживающий доступ к WeChat и другим мультидиалоговым платформам.

Всеобъемлющее введение Проект ChatGPT-on-WeChat - это интеллектуальный диалоговый робот на основе большой модели, поддерживающий многоплатформенный доступ к личному WeChat, публичному номеру WeChat, корпоративному приложению WeChat, Flybook, Nail и так далее. Пользователи могут выбрать GPT3.5, GPT-4, Claude, Man...
10 месяцев назад
027.5K
Auto-Deep-Research:多Agent协作执行文献查询并生成研究报告

Auto-Deep-Research: многоагентное взаимодействие для выполнения запросов к литературе и создания исследовательских отчетов

Общее представление Auto-Deep-Research - это инструмент ИИ с открытым исходным кодом, разработанный Лабораторией интеллекта данных Гонконгского университета (HKUDS), цель которого - помочь пользователям автоматизировать задачи глубокого исследования. Он построен на базе фреймворка AutoAgent и поддерживает множество больших языковых моделей...
7 месяцев назад
027.4K
MCP Containers:基于 Docker 提供数百种 MCP 容器化部署

Контейнеры MCP: сотни контейнерных развертываний MCP на базе Docker

Общее введение MCP Containers - это проект с открытым исходным кодом, размещенный на GitHub, ориентированный на предоставление контейнерных решений для серверов Model Context Protocol (MCP). Он упрощает с помощью контейнеров Docker...
6 месяцев назад
027.4K
AI reads books:AI逐页阅读PDF书籍,自动提取知识要点并生成总结

ИИ читает книги: ИИ читает PDF-книги страницу за страницей, автоматически извлекает основные моменты и создает резюме.

Комплексное введение AI-reads-books-page-by-page - это основанная на Python разработка интеллектуального инструмента анализа PDF-книг, который может автоматизировать постраничный анализ PDF-книг, извлекать ключевые точки знаний, а после указанного интервала страниц генерировать этап...
10 месяцев назад
027.4K
LangBot:开源大模型即时通信机器人,支持多微信、QQ、飞书等多平台部署AI机器人

LangBot: открытый исходный код большой модели робота мгновенного обмена сообщениями, поддержка нескольких WeChat, QQ, Flybook и других многоплатформенных развертывания роботов ИИ

LangBot - это бот-платформа для обмена мгновенными сообщениями на основе больших моделей, которая поддерживает несколько платформ обмена сообщениями и большие модели. Платформа адаптируется к QQ, WeChat (корпоративный WeChat, персональный WeChat), Flybook, Discord, OneBot и другим платформам обмена сообщениями, а также поддерживает Open...
8 месяцев назад
027.4K
Open R1:Hugging Face 复现 DeepSeek-R1 的训练过程

Open R1: обнимающееся лицо повторяет процесс обучения DeepSeek-R1

Общее введение Проект Hugging Face's Open R1 - это проект репликации DeepSeek-R1 с открытым исходным кодом, целью которого является создание недостающих частей конвейера R1, чтобы каждый мог воспроизвести их и построить на их основе. Проект задуман как простой и состоит в основном из обучения и оценки...
9 месяцев назад
027.4K
Llasa 1~8B:高品质语音生成和克隆的开源文本转语音模型

Llasa 1~8B: модель преобразования текста в речь с открытым исходным кодом для генерации и клонирования речи высокого качества

Общие сведения Введение Llasa-3B - это модель преобразования текста в речь (TTS) с открытым исходным кодом, разработанная аудиолабораторией Гонконгского университета науки и технологий (HKUST Audio). Модель основана на архитектуре Llama 3.2B, которая была тщательно настроена для обеспечения высококачественной генерации речи, которая не только поддерживает множество...
8 месяцев назад
027.3K
GPT SoVITS:革命性的语音生成与语音克隆工具

GPT SoVITS: революционные инструменты для генерации и клонирования речи

Всеобъемлющее введение GPT-SoVITS - это инструмент для преобразования и синтеза речи с открытым исходным кодом, который сочетает в себе модель GPT и технологию изменения голоса SoVITS. Инструмент поддерживает преобразование текста в речь "на лету" с нулевым и малым количеством образцов, а также перенос стиля голоса всего с 5 секундами аудиообразцов. Среди его возможностей - кросс-языковая ...
1 год назад
027.3K
TinyZero:低成本复现 DeepSeeK-R1 Zero 的顿悟效果

TinyZero: недорогая репликация эффекта прозрения DeepSeeK-R1 Zero

Общее представление TinyZero - это модель обучения с подкреплением на основе veRL, разработанная для воспроизведения производительности DeepSeeK-R1 Zero в задачах обратного отсчета и умножения. Удивительно, но стоимость проекта составляет всего 30 долларов (при использовании 2xH2...
9 месяцев назад
027.3K
AutoGen:微软开发的多智能体对话框架

AutoGen: многоинтеллектуальная платформа для диалога с телом, разработанная Microsoft

Общее представление AutoGen - это фреймворк с открытым исходным кодом, разработанный группой исследователей Microsoft и направленный на упрощение создания приложений с большой языковой моделью (LLM) посредством диалога между несколькими интеллектуальными организмами. Он позволяет разработчикам создавать агентов ИИ, которые могут вести диалог друг с другом и совместно решать поставленные задачи. Такой подход не только повышает производительность LLM...
9 месяцев назад
027.3K
Hunyuan3D-2:腾讯开源的高分辨率3D模型生成工具

Hunyuan3D-2: инструмент Tencent для создания 3D-моделей высокого разрешения с открытым исходным кодом

Общее представление Hunyuan3D-2 - это проект с открытым исходным кодом, разработанный компанией Tencent для создания 3D-моделей высокого разрешения из текста или изображений. Он состоит из двух основных компонентов: модели генерации форм (Hunyuan3D-DiT) и модели генерации текстур (Hunyuan3D...
7 месяцев назад
027.3K
AutoAgent:通过自然语言快速创建并部署AI智能体的框架

AutoAgent: основа для быстрого создания и развертывания интеллекта ИИ с помощью естественного языка

Общее представление AutoAgent - это фреймворк ИИ-интеллекта с открытым исходным кодом, разработанный Лабораторией интеллекта данных Гонконгского университета (HKUDS) и размещенный на GitHub. Он позволяет пользователям быстро создавать и внедрять индивидуальные ИИ-интеллекты, описывая свои требования на чисто естественном языке, без какой-либо базы программирования...
4 месяца назад
027.3K
Diffusers Image Outpaint:超强开源AI图像扩展工具,图像外绘(image outpainting)

Diffusers Image Outpaint: супермощный инструмент расширения изображений AI с открытым исходным кодом, перекрашивание изображений (image outpainting)

Общие сведения Диффузоры Image Outpaint - это мощный инструмент для расширения изображений AI, созданный участником сообщества Hugging Face fffiloni. Инструмент использует передовые методы моделирования диффузии для приведения изображений в...
1 год назад
027.3K
AsrTools:语音转字幕工具,内置剪映、快手、必剪接口的轻量客户端

AsrTools: инструмент преобразования речи в субтитры, легкий клиент со встроенными интерфейсами для Cutscene, Racer и Must-Cut

Всеобъемлющее введение AsrTools - это интеллектуальный инструмент преобразования речи в текст со встроенными интерфейсами от таких крупных игроков, как Cutscene, QuickScope, MustCut и т.д. Он не требует GPU или громоздкой конфигурации, а также поддерживает эффективную многопоточную пакетную обработку. Он основан на разработке PyQt5, имеет красивый и удобный интерфейс, способен выводить слова в форматах SRT и TXT...
1 год назад
027.2K
WebPilot:智能网页信息处理工具,网页内容抓取免费API

WebPilot: интеллектуальный инструмент для обработки веб-информации, бесплатный API для захвата веб-контента

WebPilot Общее представление Webpilot - это бесплатный "веб-помощник" с открытым исходным кодом, который позволяет свободно общаться с любой веб-страницей или выполнять автоматические задачи. Вам не нужно переключать страницы или копировать и вставлять, просто выделите текст или введите команды, и webpilot...
1 год назад
027.2K
Dia:生成超现实多人对话的文本转语音模型

Dia: модель преобразования текста в речь для создания гиперреалистичных многопользовательских диалогов

Общее представление Dia - это модель преобразования текста в речь (TTS) с открытым исходным кодом, разработанная компанией Nari Labs и предназначенная для создания гиперреалистичных диалоговых аудио. Она преобразует текстовые сценарии в реалистичные многосимвольные диалоги за один процесс, поддерживает управление эмоциями и интонациями и даже генерирует невербальные представления...
6 месяцев назад
027.1K
ImBD:AI生成内容检测,检测内容是否由人工智能生成

ImBD: обнаружение контента, созданного ИИ, определение того, создан ли контент ИИ или нет

Всеобъемлющее введение ImBD (Imitate Before Detect) - это новаторский проект по обнаружению текста, созданного машиной, который был представлен на конференции AAAI 2025. С широким распространением больших языковых моделей (LLM), таких как ChatGPT, определение A...
9 месяцев назад
027.1K
OpenWebUI-Monitor:监控OpenWebUI用户活动,管理使用限额,支持一键部署。

OpenWebUI-Monitor: мониторинг действий пользователей OpenWebUI, управление лимитами использования, поддержка развертывания одним щелчком мыши.

Общее представление OpenWebUI-Monitor - это приборная панель для мониторинга деятельности пользователей OpenWebUI и управления квотами использования. Она позволяет эффективно устанавливать пользовательские квоты, просматривать пользовательские данные и визуальную информацию в режиме реального времени, поддерживает развертывание одним щелчком мыши, а также облегчает управление пользователями и мониторинг...
11 месяцев назад
027.1K
ChatFree(ChatAnywhere-2):使用GPT API创建的本地Copilot,支持任意窗口中补全对话

ChatFree (ChatAnywhere-2): нативный Copilot, созданный с помощью GPT API, с поддержкой дополнительных диалогов в любом окне.

Общее представление ChatFree - это проект с открытым исходным кодом, цель которого - освободить приложения искусственного интеллекта пользователей от ограничений браузеров и запустить их локально. Созданный с использованием GPT API, Copilot предназначен для поддержки широкого спектра офисных программ, таких как Office, Word, WPS и других. Проект был разработан ...
10 месяцев назад
027.1K
DeepFace:实现面部年龄、性别、情绪、种族识别的轻量级Python库

DeepFace: легкая библиотека на Python для распознавания возраста, пола, эмоций и расы по лицу

Общее представление DeepFace - это легкая библиотека Python для распознавания лиц и анализа их атрибутов (включая возраст, пол, эмоции и этническую принадлежность). Она объединяет несколько передовых моделей распознавания лиц, таких как VGG-Face, FaceNet, OpenFace, De...
9 месяцев назад
027K
Grok-Mirror:一键部署可盈利的Grok镜像站

Grok-Mirror: развертывание прибыльных зеркальных сайтов Grok одним щелчком мыши

Всеобъемлющее введение Grok-Mirror - это бессерверная станция быстрого развертывания Grok3 Domestic Mirror Station, основанная на создании работоспособной зеркальной станции Grok. Она позволяет пользователям разворачивать локальные киоски Grok одним кликом через Docker.Grok - это искусственный интеллект от xAI...
7 месяцев назад
027K
Agent.exe:让AI直接控制你的电脑,Claude控制计算机的开源实现

Agent.exe: позволяет искусственному интеллекту управлять вашим компьютером напрямую, реализация управляющего компьютера Клода с открытым исходным кодом.

Общее описание Agent.exe - это Electron-приложение с открытым исходным кодом, которое использует API Claude 3.5 Sonnet от Anthropic, чтобы позволить пользователям управлять локальными компьютерами напрямую через AI. Проект был разработан К...
10 месяцев назад
027K
Orate:集成知名语音生成、语音转录与变声模型的统一API

Orate: унифицированный API для интеграции известных технологий генерации речи, транскрипции речи и моделирования голоса

Общее представление Orate - это набор инструментов ИИ, ориентированный на генерацию и транскрипцию речи. Он предоставляет унифицированный API, который легко интегрируется с ведущими поставщиками ИИ, такими как OpenAI, ElevenLabs и AssemblyAI, чтобы помочь пользователям создавать принудительные...
8 месяцев назад
027K
Tabby:可集成到 VSCode 的本地自托管AI编程助手

Tabby: собственный самодостаточный ассистент программирования ИИ, интегрируемый в VSCode

Общее представление Tabby - это ассистент программирования с открытым исходным кодом, разработанный командой TabbyML, который пользователи могут развернуть самостоятельно локально или на сервере. Он предлагает функции, похожие на GitHub Copilot, такие как автозавершение кода и умные вопросы и ответы, но самая большая...
6 месяцев назад
027K
Unstructured:开源预处理非结构化文档,无结构数据处理的利器

Неструктурированные: препроцессинг неструктурированных документов с открытым исходным кодом, инструменты обработки неструктурированных данных

Всеобъемлющее введение Unstructured-IO представляет собой набор компонентов с открытым исходным кодом для обработки и предварительной обработки изображений и текстовых документов, таких как PDF, HTML, документы Word и т. д. Его основная цель - упростить и оптимизировать рабочие процессы обработки данных, особенно для больших языковых моделей (LL...
1 год назад
027K
DeOldify:使用AI技术为黑白照片和视频上色的经典开源工具

DeOldify: классический инструмент с открытым исходным кодом для окрашивания черно-белых фотографий и видео с помощью методов искусственного интеллекта

Всеобъемлющее представление DeOldify - это проект с открытым исходным кодом, основанный на технологии глубокого обучения и предназначенный для интеллектуального окрашивания и восстановления черно-белых фотографий и видео. В проекте используется инновационный метод обучения NoGAN, позволяющий успешно устранить общие недостатки традиционных GAN-сетей в процессе окрашивания изображений...
10 месяцев назад
027K
MMAudio:为视频画面生成同步音效与配乐,视频到音频的多模态联合训练工具

MMAudio: генерирование синхронизированных звуковых эффектов и саундтреков для видеоматериалов, мультимодальный инструмент совместного обучения "видео-аудио".

Общее представление MMAudio - это проект с открытым исходным кодом, направленный на создание высококачественного синхронизированного аудио с помощью совместного мультимодального обучения. Разработанный Хо Кей Ченгом и др. в Китайском университете Гонконга, основная функция проекта - генерировать синхронизированное аудио на основе видео и/или текстового ввода.MM...
10 месяцев назад
026.9K
在cloudflare部署hugging face的免费api,支持接口转发

Развертывание бесплатного api hugging face на cloudflare для поддержки переадресации интерфейсов

Потому что внутреннее развертывание не может получить доступ к обнимая лицо, так что в большой брат развертывания программы на основе преобразования, чтобы иметь возможность развернуть в cloudflare работников. Подготовка 1, зарегистрировать cloudflare 2, зарегистрировать обнимая лицо...
12 месяцев назад
026.9K
R1-V:低成本强化学习实现视觉语言模型泛化能力

R1-V: Недорогое обучение с подкреплением для обобщения возможностей визуальных языковых моделей

Всеобъемлющее введение R1-V - это проект с открытым исходным кодом, целью которого является достижение прорыва в визуальном моделировании языка (VLM) с помощью недорогого обучения с подкреплением (RL). Проект использует проверяемые механизмы вознаграждения для мотивации ВЛМ к обучению общим способностям счета. Удивительно, но R1-V's 2B ...
8 месяцев назад
026.9K
RD-Agent:自动化数据驱动研发工具,通过AI技术推动以数据为导向的研发过程

RD-Agent: автоматизированный инструмент для проведения НИОКР на основе данных, который облегчает процессы НИОКР на основе данных с помощью технологии искусственного интеллекта.

Общее представление RD-Agent - это инструмент с открытым исходным кодом от Microsoft, предназначенный для автоматизации и оптимизации процесса исследований и разработок (R&D). Инструмент ориентирован на сценарии, основанные на данных, для повышения эффективности разработки моделей и данных с помощью методов искусственного интеллекта.RD-Agent объединяет исследовательские...
7 месяцев назад
026.9K
Deep Live Cam:开源的实时AI换脸工具,一张照片就能实现实时换脸直播

Deep Live Cam: инструмент для замены лиц в реальном времени с открытым исходным кодом, фото для живой замены лиц в реальном времени

Общее представление Deep Live Cam - это инструмент искусственного интеллекта с открытым исходным кодом, предназначенный для замены лиц в реальном времени и создания фальшивого видео из одной фотографии. Используя передовые алгоритмы глубокого обучения, инструмент способен заменять лица в реальном времени во время прямых трансляций или видеозвонков, защищая конфиденциальность пользователей и добавляя веселья...
11 месяцев назад
026.9K
tldraw:开源无限画布白板SDK,AI生成简约线框图和UML图

tldraw: SDK с открытым исходным кодом для создания неограниченных досок на холсте, искусственный интеллект для создания минималистичных электронных схем и UML-диаграмм

Общее описание tldraw - это бесплатный инструмент для совместного рисования, который предоставляет неограниченный холст, на котором пользователи могут быстро рисовать графику, писать текст и мгновенно работать. Обладая интуитивно понятным интерфейсом и отличной производительностью, он подходит для совместной и удаленной работы. Поддерживаемый сообществом разработчиков с открытым исходным кодом, tldr...
11 месяцев назад
026.9K
AI RSS生成器:通过AI将网页内容转换为RSS订阅源的工具

AI RSS Generator: инструмент для преобразования веб-контента в RSS-каналы с помощью искусственного интеллекта.

Общее представление AI RSS - это инновационный инструмент, который преобразует веб-контент в RSS-каналы с помощью технологии искусственного интеллекта. Он состоит из двух основных частей: плагина для браузера и серверной части. Плагин для браузера позволяет пользователям выбирать списки с веб-страниц и генерировать файлы структурированного описания данных (SDD)...
9 месяцев назад
026.9K
Coze on WeChat:将Coze(扣子)机器人接入微信

Coze в WeChat: привнесение бота Coze (кнопка) в WeChat

Общее введение Coze on WeChat - это проект с открытым исходным кодом, призванный помочь пользователям беспрепятственно интегрировать AI-ботов с платформы Coze в WeChat. Он основан на разработках chatgpt-on-wechat и dify-on-wechat ...
7 месяцев назад
026.9K
DUIX:实时互动的智能数字人,支持多平台一键部署

DUIX: интеллектуальные цифровые люди для взаимодействия в реальном времени, поддерживающие многоплатформенное развертывание в один клик

Общее представление DUIX (Dialogue User Interface System) - это платформа цифрового взаимодействия с человеком на базе искусственного интеллекта, созданная компанией Silicon Intelligence. Благодаря возможностям цифрового взаимодействия с человеком с открытым исходным кодом разработчики могут легко интегрировать крупномасштабные модели, автоматическое распознавание речи (ASR...
9 месяцев назад
026.9K
Refly:基于自由画布上流程编排的AI写作平台,自动化生成文章

Refly: платформа для написания статей с искусственным интеллектом, основанная на оркестровке процессов на свободном холсте для автоматического создания статей

Всеобъемлющее введение Refly - это бесплатный авторский движок на основе холста с искусственным интеллектом, призванный помочь пользователям превратить идеи в высококачественный контент благодаря многопоточному диалогу, интеграции базы знаний, контекстной памяти и технологии интеллектуального поиска. Платформа охватывает более 20 профессиональных шаблонов сценариев, включая учебные...
8 месяцев назад
026.9K
DeepSeek-VL2:高级多模态理解的专家级视觉语言模型

DeepSeek-VL2: экспертная модель визуального языка для расширенного мультимодального понимания

Всеобъемлющее введение DeepSeek-VL2 - это серия усовершенствованных визуальных языковых моделей Mixture-of-Experts (MoE), которые значительно улучшают производительность своего предшественника DeepSeek-VL. Модели полезны для визуальных вопросов и ответов, оптического распознавания символов,...
8 месяцев назад
026.8K
One API:多模型API管理与负载均衡,分发系统

Единый API: многомодельное управление API и балансировка нагрузки, система распределения

Всеобъемлющее введение One API - это система управления и распространения интерфейсов с открытым исходным кодом, которая поддерживает различные большие модели, такие как OpenAI ChatGPT, Anthropic Claude, Google PaLM 2 & Gemini. ...
12 месяцев назад
026.8K
NeoAI:让AI接管电脑远程操作,使用自然语言控制电脑的开源项目

NeoAI: проект с открытым исходным кодом, позволяющий ИИ удаленно управлять компьютерами и контролировать их с помощью естественного языка

Общее представление NeoAI - это инновационный инструмент с открытым исходным кодом, позволяющий пользователям легко контролировать и управлять своими компьютерами с помощью диалога на естественном языке. Без написания какого-либо кода пользователи могут выполнять поиск файлов, автоматизацию задач, управление устройствами и многое другое с помощью простого ежедневного диалога.NeoAI...
9 месяцев назад
026.8K
文多多 AiPPT:AI生成PPT,演讲稿生成

Wenduoduo AiPPT: AI Generated PPT, генерация презентаций

Всеобъемлющее введение AiPPT - это инструмент для создания PPT на основе технологии искусственного интеллекта, призванный помочь пользователям быстро создавать профессиональные презентации. Он автоматически генерирует насыщенные контентом и красиво оформленные слайды при вводе тем, загрузке файлов или предоставлении URL-адресов и т.д. Он поддерживает встроенные диаграммы, анимацию и 3D-спец...
8 месяцев назад
026.7K
HippoRAG:基于长时记忆的多跳知识检索框架

HippoRAG: многоходовая система поиска знаний на основе долговременной памяти

Общие сведения HippoRAG - это фреймворк с открытым исходным кодом, разработанный группой OSU-NLP в Университете штата Огайо и вдохновленный механизмами долговременной памяти человека. Он сочетает в себе методы Retrieval Augmented Generation (RAG), Knowledge Graph и Personalised PageRank, чтобы помочь большим языковым моделям...
7 месяцев назад
026.7K
PDF Craft:PDF扫描文件转Markdown的开源工具

PDF Craft: преобразование отсканированных документов PDF в Markdown с открытым исходным кодом

Общее представление PDF Craft - это инструмент с открытым исходным кодом, предназначенный для сканирования PDF-файлов книг и преобразования их в формат Markdown. Он был разработан oomol-lab и размещен на GitHub для пользователей, которым нравится организовывать свои электронные книги. Инструмент работает через ...
7 месяцев назад
026.7K
VLM-R1:通过自然语言定位图像目标的视觉语言模型

VLM-R1: модель визуального языка для определения местоположения целей изображения с помощью естественного языка

Всеобъемлющее введение VLM-R1 - это проект визуального моделирования языка с открытым исходным кодом, разработанный Om AI Lab и размещенный на GitHub. Проект основан на подходе R1 компании DeepSeek, объединенном с моделью Qwen2.5-VL, с помощью обучения с подкреплением...
8 месяцев назад
026.7K
FinGPT:开源金融大语言模型平台,助力金融分析与预测

FinGPT: платформа с открытым исходным кодом для финансового моделирования на большом языке для финансовой аналитики и прогнозирования

Общее представление FinGPT - это платформа для моделирования на большом финансовом языке с открытым исходным кодом, разработанная фондом AI4Finance Foundation и предназначенная для финансового сектора с целью решения сложных финансовых задач и стимулирования инноваций в области финтеха. FinGPT использует методы облегченной адаптации и подходы к обучению с усилением...
9 месяцев назад
026.6K
AI2SRT:利用 Gemini模型,一键为长视频创建解说短视频或视频总结

AI2SRT: Создавайте короткие видеоролики с рассказом или видеорезюме для длинных видео одним щелчком мыши, используя модель Gemini

Всеобъемлющее введение AI2SRT - это проект с открытым исходным кодом, который использует большую модель GeminiAI для генерации коротких видеороликов и резюме для длинных видео одним щелчком мыши, поддерживая при этом субтитры с аудио- и видеотранскрипцией. Цель проекта - упростить процесс создания видеоконтента и предоставить эффективные функции генерации и перевода субтитров. Пользователи могут передавать...
10 месяцев назад
026.6K
QAnything:高度集成RAG处理流程的本地知识库问答系统

QAnything: локальная система вопросов и ответов для базы знаний с высокоинтегрированными процессами RAG

QAnything Comprehensive Introduction QAnything (Question and Answer based on Anything) - это локальная система вопросов и ответов на основе базы знаний, запущенная компанией NetEase, которая поддерживает все виды форматов файлов и баз данных, может быть установлена и использована в автономном режиме....
1 год назад
026.6K
Llama OCR:利用免费Llama 3.2 Vision接口,三行代码将图像转换为Markdown的OCR库

Llama OCR: библиотека OCR, которая конвертирует изображения в Markdown в три строки кода, используя бесплатный интерфейс Llama 3.2 Vision.

Общее представление Llama OCR - это библиотека OCR (Optical Character Recognition), основанная на Llama 3.2 Vision, способная конвертировать документы в формат Markdown. Библиотека была разработана компанией Nutlope и использует Together...
10 месяцев назад
026.6K
百聆 (Bailing):低延时的开源语音对话助手,轻松实现自然对话交流

Bailing: голосовой диалоговый помощник с открытым исходным кодом с низкой задержкой для естественного разговора и общения

Всеобъемлющее введение Bailing (Бейлинг) - это голосовой диалоговый помощник с открытым исходным кодом, предназначенный для ведения естественного диалога с пользователями посредством речи. Проект сочетает в себе технологии распознавания речи (ASR), определения голосовой активности (VAD), моделирования большого языка (LLM) и синтеза речи (TTS) для достижения...
9 месяцев назад
026.6K
AI Hedge Fund:开源自动化交易系统,利用多智能体进行复杂对冲基金交易决策

AI Hedge Fund: автоматизированная торговая система с открытым исходным кодом, которая использует множественные интеллектуальные способности для принятия сложных торговых решений в хедж-фондах

Общее представление AI Hedge Fund - это хедж-фонд с искусственным интеллектом, использующий мультиагентную систему для принятия торговых решений. Система работает в сотрудничестве с несколькими специализированными агентами, включая агентов рыночных данных, количественных агентов, агентов управления рисками и агентов управления портфелем, для достижения сложных торговых...
9 месяцев назад
026.6K
LHM:从单张图片生成支持动作的3D人体模型

LHM: генерация 3D-моделей человека с учетом движения на основе одного изображения

Всеобъемлющее введение LHM (Large Animatable Human Reconstruction Model) - это проект с открытым исходным кодом, разработанный командой aigc3d для быстрой генерации поддерживающей действия 3D-модели человека из одного изображения. Основные характеристики ...
7 месяцев назад
026.6K
Audiblez:生成有声书,使用Kokoro将电子书转换为有声读物

Audiblez: создание аудиокниг, преобразование электронных книг в аудиокниги с помощью Kokoro

Общее представление Audiblez - это проект с открытым исходным кодом, предназначенный для преобразования электронных книг (например, в формате .epub) в аудиокниги (например, в формате .m4b). Проект использует высококачественную технологию синтеза речи Kokoro для поддержки нескольких языков и нескольких голосов. Пользователи могут просто...
9 месяцев назад
026.6K
MegaTTS3:合成中英文语音的轻量模型

MegaTTS3: легкая модель для синтеза китайской и английской речи

Введение MegaTTS3 - это инструмент синтеза речи с открытым исходным кодом, разработанный компанией ByteDance в сотрудничестве с Чжэцзянским университетом и предназначенный для генерации высококачественной китайской и английской речи. Его основная модель имеет всего 0.45B параметров, легка и эффективна, поддерживает смешанную генерацию китайской и английской речи и клонирование речи. Проект размещен на ...
7 месяцев назад
026.5K
Agent Inbox:与AI智能体进行人机交互的管理界面

Agent Inbox: интерфейс управления для взаимодействия человека и компьютера с искусственным интеллектом

Общее введение Agent Inbox - это проект с открытым исходным кодом, разработанный командой LangChain для обеспечения нового пользовательского опыта взаимодействия с ИИ-интеллектами. Проект позволяет пользователям управлять и оптимизировать взаимодействие с несколькими ИИ-интеллектами через централизованный интерфейс.Ag...
9 месяцев назад
026.5K
k8m:简化Kubernetes集群管理的轻量级AI控制台工具

k8m: легкий консольный инструмент с искусственным интеллектом для упрощения управления кластером Kubernetes

Общее представление k8m - это легкая, кроссплатформенная Mini Kubernetes AI Dashboard, предназначенная для упрощения управления кластером. Он построен на базе AMIS и доступен через kom как гостевой Kubernetes API...
9 месяцев назад
026.5K
sensitive-word:敏感词过滤工具,高效DFA算法实现

sensitive-word: инструмент для фильтрации чувствительных слов, эффективная реализация алгоритма DFA

Всеобъемлющее введение Sensitive Word Filtering Tool (Sensitive Word) - это высокопроизводительный Java-инструмент для фильтрации чувствительных слов, основанный на реализации алгоритма DFA. Инструмент способен эффективно обнаруживать и фильтровать чувствительные слова, поддерживает различные преобразования форматов и пользовательские стратегии замены. Цель разработки - обеспечить ...
1 год назад
026.5K
Browser-Use:构建智能网页自动化工具,让AI智能体轻松操作浏览器

Browser-Use: создание интеллектуальных инструментов веб-автоматизации для ИИ-интеллектуалов, позволяющих легко управлять браузерами

Всеобъемлющее введение Browser-Use - это инновационный инструмент автоматизации веб-сайтов с открытым исходным кодом, специально разработанный для того, чтобы языковые модели (LLM) могли естественным образом взаимодействовать с веб-сайтами. Он предоставляет мощный и гибкий фреймворк, поддерживающий широкий спектр основных языковых моделей, включая GPT-4, Claud...
10 месяцев назад
026.5K
YOLOE:实时视频检测和分割物体的开源工具

YOLOE: инструмент с открытым исходным кодом для обнаружения и сегментации объектов на видео в реальном времени

YOLOE - проект с открытым исходным кодом, разработанный Группой мультимедийного интеллекта (THU-MIG) Школы программного обеспечения Университета Цинхуа, полное название - "You Only Look Once Eye". Он основан на фреймворке PyTorch, который относится к серии расширений YOLO ...
6 месяцев назад
026.5K
OpenManus-RL:微调大模型强化智能体推理与决策能力

OpenManus-RL: тонкая настройка больших моделей для улучшения интеллектуального рассуждения и принятия решений

Общее введение OpenManus-RL - это проект с открытым исходным кодом, разработанный UIUC-Ulab совместно с командой OpenManus сообщества MetaGPT и размещенный на GitHub. Проект улучшает крупномасштабное моделирование языка (LLM) с помощью методов обучения с подкреплением (RL)...
7 месяцев назад
026.5K
支持数据库查询的Dify插件

Плагин Dify с поддержкой запросов к базе данных

Общее введение dify-plugin-tools-dbquery - это плагин с открытым исходным кодом, разработанный для платформы Dify 1.0, опубликованный разработчиком junjiem на GitHub. Он предоставляет функциональность запросов к базе данных, чтобы помочь пользователям создавать...
7 месяцев назад
026.4K
OpenAvatarChat:模块化设计的数字人对话工具

OpenAvatarChat: модульно спроектированный цифровой инструмент для диалога между людьми

Общее представление OpenAvatarChat - это проект с открытым исходным кодом, разработанный командой HumanAIGC-Engineering и размещенный на GitHub. Это модульный инструмент цифрового человеческого диалога, который позволяет пользователям работать на одном компьютере...
6 месяцев назад
026.4K
ComfyUI-Copilot:文字描述生成 ComfyUI 工作流的AI助手

ComfyUI-Copilot: ИИ-помощник для создания текстовых описаний рабочих процессов ComfyUI

Всеобъемлющее введение ComfyUI-Copilot - это управляемый искусственным интеллектом пользовательский узел, разработанный для фреймворка ComfyUI, целью которого является повышение эффективности отладки и развертывания алгоритмов искусственного интеллекта посредством взаимодействия на естественном языке. Он разработан командой AIDC-AI (Alibaba) и заимствован из GitHu...
8 месяцев назад
026.4K
Anubis:通过工作量证明干扰AI爬虫抓取

Anubis: вмешательство в ползание ИИ-кроулеров с помощью доказательств рабочей нагрузки

Общее представление Anubis - это инструмент с открытым исходным кодом, разработанный командой TecharoHQ для защиты веб-сайтов от краулеров искусственного интеллекта. Он добавляет вызов SHA256 Proof-of-Work в HTTP-запросы...
7 месяцев назад
026.4K
Goose:开源可扩展的编程智能体,自动化执行编程全流程任务

Goose: масштабируемые интеллекты программирования с открытым исходным кодом, автоматизирующие полнопроцессные задачи программирования

Общее представление Goose - это инструмент ИИ-агента с открытым исходным кодом, разработанный компанией Block, Inc. и призванный помочь разработчикам автоматизировать повседневные задачи разработки. Он поддерживает широкий спектр больших языковых моделей (LLM) и взаимодействует с пользователями через командную строку или интерфейсы настольных приложений.Goose может выполнять широкий спектр задач от агента...
9 месяцев назад
026.4K
Motia:用代码快速构建智能体的开发框架

Motia: система разработки для быстрого создания интеллекта в коде

Общее представление Motia - это фреймворк ИИ-агентов с открытым исходным кодом для инженеров-программистов, размещенный на GitHub и разработанный командой MotiaDev. Он позволяет разработчикам использовать знакомые языки программирования (например, Python, TypeScript, Rub...
7 месяцев назад
026.4K
微信视频号下载器:快速下载微信视频号视频,支持多种格式和平台

WeChat Video No. Downloader: Быстрое скачивание видео WeChat Video No., поддержка множества форматов и платформ

Всеобъемлющее введение WeChat Video No. Downloader - это проект с открытым исходным кодом, разработанный для того, чтобы помочь пользователям быстро загружать видеоконтент с видеономеров WeChat. Инструмент поддерживает различные видеоформаты и платформы, и пользователи могут легко использовать его в системах Windows и macOS. Проект разработан компанией ltaoo и размещен на...
9 месяцев назад
026.4K
Linly-Talker:数字人智能对话系统,结合大语言模型与视觉模型,实现互动新体验

Linly-Talker: интеллектуальная диалоговая система для цифровых людей, сочетающая большие языковые модели и визуальные модели для новых интерактивных впечатлений

Общие сведения Linly-Talker - это инновационная цифровая система диалога с человеком, которая сочетает в себе большие языковые модели (LLM) и визуальные модели для создания нового подхода к человеко-компьютерному взаимодействию. Система объединяет различные технологии, такие как Whisper, Linly, Micros...
8 месяцев назад
026.4K
Fish Agent:端到端AI语音克隆助手,实时语音对话助理,Fish Speech衍生项目

Fish Agent: сквозной голосовой помощник с искусственным интеллектом, голосовой помощник для ведения диалога в реальном времени, спин-офф проект Fish Speech

Всеобъемлющее введение Проект Fish Speech Derivative Project Fish Agent - это революционная сквозная система клонирования речи AI, разработанная на основе архитектуры модели V0.1 3B. Как полностью сквозная система обработки речевых клонов, ее важнейшей особенностью является использование инновационных безречевых...
9 месяцев назад
026.4K
Spark-TTS:生成自然语音的文本转语音工具

Spark-TTS: инструмент преобразования текста в речь для генерации естественной речи

Общее представление Spark-TTS - это инструмент преобразования текста в речь (TTS) с открытым исходным кодом, разработанный командой SparkAudio и размещенный на GitHub, призванный помочь пользователям эффективно преобразовывать текст в естественную и плавную речь...
7 месяцев назад
026.4K
LogoCreator:开源Logo生成器,使用AI智能生成专业品牌Logo

LogoCreator: генератор логотипов с открытым исходным кодом, использующий искусственный интеллект для создания профессиональных логотипов брендов

Общее представление LogoCreator - это генератор логотипов с открытым исходным кодом, основанный на модели Together AI и Flux, ориентированный на предоставление быстрых и профессиональных услуг по разработке логотипов для предприятий и частных лиц. Проект разрабатывается и распространяется разработчиком Nutlope на Git...
10 месяцев назад
026.3K
Cognita:构建模块化RAG应用的开源框架,快速测试多样RAG策略

Cognita: фреймворк с открытым исходным кодом для создания модульных приложений RAG и быстрого тестирования различных стратегий RAG

Всеобъемлющее введение Cognita - это фреймворк с открытым исходным кодом, разработанный компанией TrueFoundry для упрощения разработки приложений на основе RAG (Retrieval-Augmented Generation). Фреймворк предоставляет структурированную, мод...
9 месяцев назад
026.3K
DH live:在30/40系显卡流畅实时交互的AI数字人

DH live: ИИ цифровых людей с плавным взаимодействием в реальном времени на видеокартах серии 30/40

Общее введение DH_live - это проект цифрового человека в реальном времени, основанный на обучении по принципу "образец меньше", цель которого - предоставить пользователям плавные и интерактивные прямые трансляции. Проект поддерживает видеокарты NVIDIA 30 и 40 серий и способен работать в режиме реального времени со скоростью 25+ кадров в секунду. Пользователи могут...
11 месяцев назад
026.3K