Проект с открытым исходным кодом AI

Всего 1020 статей
расставлять по порядку
Oliva:语音控制的多智能体产品搜索助手

Oliva: управляемый голосом мультиинтеллектуальный помощник для поиска товаров

Общее представление Oliva - это мультиинтеллектуальный помощник с открытым исходным кодом, разработанный Deluxer на GitHub. Он помогает пользователям искать информацию о товарах в базе данных Qdrant благодаря совместной работе нескольких искусственных интеллектов. Главной особенностью является поддержка голосового управления...
7 месяцев назад
025.4K
Qwen2.5-Omni:多模态输入和实时语音交互的端测模型

Qwen2.5-Omni: модель конечных измерений для мультимодального ввода и речевого взаимодействия в реальном времени

Всеобъемлющее введение Qwen2.5-Omni - это мультимодальная модель ИИ с открытым исходным кодом, разработанная командой Alibaba Cloud Qwen. Она может обрабатывать множество входных данных, таких как текст, изображения, аудио и видео, и генерировать текстовые или естественные речевые ответы в режиме реального времени. Модель была выпущена в 2025 году 3 ...
7 месяцев назад
025.4K
Raycast-G4F:通过Raycast免费使用GPT-4、Llama-3等多种 AI 模型

Raycast-G4F: Бесплатный доступ к GPT-4, Llama-3 и многим другим моделям ИИ через Raycast!

Общее представление Raycast-G4F (GPT4Free) - это мощное расширение Raycast, которое предоставляет пользователям бесплатный доступ к широкому спектру продвинутых моделей ИИ, включая GPT-4, Llama-3. Расширение не только обеспечивает потоковую передачу диалогов в реальном времени...
9 месяцев назад
025.4K
ModelBest(面壁智能):全球领先的轻量高性能端侧大模型

ModelBest: ведущая в мире легкая и высокопроизводительная модель для больших моделей с торцевой стороной

Общее представление ModelBest - это компания, специализирующаяся на разработке легких и высокопроизводительных больших моделей, которая занимается применением передовых технологий искусственного интеллекта в бытовой электронике и всех видах конечных устройств в повседневной жизни. Серия конечных моделей MiniCPM с экстремальной арифметической мощностью и эффективностью использования памяти...
12 месяцев назад
025.4K
CFG-Zero-star:提升图像和视频生成质量的开源工具

CFG-Zero-star: инструмент с открытым исходным кодом для улучшения качества генерации изображений и видео

Всеобъемлющее введение CFG-Zero-star - это проект с открытым исходным кодом, разработанный Вейчен Фаном и командой S-Lab в Наньянгском технологическом университете. Он направлен на улучшение техники Classifier Free Guidance (CFG) в моделях потокового сопоставления путем оптимизации стратегии наведения и нулевого инициального ...
7 месяцев назад
025.4K
AiPy:自动化运行Python代码完成数据分析任务

AiPy: автоматизация задачи выполнения кода на Python для анализа данных

Общее представление AiPy - это инструмент командной строки Python с открытым исходным кодом, разработанный командой Knownsec. Он сочетает в себе Большую языковую модель (LLM) и среду выполнения Python, позволяя пользователям автоматически генерировать и запускать Pytho...
6 месяцев назад
025.3K
code2prompt:将代码库转换为大模型可理解的prompt文件

code2prompt: преобразование библиотек кода в понятные файлы подсказок с большой моделью

Общее представление code2prompt - это инструмент командной строки с открытым исходным кодом, созданный разработчиком Mufeed VH и размещенный на GitHub, призванный помочь пользователям быстро преобразовывать целые базы кода в подсказки, подходящие для Large Language Model (LLM) (подсказки...
7 месяцев назад
025.3K
Prompt Optimizer:优化主流AI模型提示词的开源工具

Prompt Optimizer: инструмент с открытым исходным кодом для оптимизации слов подсказок для основных моделей ИИ

Общее представление Prompt Optimizer - это инструмент с открытым исходным кодом, ориентированный на оптимизацию слов подсказки, разработанный linshenkx на GitHub. Он помогает пользователям оптимизировать слова подсказок в моделях искусственного интеллекта с помощью интеллектуальных алгоритмов, тем самым улучшая качество генерируемого контента...
8 месяцев назад
025.3K
MiniRAG:简化检索增强生成框架,实体图索引召回相关文本块

MiniRAG: упрощенный поиск с расширенной структурой генерации, индекс графа сущностей Recall Relevant Text Blocks

Введение MiniRAG - это очень простой фреймворк Retrieval Augmented Generation (RAG), цель которого - обеспечить хорошую производительность RAG даже для небольших моделей за счет гетерогенного индексирования графов и облегченного поиска с использованием топологии. Он разработан Лабораторией науки о данных Гонконгского университета (HKUDS) для решения ...
9 месяцев назад
025.3K
NodeRAG:基于异构图的精准信息检索与生成工具

NodeRAG: гетерогенный инструмент на основе графов для точного поиска и генерации информации

Подробное введение NodeRAG - это система с открытым исходным кодом Retrieval Augmented Generation (RAG), размещенная на GitHub и разработанная Terry-Xu-666. Она оптимизирует поиск и генерацию информации с помощью гетерогенных графовых структур, значительно повышая точность поиска и контекстную релевантность.Node...
6 месяцев назад
025.3K
Moshi:实时语音对话框架,支持多种语言和口音的语音对话基础模型

Moshi: фреймворк речевого диалога в реальном времени с поддержкой нескольких языков и акцентов для базовых моделей речевого диалога

Общее представление Moshi Chat - это сквозной голосовой помощник с искусственным интеллектом в реальном времени от Kyutai, французской некоммерческой лаборатории искусственного интеллекта. Он не только слушает в режиме реального времени, но и участвует в естественных разговорах и поддерживает мультимодальное взаимодействие, включая возможность видеть, слышать и говорить.Moshi Ch...
1 год назад
025.3K
HelloMeme:生成局部高保真表情动作一致的图像或视频,Runway Act one 开源平替

HelloMeme: генерировать локальные высокой точностью выражения действия последовательное изображение или видео, подиум Act один открытый источник пинг-понг!

Всеобъемлющее введение HelloMeme - это проект с открытым исходным кодом, разработанный HelloVision и направленный на внедрение высокоуровневых и высокоточных полос в диффузионные модели путем интеграции пространственных вязальных...
10 месяцев назад
025.3K
Chunkr:使用视觉模型进行文档摄取以及根据文本段落层级智能分块的一体化服务

Chunkr: универсальный сервис, использующий визуальные модели для сбора документов и интеллектуальной группировки на основе иерархии абзацев текста.

Общее введение Chunkr - это самостоятельный API, предназначенный для преобразования файлов PDF, PPTX, DOCX и Excel в данные, пригодные для использования в RAG (Retrieval Augmented Generation) и LLM (Large Language Modelling). Проект был разработан компанией Lumina...
10 месяцев назад
025.3K
AutoGPT:工作流自动化与自主执行任务的智能体构建平台

AutoGPT: интеллектуальная платформа для автоматизации рабочих процессов и автономного выполнения задач

Всеобъемлющее представление AutoGPT - это мощная платформа, призванная помочь пользователям создавать, развертывать и управлять постоянно работающими агентами искусственного интеллекта и автоматизировать сложные рабочие процессы. Разработанная компанией Significant Gravitas, платформа предлагает широкий спектр инструментов и функций, которые позволяют пользователям сосредоточиться...
10 месяцев назад
025.3K
OmniGen:统一图像生成模型,多模态输入生成人物一致性图像

OmniGen: унифицированная модель генерации изображений с мультимодальными входами для создания изображений, соответствующих персонажам

Общее представление OmniGen - это "универсальная" модель генерации изображений, разработанная компанией VectorSpaceLab, которая позволяет пользователям создавать разнообразные и контекстуально насыщенные визуальные эффекты с помощью простых текстовых подсказок или мультимодальных вводов. Она особенно хорошо подходит для приложений, которым необходимо распознавать...
11 месяцев назад
025.3K
Step-Video-T2V:支持多语言输入和长视频生成的文生视频模型

Step-Video-T2V: модель видео Vincennes, поддерживающая многоязычный ввод и генерацию длинного видео

Всеобъемлющее представление Step-Video-T2V - это продвинутая модель преобразования текста в видео от StepFun AI (StepFun Star). Модель имеет 3 миллиарда параметров и способна генерировать видео со скоростью до 204 кадров в секунду. Благодаря глубокому сжатию переменного автокодировщика (VAE), модель...
8 месяцев назад
025.3K
Moffee:将Markdown转为PPT幻灯片

Moffee: Преобразование Markdown в PPT слайд-шоу

Общее представление Moffee - это инструмент с открытым исходным кодом, который быстро, просто и эффективно превращает файлы Markdown в профессиональные слайд-шоу. Пользователям нужно только написать содержимое в формате Markdown, а Moffee автоматически обработает макет, пагинацию и стиль, избавляя от необходимости вручную набирать...
7 месяцев назад
025.2K
ANP:实现智能代理间安全高效通信的开源协议

ANP: протокол с открытым исходным кодом для безопасной и эффективной коммуникации между интеллектуальными агентами

Общее введение AgentNetworkProtocol (сокращенно ANP) - это проект протокола с открытым исходным кодом, размещенный на GitHub, ориентированный на обеспечение безопасных и эффективных коммуникационных решений для интеллектуальных агентов (AI Agents). Он работает по трехслойной архитектуре - идентификация и шифрование...
7 месяцев назад
025.2K
Aide:强化VSCode开发体验的AI助手扩展,一键注释、转换、UI生成代码

Aide: расширение-помощник AI, которое расширяет возможности разработки VSCode с помощью аннотации, преобразования и генерируемого UI кода одним щелчком мыши.

Общее введение AIDE (AI-assisted Development Extension) - это мощное расширение для разработки с помощью искусственного интеллекта для VSCode, ориентированное на предоставление уникальной и полезной помощи в программировании с помощью искусственного интеллекта. Оно отличается от GitHu...
10 месяцев назад
025.2K
WeChatAI:Windows版微信群聊智能助手客户端

WeChatAI: клиент интеллектуального помощника группового чата WeChat для Windows

Всеобъемлющее введение WeChatAI - это основанный на Python групповой чат WeChat и персональный интеллектуальный помощник, поддерживающий различные большие языковые модели (такие как DeepSeek, Gemini, Tongyi Thousand Questions), которые могут достигать интеллектуального диалога, автоответа и других функций. Проект использует современные ...
8 месяцев назад
025.2K
WhoDB:支持自然语言交互的轻量数据库可视化管理软件

WhoDB: легкое программное обеспечение для управления визуализацией баз данных с поддержкой взаимодействия с естественным языком

Общее представление WhoDB - это легкий (~20 Мб), мощный и удобный инструмент управления базами данных, разработанный для упрощения задач администрирования баз данных. Он сочетает в себе простоту Adminer с удобством использования и улучшенной производительностью.WhoDB использует Go...
11 месяцев назад
025.2K
MegaParse:解析各类型文档为LLM可用数据,完整保留文档中的表格、图片等所有信息

MegaParse: разбирает каждый тип документа на LLM-доступные данные, сохраняя всю информацию в документе, такую как таблицы и рисунки, в полном объеме.

Общее представление MegaParse - это мощный и универсальный инструмент для разбора документов, разработанный для оптимизации обработки данных в рамках Большой языковой модели (LLM). Работаете ли вы с текстом, PDF, презентациями PowerPoint или документами Word, MegaParse...
10 месяцев назад
025.2K
LivePortrait:静态图像、视频生成动态肖像动画工具

LivePortrait: анимационный инструмент для создания динамических портретов из неподвижных изображений и видео.

Общее представление LivePortrait - это передовой инструмент для динамической анимации портретов с искусственным интеллектом, разработанный компанией Racer Technology. Он использует инновационную технологию искусственного интеллекта для преобразования неподвижных изображений в яркую видеоанимацию. Независимо от того, используете ли вы реальные фотографии, стили анимации или художественные портреты, LivePo...
11 месяцев назад
025.2K
olmOCR:PDF文档转换为文本,支持表格、公式和手写内容的识别

olmOCR: преобразование PDF-документов в текст, поддержка таблиц, формул и распознавание рукописного текста

Общее представление olmOCR - это инструмент с открытым исходным кодом, разработанный командой AllenNLP в Институте искусственного интеллекта Аллена (AI2), который предназначен для преобразования PDF-файлов...
8 месяцев назад
025.2K
Genesis:开源生成式物理引擎,实现基于真实物理的4D动态世界模拟

Genesis: генеративный физический движок с открытым исходным кодом для моделирования 4D динамического мира на основе реальной физики

Общее представление Genesis - это генеративный физический мир, предназначенный для робототехники общего назначения и обучения воплощенного ИИ. Он предоставляет единую платформу моделирования, которая поддерживает моделирование широкого спектра материалов и физических явлений.Genesis нацелен на раскрытие генеративного ИИ и физического моделирования путем объединения...
10 месяцев назад
025.2K
Sidekick CLI:一个开源的 Claude Code 替代工具

Sidekick CLI: инструмент для замены кода Клода с открытым исходным кодом

Общее представление Sidekick CLI - это инструмент командной строки с открытым исходным кодом, предназначенный для упрощения процесса разработки и развертывания проектов для разработчиков с помощью искусственного интеллекта. Он создан по мотивам Claude Code, Copilot и Cursor и предоставляет аналогичную функциональность...
6 месяцев назад
025.2K
Shandu:多轮收集分析信息的AI研究自动化工具

Shandu: инструмент автоматизации исследований с искусственным интеллектом для сбора и анализа информации в несколько раундов

Общее представление Shandu - это исследовательская система с открытым исходным кодом на основе искусственного интеллекта, размещенная на GitHub и созданная разработчиком jolovicdev. Она использует технологии LangChain и LangGraph и нацелена на обеспечение автоматизированной, всесторонней и...
7 месяцев назад
025.2K
推荐Github优秀开源下载工具

Рекомендуемый Github - отличный инструмент для загрузки открытых источников

В условиях стремительного развития современного Интернета инструменты загрузки, как важное средство получения пользователями информации и ресурсов, играют незаменимую роль. В этой статье будет проведен систематический анализ пяти инструментов загрузки с открытым исходным кодом: AB Download Manager, XDM (Xtreme Download ...
1 год назад
025.2K
LangGraph CodeAct:生成代码帮助智能体解决复杂任务

LangGraph CodeAct: генерация кода для помощи интеллекту в решении сложных задач

Общие сведения Введение LangGraph CodeAct - это фреймворк, открытый на GitHub командой LangChain AI, основанный на архитектуре CodeAct (подробнее см. статью arXiv:2402.01030). Для этого он генерирует...
7 месяцев назад
025.2K
GPT4Free:反编译AI对话网站接口,免费使用多种GPT模型

GPT4Free: декомпиляция интерфейса сайта диалогов AI для свободного использования нескольких моделей GPT

Общие сведения Введение GPT4Free - это проект с открытым исходным кодом, опубликованный разработчиком xtekky на GitHub, целью которого является бесплатное предоставление различных мощных языковых моделей, включая GPT-3.5, GPT-4, Llama, Gemini-Pro, Bar...
12 месяцев назад
025.2K
LlamaEdge:本地运行和微调LLM的最快捷方式

LlamaEdge: самый быстрый способ запускать и настраивать LLM локально!

Общее представление LlamaEdge - это проект с открытым исходным кодом, разработанный для упрощения процесса запуска и тонкой настройки больших языковых моделей (LLM) на локальных или пограничных устройствах. Проект поддерживает семейство моделей Llama2 и предоставляет API-сервисы, совместимые с OpenAI, которые позволяют пользователям легко создавать и запускать...
9 месяцев назад
025.2K
Agentic Security:开源的LLM漏洞扫描工具,提供全面的模糊测试和攻击技术

Agentic Security: инструмент для сканирования уязвимостей LLM с открытым исходным кодом, который обеспечивает всестороннее тестирование и методы атаки.

Общее представление Agentic Security - это инструмент сканирования уязвимостей LLM (Large Language Model) с открытым исходным кодом, предназначенный для предоставления разработчикам и специалистам по безопасности комплексного тестирования и методов атаки. Инструмент поддерживает пользовательские наборы правил или атаки на основе агентов и способен интегрировать LLM AP...
8 месяцев назад
025.2K
SegAnyMo:从视频中自动分割任意运动物体的开源工具

SegAnyMo: инструмент с открытым исходным кодом для автоматического сегментирования произвольных движущихся объектов из видео.

Общее представление SegAnyMo - это проект с открытым исходным кодом, разработанный группой исследователей из Калифорнийского университета в Беркли и Пекинского университета, включая таких членов, как Нан Хуанг. Этот инструмент ориентирован на обработку видео и может автоматически идентифицировать и сегментировать произвольные движущиеся объекты на видео, такие как люди, животные или...
7 месяцев назад
025.2K
TreeGPT:可视化树状对话的AI聊天界面

TreeGPT: интерфейс чата с искусственным интеллектом для визуализации разговоров на основе деревьев

Общее представление TreeGPT - это чат-приложение с открытым исходным кодом на базе Next.js, ориентированное на визуализацию разговоров с большими языковыми моделями (LLM, например, GPT) через древовидные графовые структуры (directed acyclic graphs, DAGs), заменяя традиционные линейные методы чата для повышения скорости и...
8 месяцев назад
025.2K
Onlook:面向前端设计开源Cursor,在React应用中设计并发布代码

Onlook: курсор с открытым исходным кодом для фронтенд-дизайна, разработки и публикации кода в приложениях React

Общее представление Onlook - это инструмент проектирования с открытым исходным кодом, созданный для дизайнеров и разработчиков, который позволяет пользователям создавать дизайн непосредственно в работающем приложении React и преобразовывать изменения дизайна в код. Инструмент предоставляет интуитивно понятный опыт визуального редактирования, подобный Figma или Webf...
9 месяцев назад
025.2K
AnkiAIUtils: Anki Flashcard Learning AI Toolset, интеллектуальный помощник, который автоматически оптимизирует карты памяти

AnkiAIUtils: Anki Flashcard Learning AI Toolset, интеллектуальный помощник, который автоматически оптимизирует карты памяти

Общее описание AnkiAIUtils - это набор инструментов с поддержкой искусственного интеллекта, предназначенных для системы изучения флэш-карт Anki. Разработанный студентом-медиком, этот инструмент предназначен для автоматического улучшения карточек, с которыми пользователи испытывают трудности в процессе обучения, с помощью технологии искусственного интеллекта. Он интеллектуально предоставляет пользователям персонализированные...
10 месяцев назад
025.2K
Comp AI:自动化SOC 2、ISO 27001和GDPR合规的开源平台

Comp AI: платформа с открытым исходным кодом для автоматизации соблюдения требований SOC 2, ISO 27001 и GDPR

Общее представление Comp AI - это платформа с открытым исходным кодом, разработанная компанией Comp AI, Inc. в Сан-Франциско, США. Она помогает организациям быстро выполнить требования к соответствию, такие как SOC 2, ISO 27001 и GDPR, с помощью автоматизированных инструментов, с целью...
6 месяцев назад
025.1K
ALog:便携AI语音日记应用,支持语音转文字。

ALog: портативное приложение для ведения голосового дневника с искусственным интеллектом и поддержкой преобразования речи в текст.

Общее представление ALog - это приложение для ведения голосового дневника на основе ИИ, призванное помочь пользователям записывать свою повседневную жизнь с помощью голоса. Оно разработано компанией duxins и размещено в открытом доступе на GitHub. Пользователи могут записывать дневниковые записи с помощью голосового ввода, а приложение автоматически преобразует голос в текст...
9 месяцев назад
025.1K
MarkItDown:微软文档智能转换工具,转换各种文件为Markdown格式

MarkItDown: Инструмент интеллектуального преобразования документов Microsoft для конвертации различных файлов в формат Markdown

Общее представление MarkItDown - это инструмент на языке Python, разработанный компанией Microsoft и предназначенный для преобразования различных файлов и офисных документов в формат Markdown. Инструмент поддерживает широкий спектр типов файлов, включая PDF, PowerPoint, Word, Excel, диаграммы...
10 месяцев назад
025.1K
Flow(Laminar):构建智能体的轻量级任务引擎,简化并灵活管理任务

Flow (Laminar): легкий движок для построения интеллекта, который упрощает и гибко управляет задачами

Всеобъемлющее введение Flow - это легкий движок задач, предназначенный для создания агентов искусственного интеллекта с акцентом на простоту и гибкость. В отличие от традиционных рабочих процессов, основанных на узлах и границах, Flow использует динамическую систему очередей задач, которая поддерживает параллельное выполнение, динамическое планирование и интеллектуальное управление зависимостями. Его основной концепцией является ...
10 месяцев назад
025.1K
BrushEdit:腾讯ARC发布的图像修复和编辑的全能工具

BrushEdit: универсальный инструмент для восстановления и редактирования изображений выпущен компанией Tencent ARC

Всеобъемлющее представление BrushEdit - это универсальный инструмент для ремонта и редактирования изображений, разработанный Tencent ARC Labs. Инструмент основан на новейших технологиях искусственного интеллекта и способен автоматически определять и устранять дефекты на изображениях, поддерживая при этом интерактивное редактирование пользователями.BrushEdit сочетает в себе различные...
10 месяцев назад
025.1K
BrowserTools MCP:实时监控浏览器活动的MCP服务

BrowserTools MCP: MCP-сервис для мониторинга активности браузера в режиме реального времени

Общее представление BrowserTools MCP - это проект с открытым исходным кодом, разработанный командой AgentDeskAI. Он позволяет искусственному интеллекту отслеживать активность браузера в режиме реального времени с помощью расширений Chrome и сервисов Node.js, включая журналы, сетевые запросы...
7 месяцев назад
025.1K
AstrBot:具有WebUI的AI聊天机器人接入平台

AstrBot: платформа доступа к чатботу искусственного интеллекта с веб-интерфейсом

Всеобъемлющее введение AstrBot - это фреймворк для разработки чатботов с открытым исходным кодом, он поддерживает QQ, Telegram, WeChat и другие платформы обмена сообщениями, и может легко получить доступ к OpenAI, DeepSeek, Google Gemini и другим большим языковым моделям (L...
6 месяцев назад
025.1K
DiffRhythm(谛韵):10秒内生成最长4分45秒的歌曲

DiffRhythm: генерируйте песни длительностью до 4 минут 45 секунд за 10 секунд.

Общее представление DiffRhythm - это проект с открытым исходным кодом, разработанный ASLP-lab (Группа обработки аудио, речи и языка, Северо-Западный политехнический университет) и направленный на сквозное создание музыки с помощью методов искусственного интеллекта. Он основан на латентной диффу...
7 месяцев назад
025.1K
Open Codex:将自然语言转换为Shell命令的开源AI工具

Open Codex: инструмент ИИ с открытым исходным кодом для преобразования естественного языка в команды оболочки

Общее представление Open Codex - это инструмент ИИ командной строки с открытым исходным кодом, предназначенный для разработчиков, чтобы преобразовывать инструкции естественного языка в точные команды оболочки. Он использует родную языковую модель (например, phi-4-mini), не требует подключения к сети или ключей API, а все операции в...
6 месяцев назад
025.1K
MediaCrawler:多社交媒体平台内容、视频评论爬虫工具

MediaCrawler: инструмент для поиска контента и комментариев к видео на платформах мультисоциальных медиа

Общее представление MediaCrawler - это инструмент для сбора контента социальных сетей, предназначенный для разработчиков. Благодаря мощному краулеру он может быстро захватывать видео, изображения, комментарии, лайки, ретвиты и другие данные с таких социальных платформ, как Xiaohongshu, Shake, Shutter, B, Weibo и других...
1 год назад
025.1K
Leffa:高保真模特虚拟试穿与人物姿势调整,Meta开源的可控人物图像生成模型

Leffa: Виртуальная примерка высокоточной модели и корректировка позы персонажа, мета-модель генерации образа управляемого персонажа с открытым исходным кодом

Всеобъемлющее введение Leffa - это единый фреймворк для создания управляемых изображений персонажей, позволяющий точно манипулировать их внешним видом (например, виртуальная подгонка) и позой (например, передача позы). Система значительно уменьшает искажение мелких деталей, направляя целевой запрос на правильную опорную клавишу в слое внимания, с ...
10 месяцев назад
025.1K
n8n-mcp-server:与n8n工作流交互的MCP服务工具

n8n-mcp-server: Сервисный инструмент MCP для взаимодействия с рабочими процессами n8n

Общее представление n8n-mcp-server - это проект с открытым исходным кодом, размещенный на GitHub и разработанный Леонардом Селлемом. Это сервисный инструмент MCP (Model Context Protocol), специализирующийся...
7 месяцев назад
025.1K
Clone Voice:支持多语言的少样本声音克隆工具,基于xtts_v2提供Windows一键安装包

Clone Voice: Многоязычный инструмент для клонирования голоса без сэмплов на основе xtts_v2 для Windows.

Общее описание Clone Voice - это инструмент клонирования звука с открытым исходным кодом, который предоставляет веб-интерфейс, позволяющий пользователям клонировать голоса, используя любой звук или личную запись голоса. Инструмент прост в использовании, даже без NVIDIA GPU, и может быть использован с предварительно скомпилированным приложением...
1 год назад
025.1K
MedRAX: 利用多模态大模型进行胸部X光片分析的智能体

MedRAX: интеллектуальный орган для анализа рентгенограмм грудной клетки с использованием мультимодальных макромоделей

Всеобъемлющее введение MedRAX - это современный искусственный интеллект, предназначенный для анализа рентгенограмм грудной клетки (РГК). Он объединяет современные инструменты для анализа рентгенограмм и мультимодальные большие языковые модели для динамической обработки сложных медицинских запросов без дополнительного обучения.MedRAX, благодаря своей модульной конструкции...
7 месяцев назад
025.1K
FoleyCrafter:为无声视频添加生动同步的音效

FoleyCrafter: добавление яркого синхронизированного звука в беззвучное видео

Общее представление FoleyCrafter - это проект с открытым исходным кодом, разработанный OpenMMLab для создания ярких и синхронизированных звуковых эффектов для немого видео. Проект использует передовые методы искусственного интеллекта для генерации семантически релевантных и синхронизированных по времени звуковых эффектов путем анализа видеоконтента...
10 месяцев назад
025K
DragGAN:交互式图像编辑工具,点选和拖拽控制图像位置

DragGAN: Интерактивный инструмент для редактирования изображений, управление положением изображения с помощью мыши и перетаскивания.

Общее представление DragGAN - это интерактивный инструмент для редактирования изображений, основанный на генеративных адверсарных сетях (GAN). Он был выпущен Синганом Паном и др. на выставке SIGGRAPH 2023 и нацелен на то, чтобы дать пользователям возможность интуитивно манипулировать изображениями с помощью простых операций "укажи и щелкни" и "перетащи и отпусти"...
10 месяцев назад
025K
VBDeepSeek:使用DeepSeek生成四级单词学习资料的开源工具

VBDeepSeek: инструмент с открытым исходным кодом для создания материалов для изучения слов в 4 классе с помощью DeepSeek

Всеобъемлющее введение "Vocabulary Book by DeepSeek" - это проект с открытым исходным кодом, разработанный на основе большой модели DeepSeek и призванный помочь изучающим английский язык эффективно освоить лексику College English Level 4 (CET-4). Проект размещен на GitHub...
8 месяцев назад
025K
Devin.cursorrules:增强Cursor IDE开发体验,将Cursor/Windsurf打造成类Devin智能编程助手

Devin.cursorrules: Улучшение опыта разработки в Cursor IDE, превращение Cursor/Windsurf в Devin-подобный интеллектуальный помощник программиста

Общее введение Devin.cursorrules - это инновационный проект с открытым исходным кодом, предназначенный для преобразования доступной IDE Cursor или Windsurf (~$20) в мощный ассистент программирования с искусственным интеллектом, подобный Devin. Проект предоставляет набор ...
9 месяцев назад
025K
Devika:开源的AI软件工程师智能体,能够理解、拆分指令为子任务并编写代码

Devika: программный инженерный интеллект с открытым исходным кодом, который понимает, разбивает инструкции на подзадачи и пишет код

Общее представление Devika - это продвинутый ИИ-программист, который понимает высокоуровневые человеческие инструкции, разбивает их на шаги, изучает соответствующую информацию и пишет код для достижения поставленной цели. Она интеллектуально разрабатывает программное обеспечение, используя крупномасштабные языковые модели, алгоритмы планирования и рассуждений, а также возможности просмотра веб-страниц.D...
7 месяцев назад
025K
PhotoDoodle:文字指令为照片添加艺术涂鸦的AI工具

PhotoDoodle: ИИ-инструмент для добавления художественных каракулей к фотографиям с помощью текстовых команд

Общее представление PhotoDoodle - это инструмент для редактирования изображений с открытым исходным кодом, разработанный компанией ShowLab, ориентированный на художественное редактирование фотографий с помощью технологии искусственного интеллекта. Пользователи могут добавлять мультяшный стиль, 3D-эффект, свет к реальным фотографиям, просто набирая простые текстовые подсказки...
7 месяцев назад
025K
MiMo:高效数学推理与代码生成的小型开源模型

MiMo: небольшая модель с открытым исходным кодом для эффективных математических рассуждений и генерации кода

Общее представление MiMo - это проект моделирования больших языков с открытым исходным кодом, разработанный компанией Xiaomi и сфокусированный на математических рассуждениях и генерации кода. Основным продуктом является семейство моделей MiMo-7B, которое содержит базовую модель (Base), модель тонкой настройки под наблюдением (SFT), сильную химическую модель, обученную на основе базовой модели...
5 месяцев назад
025K
混元文生视频:生成写实镜头感的高质量视频,腾讯开源视频生成大模型

Гибридное видео Vincennes: генерация реалистичных кадров высококачественного видео, Tencent с открытым исходным кодом для генерации видео больших моделей

Всеобъемлющее введение Tencent Mixed Yuan Text Generation Video (доступно в Yuanbao APP) - это платформа для создания видео на основе технологии искусственного интеллекта, запущенная компанией Tencent. Платформа использует гибридную большую модель Tencent с мощными междоменными знаниями и пониманием естественного языка и способна генерировать высококачественные видео на основе текстовых описаний пользователей...
9 месяцев назад
025K
Orama:高性能全文本和向量搜索引擎

Orama: высокопроизводительная система полнотекстового поиска книг и векторов

Общее представление Orama - это высокопроизводительная поисковая система с открытым исходным кодом, написанная полностью на TypeScript, поддерживающая полнотекстовый поиск, векторный поиск и гибридный поиск.Orama разработана для работы в любой среде выполнения JavaScript, обеспечивая быстрый, надежный ...
9 месяцев назад
025K
Fay数字人框架:集成语言模型与3D数字角色,支持多种应用场景

Fay Digital Human Framework: интеграция языковых моделей и трехмерных цифровых персонажей для поддержки различных сценариев применения

Введение Fay - это фреймворк с открытым исходным кодом для создания 3D-виртуальных цифровых людей, который объединяет языковые модели и цифровые персонажи для различных сценариев применения, таких как виртуальные гиды по магазинам, виртуальные ведущие, ассистенты, официанты, учителя, а также голосовые или текстовые мобильные помощники.Fay поддерживает полное автономное использование, обеспечивая м...
9 месяцев назад
025K
Proxy Lite:3B参数视觉模型驱动的网页自动化工具

Proxy Lite: 3B Parametric Visual Model Driven Web Automation Tool

Всеобъемлющее введение Proxy Lite - это легкий инструмент веб-автоматизации с открытым исходным кодом, разработанный компанией Convergence AI как мини-версия Proxy с открытым весовым дизайном. Он основан на 3B-параметрической модели визуального языка (VLM) и способен самостоятельно...
7 месяцев назад
025K
SemHash:快速实现语义文本去重,提升数据清理效率

SemHash: быстрая реализация семантической дедупликации текста для повышения эффективности очистки данных

Всеобъемлющее введение SemHash - это легкий и гибкий инструмент для дедупликации наборов данных по семантическому сходству. Он сочетает в себе быструю генерацию вкраплений Model2Vec и эффективный поиск сходства ANN (приближенный ближайший сосед) Vicinity.SemHa...
9 месяцев назад
024.9K
Emigo:在Emacs中使用AI完成复杂编程任务的助手

Emigo: помощник для решения сложных задач программирования с использованием искусственного интеллекта в Emacs

Общее представление Emigo - это ассистент программирования с открытым исходным кодом, созданный для Emacs, разработанный MatthewZMD на GitHub. Он помогает программистам выполнять анализ кода в Emacs, интегрируя крупномасштабную языковую модель (LLM)...
7 месяцев назад
024.9K
AI ContentCraft:生成短故事、对话脚本、配音、配图的多功能AI内容创作工具

AI ContentCraft: универсальный инструмент для создания ИИ-контента, позволяющий генерировать короткие истории, сценарии диалогов, закадровый голос и графику.

Общее представление AI ContentCraft - это универсальный инструмент для создания контента, который объединяет в себе генерацию текста, синтез речи, создание изображений и многое другое. Он помогает авторам быстро создавать истории, сценарии подкастов, а также сопутствующий аудио- и видеоконтент. Инструмент поддерживает преобразование нескольких языков и может пакетно...
9 месяцев назад
024.9K
Search-R1:强化学习训练大模型搜索与推理的工具

Search-R1: обучение с подкреплением для обучения больших моделей для поиска и рассуждений

Общее представление Search-R1 - это проект с открытым исходным кодом, разработанный PeterGriffinJin на GitHub и построенный на фреймворке veRL. Он обучает большие языковые модели (LLM) с помощью методов обучения с подкреплением (RL), позволяя моделям автономно обучаться...
7 месяцев назад
024.9K
opensource_notebooklm:基于Deepseek-V3和PlayHT TTS的NotebookLM开源实现

opensource_notebooklm: реализация NotebookLM с открытым исходным кодом на основе Deepseek-V3 и PlayHT TTS

Общее представление Open Source NotebookLM - это инновационный проект искусственного интеллекта, который объединяет возможности понимания языка Deepseek-V3 с технологией синтеза речи PlayHT, направленный на создание интеллектуальной диалоговой системы для ведения заметок. Проект был разработан компанией Build Fast w...
9 месяцев назад
024.9K
Data Formulator:AI驱动的数据可视化工具

Data Formulator: инструмент визуализации данных, управляемый искусственным интеллектом

Общее представление Data Formulator - это инструмент визуализации данных с открытым исходным кодом, управляемый искусственным интеллектом, разработанный Microsoft Research. Инструмент сочетает в себе графический интерфейс пользователя (GUI) и естественный язык ввода (NL), что позволяет пользователям быстро создавать и итерировать данные с помощью простых взаимодействий и команд...
8 месяцев назад
024.9K
LocalGPT:在本地设备上与多文档对话,确保数据隐私

LocalGPT: Обеспечение конфиденциальности данных при работе с несколькими документами на локальных устройствах

Общее введение LocalGPT - это проект с открытым исходным кодом, разработанный для того, чтобы пользователи могли общаться с документами на локальных устройствах, обеспечивая конфиденциальность данных. Используя различные модели с открытым исходным кодом, LocalGPT может обрабатывать и понимать содержимое документов, не загружая данные в облако. Проект поддерживает различные п...
10 месяцев назад
024.9K
PPTX2MD:将PPTX文件转换为Markdown的专用工具

PPTX2MD: Специальный инструмент для преобразования файлов PPTX в Markdown

Общее представление PPTX2MD - это инструмент с открытым исходным кодом, предназначенный для преобразования файлов PowerPoint PPTX в формат Markdown. Разработанный пользователем GitHub ssine, инструмент поддерживает сохранение заголовков, списков, форматирования текста (например, жирный шрифт, курсив, цвета и супер...
8 месяцев назад
024.9K
CogAgent:智谱开源的智能视觉语言模型,实现图形界面自动化操作

CogAgent: интеллектуальная модель визуального языка Smart Spectrum с открытым исходным кодом для автоматизации графических интерфейсов

Всеобъемлющее введение CogAgent - это визуальная языковая модель с открытым исходным кодом, разработанная исследовательской группой Tsinghua University Data Mining Research Group (THUDM) и предназначенная для автоматизации работы графического интерфейса пользователя (GUI) на разных платформах. Модель основана на CogVLM (GLM-4V-9B) и поддерживает двуязычный китайский и английский...
10 месяцев назад
024.9K
Harbor:一键部署本地LLM开发环境,轻松管理和运行AI服务的容器化工具集

Harbor: контейнерный набор инструментов для развертывания локальных сред разработки LLM одним щелчком мыши и простого управления и запуска сервисов ИИ

Общее представление Harbor - это революционный контейнерный набор инструментов LLM, направленный на упрощение развертывания и управления локальными средами разработки ИИ. Он предоставляет разработчикам чистый интерфейс командной строки (CLI) и приложение-компаньон для запуска и управления одним щелчком мыши, включая бэкенды LLM, интерфейсы API, фронт...
9 месяцев назад
024.9K
Morphic:AI驱动的开源搜索引擎,提供智能问答、视频搜索、生成UI代码

Morphic: поисковая система с открытым исходным кодом на базе ИИ предлагает умные вопросы и ответы, поиск видео, генерацию кода пользовательского интерфейса

Общее представление Morphic - это поисковая система, основанная на технологии искусственного интеллекта, с генеративным пользовательским интерфейсом, разработанным для обеспечения интеллектуальных вопросов и ответов и эффективного поиска. Пользователи могут выполнять различные виды поиска с помощью Morphic, включая текст, видео и т. д., а также сохранять историю поиска и делиться результатами поиска.Mo...
11 месяцев назад
024.8K
AI Chatbot:Vercel 构建和部署智能聊天机器人

Чатбот с искусственным интеллектом: Vercel создает и внедряет интеллектуальные чатботы

Общее представление AI Chatbot - это проект с открытым исходным кодом, разработанный компанией Vercel, чтобы помочь разработчикам быстро создавать и внедрять интеллектуальные чат-боты. Проект основан на фреймворке Next.js и интегрируется с различными поставщиками моделей искусственного интеллекта, такими как OpenAI...
10 месяцев назад
024.8K
EchoMimic:音频驱动人像照片生成说话视频(EchoMimicV2加速版安装包)

EchoMimic: аудиопортреты для создания говорящих видео (ускоренный установщик EchoMimicV2)

Общее представление EchoMimic - это проект с открытым исходным кодом, предназначенный для создания реалистичных портретных анимаций, управляемых звуком. Разработанный подразделением Terminal Technologies компании Ant Group, проект использует редактируемые условия маркерных точек для создания динамических портретных видеороликов с использованием комбинации аудио и маркерных точек лица.EchoMimic...
9 месяцев назад
024.8K
Deep Recall:为大模型提供企业级记忆框架的开源工具

Deep Recall: инструмент с открытым исходным кодом, обеспечивающий структуру памяти корпоративного уровня для больших моделей

Всеобъемлющее введение Deep Recall - это фреймворк памяти корпоративного класса с открытым исходным кодом, разработанный для больших языковых моделей (LLM). Она обеспечивает гиперперсонализированную отзывчивость благодаря эффективному контекстному поиску и интеграции. Фреймворк использует трехуровневую архитектуру, включающую сервис памяти, сервис рассуждений и координатор, поддерживающий...
5 месяцев назад
024.8K
BetterWhisperX:自动语音识别与说话人分离,提供高精度单词级时间戳

BetterWhisperX: автоматическое распознавание речи отдельно от диктора, обеспечивающее высокую точность временных меток на уровне слов

Общее введение BetterWhisperX - это оптимизированная версия проекта WhisperX, ориентированная на предоставление эффективных и точных услуг автоматического распознавания речи (ASR). Как улучшенное ответвление WhisperX, проект был разработан Федерико ...
10 месяцев назад
024.8K
AnimeGamer:用语言指令生成动漫视频和角色互动的开源工具

AnimeGamer: инструмент с открытым исходным кодом для создания аниме-видео и взаимодействия персонажей с помощью лингвистических команд

AnimeGamer - это инструмент с открытым исходным кодом от лаборатории ARC Lab компании Tencent. Пользователи могут создавать аниме-видео с помощью простых языковых команд, например "Sousuke drive around in a purple car", а также позволять различным аниме-персонажам взаимодействовать друг с другом, например Kiki из Magical Girl's Adventure и Sky City...
6 месяцев назад
024.8K
AgenticSeek:完全本地运行的任务自动化AI助手

AgenticSeek: ИИ-помощник для автоматизации задач, работающий полностью локально

Общее представление AgenticSeek - это ИИ-ассистент с открытым исходным кодом, который работает полностью локально и основан на модели Deepseek R1. Он не требует облачного API и не влечет за собой ежемесячной платы в сотни долларов. Его цель - стать интеллектуальным помощником, подобным "Джарвису" из фильма...
7 месяцев назад
024.8K
VoiceCraft:开源零样本语音克隆与文本转语音工具

VoiceCraft: инструмент для клонирования речи и преобразования текста в речь с нулевым образцом с открытым исходным кодом

Всеобъемлющее введение VoiceCraft - это инструмент редактирования речи с открытым исходным кодом и синтеза речи с нулевой выборкой, основанный на нейронной модели языка кодека. В нем используется инновационный метод генерации кодированных последовательностей, который позволяет вставлять, удалять и заменять существующие речевые последовательности для создания естественной, связной отредактированной речи...
1 год назад
024.8K
Ai2 OLMoE:基于 OLMoE 模型离线运行的开源iOS AI应用

Ai2 OLMoE: приложение ИИ для iOS с открытым исходным кодом, основанное на моделях OLMoE, работающих в автономном режиме

Общее представление Ai2 OLMoE - это приложение для iOS с открытым исходным кодом, разработанное Институтом искусственного интеллекта Аллена (Ai2, Allen Institute for Artificial Intelligence) для создания моделей искусственного интеллекта, которые работают исключительно на устройствах. Приложение использует открытый исходный код Ai2 ol...
8 месяцев назад
024.8K
Gemini Teacher:英语口语发音纠正助手

Gemini Teacher: Помощник по коррекции произношения в английском языке

Общее представление Gemini Teacher - это помощник для практики английского языка, основанный на искусственном интеллекте Google Gemini. Он распознает английское произношение пользователя в режиме реального времени и предоставляет мгновенную обратную связь и предложения по исправлению. Инструмент разработан, чтобы помочь пользователям улучшить свои навыки разговорного английского языка через...
8 месяцев назад
024.8K
Paper2Code:将机器学习论文自动转化为可运行代码

Paper2Code: автоматическое преобразование документов по машинному обучению в исполняемый код

Общее введение Paper2Code - это проект с открытым исходным кодом, направленный на решение проблемы нехватки реализаций кода для статей по машинному обучению. Он автоматически преобразует научные статьи в репозитории исполняемого кода с помощью мультиагентной системы моделирования большого языка (LLM) PaperCoder. Система использует планирование ...
5 месяцев назад
024.8K
Cog-ComfyUI:使用API运行ComfyUI工作流

Cog-ComfyUI: запуск рабочих процессов ComfyUI с помощью API

Общее введение Cog-ComfyUI - это проект с открытым исходным кодом, предназначенный для запуска рабочих процессов ComfyUI через API. Созданный пользователем fofr на GitHub, проект предоставляет эффективный способ интеграции и запуска рабочих процессов ComfyUI.ComfyUI - это ...
9 месяцев назад
024.8K
AnyText:生成和编辑多语言图像文本,高可控在图像中生成多行中文

AnyText: создание и редактирование многоязычного текста на изображении, с возможностью управления для создания нескольких строк китайского языка на изображении

Всеобъемлющее введение AnyText - это революционный многоязычный инструмент для создания и редактирования визуального текста, разработанный на основе диффузионной модели. Он генерирует естественный, высококачественный многоязычный текст на изображениях и поддерживает гибкие возможности редактирования текста. Он был разработан группой исследователей и представлен на конференции ICLR 2024...
10 месяцев назад
024.7K
OASIS:多智能体模拟数百万用户社交媒体互动,研究复杂社会现象

OASIS: многоинтеллектуальное моделирование взаимодействия миллионов пользователей в социальных сетях для изучения сложных социальных явлений

Общие сведения Введение OASIS (Open Agent Social Interaction Simulations) - это симулятор социальных сетей с открытым исходным кодом, способный моделировать поведение до миллиона пользователей. Платформа объединяет крупномасштабную языковую модель с основанной на правилах...
7 месяцев назад
024.7K
E2B Open Computer Use:E2B沙盒中安全的运行AI操作系统

E2B Open Computer Use: безопасный запуск операционной системы ИИ в песочнице E2B

Общие сведения Введение E2B Open Computer Use - это проект с открытым исходным кодом, целью которого является обеспечение безопасного облачного использования компьютеров на базе Linux с помощью E2B Desktop Sandbox.E2B Sandbox предоставляет графическую среду рабочего стола, которую пользователи могут подключить к любому большому...
9 месяцев назад
024.7K
AutoMouser:生成浏览器自动化代码,将鼠标操作通过AI转为Selenium Python脚本

AutoMouser: генерация кода автоматизации браузера для превращения действий мыши в сценарии Selenium Python с помощью искусственного интеллекта

Общее представление AutoMouser - это расширение для Chrome, которое интеллектуально отслеживает действия пользователя и автоматически генерирует тестовый код Selenium, используя GPT-модели OpenAI. Для этого оно записывает действия пользователя в браузере и преобразует их...
9 месяцев назад
024.7K
ACE++:用文本指令精准对图像局部编辑的多功能开源工具

ACE++: универсальный инструмент с открытым исходным кодом для точного локального редактирования изображений с помощью текстовых команд

Всеобъемлющее введение ACE++ - это проект с открытым исходным кодом, разработанный командой ali-vilab в лаборатории Alibaba Tongyi Lab (Tongyi Lab). Он основан на модели FLUX.1-Fill-dev и нацелен на генерацию и компиляцию изображений с помощью простых текстовых команд...
7 месяцев назад
024.7K
Sana:快速生成高分辨率图像,0.6B超小尺寸模型,低配笔记本GPU运行

Sana: быстрая генерация изображений высокого разрешения, ультрамалая модель размером 0,6 ББ, работа с GPU в низкопрофильном ноутбуке

Общее представление Sana - это эффективный фреймворк для создания изображений высокого разрешения, разработанный NVIDIA Labs, способный генерировать изображения с разрешением до 4096 × 4096 за считанные секунды. Sana использует линейное диффузионное преобразование и технологию самокодирования с глубоким сжатием, чтобы значительно...
11 месяцев назад
024.7K
NextChat:兼容多平台的本地化AI聊天助手

NextChat: локализованный чат-ассистент с искусственным интеллектом, совместимый с различными платформами

Общие сведения NextChat - это революционный чат-сервис с искусственным интеллектом, который позволяет пользователям развертывать чат-сервисы с использованием лучших в своем классе языковых моделей, таких как GPT-3, GPT-4, GPT-4.5 и Gemini Pro. Он предлагает элегантный пользовательский интерфейс, функции совместной работы, интеграции, шаблоны и...
8 месяцев назад
024.7K
SVFR:实现视频人脸修复的统一框架,修复黑白、模糊的人像老视频

SVFR: унифицированная структура для реализации восстановления лиц в видео, исправления черно-белых, размытых портретных старых видеозаписей

Введение SVFR (Stable Video Face Restoration) - это единый фреймворк для восстановления лиц в видео, который поддерживает базовую реставрацию лица (BFR), окрашивание, восстановление и их комбинацию. Фреймворк использует генеративные и кинематические приводы, объединяя...
9 месяцев назад
024.7K
StarVector:从图像和文字生成SVG矢量图的基础模型

StarVector: базовая модель для создания векторной графики SVG из изображений и текста

Общее представление StarVector - это проект с открытым исходным кодом, созданный разработчиками, такими как Хуан А. Родригес, для преобразования изображений и текста в масштабируемую векторную графику (SVG). Этот инструмент использует модель визуального языка, чтобы понимать содержание изображения и текста...
7 месяцев назад
024.6K
使用Cursor读取并修改Figma设计稿的MCP服务

MCP-сервис для чтения и модификации проектов Figma с помощью Cursor.

Общее введение Cursor Talk to Figma MCP - это проект с открытым исходным кодом, который соединяет инструмент программирования искусственного интеллекта Cursor с программным обеспечением для проектирования Figm...
7 месяцев назад
024.6K
RAG Web UI:构建智能文档问答系统,简单构建私有Web端知识库

RAG Web UI: создание интеллектуальной системы вопросов и ответов на документы и просто создание частной веб-базы знаний

Всеобъемлющее введение RAG Web UI - это интеллектуальная диалоговая система, основанная на технологии RAG (Retrieval Augmented Generation). Она помогает компаниям и частным лицам создавать интеллектуальные системы вопросов и ответов, основанные на их собственной базе знаний. Объединяя поиск документов и большие языковые модели, RAG Web UI обеспечивает точную и надежную...
9 месяцев назад
024.6K
LangGraph Supervisor:利用监督智能体来管理多智能体协作的工具

LangGraph Supervisor: инструмент для управления мультиинтеллектуальным сотрудничеством с использованием супервизорных интеллектов

Общее представление LangGraph Supervisor - это библиотека Python, основанная на фреймворке LangGraph, предназначенная для создания и управления многоинтеллектуальными системами организмов. Библиотека координирует работу множества специализированных агентов через центрального агента-надсмотрщика, обеспечивая разделение коммуникационных потоков и задач...
8 месяцев назад
024.6K
Gemini Cursor:基于Gemini构建的AI桌面智能助手,能看、能听、能说

Gemini Cursor: интеллектуальный помощник для настольных компьютеров, построенный на базе ИИ Gemini, который может видеть, слышать и говорить

Общее представление Gemini Cursor - это настольный интеллектуальный помощник, основанный на модели Gemini 2.0 Flash (экспериментальной) от Google. Он обеспечивает визуальное, слуховое и голосовое взаимодействие через мультимодальный API, предоставляя возможность использования в реальном времени с низкой задержкой...
8 месяцев назад
024.6K
STORM:基于Topic搜索网络数据,生成带引用的论文、长文报告

STORM: поиск данных в Интернете по темам, генерация статей с цитатами, длинные отчеты о статьях

Общее представление STORM - это система интеграции знаний и генерации статей, разработанная командой Oval в Стэнфордском университете. Она ориентирована на генерацию исчерпывающих статей, подобных Википедии (систематических статей), с нуля. Система использует крупномасштабные языковые модели для исследования тем, подготовки синопсисов и моделирования реальных взаимосвязанных...
7 месяцев назад
024.6K
ComfyUI disty Flow:为 ComfyUI 提供友好的用户界面,简化工作流程

ComfyUI disty Flow: удобный интерфейс для ComfyUI для оптимизации рабочего процесса

Общее представление ComfyUI-disty-Flow - это пользовательский узел, который предоставляет удобный интерфейс для ComfyUI. Он предназначен для упрощения работы с рабочими процессами, предоставляя альтернативный пользовательский интерфейс для создания рабочих процессов.ComfyUI-disty...
9 месяцев назад
024.6K
Gemini-OpenAI:反代Gemini地址绕过区域限制并转换为OpenAI兼容API

Gemini-OpenAI: обратная генерация адресов Gemini в обход региональных ограничений и преобразование в API, совместимые с OpenAI

Общее введение Gemini OpenAI API Agent - это бесплатная и не требующая обслуживания сервера конечная точка, совместимая с OpenAI. Пользователи могут легко развернуть его на таких платформах, как Vercel, Netlify и Cloudflare для личного использования. Проект ...
9 месяцев назад
024.6K