Proyecto AI de código abierto

Total 1020 artículos
WebPilot:智能网页信息处理工具,网页内容抓取免费API

WebPilot: herramienta inteligente de procesamiento de información web, API gratuita para la captura de contenidos web

WebPilot Introducción general Webpilot es un "asistente web" gratuito y de código abierto que le permite comunicarse libremente con cualquier página web o realizar tareas automatizadas. No es necesario cambiar de página o copiar y pegar, basta con seleccionar texto o introducir comandos, webpilot...
hace 2 años
063.9K
Text generation web UI:基于 Gradio 大语言模型聊天界面,支持多种后端服务

Interfaz web de generación de texto: interfaz de chat basada en modelos lingüísticos de gran tamaño de Gradio y compatible con varios servicios backend.

Introducción general La interfaz web de generación de texto es una interfaz web basada en Gradio diseñada para el Large Language Model (LLM). Soporta una variedad de backends de generación de texto, incluyendo Transformers, llama.cp...
hace 1 año
063.8K
NV Ingest:解析复杂格式文档,提取多模态数据为元数据和文本

NV Ingest: análisis sintáctico de documentos de formato complejo y extracción de datos multimodales en metadatos y texto

Introducción completa NV Ingest (NVIDIA Ingest) es un conjunto de microservicios de acceso temprano diseñados para analizar cientos de miles de PDF complejos y desordenados sin estructurar y otros documentos empresariales. Puede convertir estos documentos en metadatos y texto para incrustarlos en...
hace 1 año
063.8K
OpenAI Agents SDK:搭建多智能体协作工作流的Python框架

OpenAI Agents SDK: un marco de trabajo en Python para crear flujos de trabajo colaborativos multiinteligencia

Introducción general OpenAI Agents SDK es una herramienta de desarrollo ligera de OpenAI diseñada para construir flujos de trabajo multi-inteligentsia. Está basado en Python y es fácil de usar, permitiendo a los desarrolladores configurar Agentes, cortar tareas...
hace 1 año
063.7K
opensource_notebooklm:基于Deepseek-V3和PlayHT TTS的NotebookLM开源实现

opensource_notebooklm: aplicación de código abierto de NotebookLM basada en Deepseek-V3 y PlayHT TTS

Introducción General Open Source NotebookLM es un innovador proyecto de inteligencia artificial que combina las capacidades de comprensión del lenguaje de Deepseek-V3 con la tecnología de síntesis de voz de PlayHT, con el objetivo de crear un sistema inteligente de diálogo para tomar notas. El proyecto fue desarrollado por Build Fast c...
hace 1 año
063.7K
CogVLM2:开源多模态模型,支持视频理解与多轮对话

CogVLM2: modelo multimodal de código abierto para la comprensión de vídeos y rondas múltiples de diálogo

Introducción CogVLM2 es un modelo multimodal de código abierto desarrollado por el Grupo de Investigación de Minería de Datos de la Universidad de Tsinghua (THUDM), basado en la arquitectura Llama3-8B, y cuyo objetivo es proporcionar un rendimiento comparable o incluso mejor que GPT-4V. El modelo permite la comprensión de imágenes, el diálogo...
hace 1 año
063.7K
SmartRead:自动标注技术PDF文档并提供相关引用源

SmartRead: anota automáticamente documentos técnicos en PDF y proporciona citas relevantes

Introducción completa SmartRead es una herramienta de código abierto basada en IA y diseñada para documentos técnicos. Puede analizar automáticamente archivos PDF, marcar contenido clave, como términos importantes, títulos o ideas centrales para ayudar a los usuarios a comprender rápidamente documentos complejos. Al mismo tiempo, también puede proporcionar y documentar...
hace 1 año
063.7K
OmniGen:统一图像生成模型,多模态输入生成人物一致性图像

OmniGen: un modelo unificado de generación de imágenes con entradas multimodales para generar imágenes coherentes con los caracteres

Introducción general OmniGen es un modelo "universal" de generación de imágenes desarrollado por VectorSpaceLab que permite a los usuarios crear efectos visuales diversos y contextualmente ricos con simples indicaciones de texto o entradas multimodales. Es especialmente adecuado para aplicaciones que necesitan reconocer...
hace 1 año
063.6K
VBDeepSeek:使用DeepSeek生成四级单词学习资料的开源工具

VBDeepSeek: una herramienta de código abierto para generar materiales de estudio de palabras de 4º curso utilizando DeepSeek.

Introducción completa "Vocabulary Book by DeepSeek" es un proyecto de código abierto desarrollado sobre la base del gran modelo de DeepSeek, con el objetivo de ayudar a los estudiantes de inglés a dominar el vocabulario del nivel 4 de inglés universitario (CET-4) de manera eficiente. El proyecto está alojado en GitHub...
hace 1 año
063.6K
R1-V:低成本强化学习实现视觉语言模型泛化能力

R1-V: Aprendizaje por refuerzo de bajo coste para la capacidad de generalización de modelos de lenguaje visual

Introducción exhaustiva R1-V es un proyecto de código abierto cuyo objetivo es lograr avances en el modelado del lenguaje visual (VLM) mediante el aprendizaje por refuerzo (RL) de bajo coste. El proyecto utiliza mecanismos de recompensa verificables para motivar a los VLM a aprender habilidades genéricas de conteo. Sorprendentemente, R1-V's 2B ...
hace 1 año
063.6K
AgentGPT:创建并运行自动化AI智能体的开源项目

AgentGPT: un proyecto de código abierto para crear y ejecutar inteligencias artificiales automatizadas

Introducción general AgentGPT es un proyecto de código abierto desarrollado por el equipo Reworkd y alojado en GitHub, diseñado para permitir a los usuarios crear, configurar y desplegar de forma autónoma inteligencias AI a través de un navegador. Los usuarios simplemente establecen un objetivo, y AgentGPT puede...
hace 1 año
063.5K
Devika:开源的AI软件工程师智能体,能够理解、拆分指令为子任务并编写代码

Devika: inteligencia artificial de código abierto que comprende, divide instrucciones en subtareas y escribe código

Introducción general Devika es un ingeniero de software de IA avanzada que entiende instrucciones humanas de alto nivel, las descompone en pasos, estudia la información relevante y escribe código para lograr un objetivo determinado. Desarrolla software de forma inteligente utilizando modelos lingüísticos a gran escala, algoritmos de planificación y razonamiento y capacidades de navegación web.D...
hace 1 año
063.5K
Sketch-Gen:生成高质量线稿和草图,反推图像提示词,一键安装包

Sketch-Gen: Genere dibujos lineales y bocetos de alta calidad, retropropagación de palabras clave de imágenes, instalación de paquetes con un solo clic.

Introducción general Sketch-Gen es una herramienta de dibujo lineal y generación de bocetos basada en tecnología de IA y diseñada para ayudar a artistas y diseñadores a generar rápidamente dibujos lineales y bocetos de alta calidad. Derivada del proyecto Paints-UNDO, la herramienta utiliza modelos avanzados de aprendizaje automático que pueden...
hace 1 año
063.5K
Omni-RGPT:图像和视频区域级理解多模态大模型,提升视觉内容分析能力

Omni-RGPT: un gran modelo multimodal de comprensión regional de imágenes y vídeos para mejorar el análisis del contenido visual

Introducción exhaustiva Omni-RGPT es un modelo de lenguaje multimodal de gran tamaño diseñado para permitir la comprensión a nivel de región de imágenes y vídeos. Mediante la introducción de la técnica Token Mark, Omni-RGPT es capaz de resaltar la región objetivo en el espacio de características visuales e indicar la región objetivo mediante pistas de región (por ejemplo, recuadros o...
hace 1 año
063.5K
OpenManus-RL:微调大模型强化智能体推理与决策能力

OpenManus-RL: ajuste de grandes modelos para mejorar el razonamiento corporal inteligente y la toma de decisiones

Introducción general OpenManus-RL es un proyecto de código abierto desarrollado por UIUC-Ulab junto con el equipo OpenManus de la comunidad MetaGPT, alojado en GitHub. El proyecto mejora el modelado lingüístico a gran escala (LLM) mediante técnicas de aprendizaje por refuerzo (RL)....
hace 1 año
063.5K
Basic Memory:从AI对话中构建持久知识图谱的MCP服务

Memoria básica: un servicio MCP para construir grafos de conocimiento persistentes a partir de conversaciones de IA.

Introducción general Basic Memory es una herramienta para construir gráficos de conocimiento a través de conversaciones con asistentes de IA como Claude. Fue desarrollada por Basic Machines y su característica principal es guardar el contenido del diálogo como un archivo Markdown, guardar...
hace 1 año
063.4K
MegaParse:解析各类型文档为LLM可用数据,完整保留文档中的表格、图片等所有信息

MegaParse: analiza cada tipo de documento en datos disponibles en LLM, conservando toda la información del documento, como tablas e imágenes, en su totalidad.

Introducción general MegaParse es una potente y versátil herramienta de análisis sintáctico de documentos diseñada para optimizar el procesamiento de datos para el Large Language Model (LLM). Tanto si trabaja con texto, PDF, presentaciones de PowerPoint o documentos de Word, MegaParse...
hace 1 año
063.4K
TableGPT Agent:专为分析复杂表格数据设计的智能工具

TableGPT Agent: herramienta inteligente diseñada para analizar datos tabulares complejos

Introducción completa TableGPT Agent es una herramienta inteligente basada en el proyecto de código abierto GitHub, diseñada para procesar y analizar datos tabulares. Se basa en el modelo Big Language TableGPT2, que utiliza la interacción con el lenguaje natural para permitir a los usuarios consultar, manipular...
hace 1 año
063.4K
Zed:Rust开发的高性能多人协作代码编辑器

Zed: un editor de código colaborativo multijugador de alto rendimiento desarrollado por Rust

Introducción general Zed es un editor de código colaborativo multiusuario de alto rendimiento desarrollado por los creadores de Atom y Tree-sitter.Escrito en el lenguaje Rust, Zed está diseñado para proporcionar una experiencia de codificación rápida y fluida. Entre sus principales características se incluye la compatibilidad con...
hace 1 año
063.3K
Feeds.Fun:自动标记和筛选新闻的RSS订阅工具

Feeds.Fun: feeds RSS que etiquetan y filtran automáticamente las noticias

Introducción general Feeds.Fun es una herramienta que ayuda a los usuarios a leer noticias de forma eficiente, con funciones básicas como el etiquetado automático de noticias y el filtrado de contenidos en función de las preferencias del usuario. Fue creada por el desarrollador Aliaksei Yaletski (nombre de usuario Tiendil) y está alojada en ...
hace 1 año
063.3K
AI no jimaku gumi:借助AI实现视频多语言字幕自动生成和翻译

AI no jimaku gumi: generación y traducción automática de subtítulos multilingües para vídeos con ayuda de la IA.

Introducción general AI no jimaku gumi (AI no subtitle group) es una potente herramienta de procesamiento de subtítulos de vídeo de línea de comandos centrada en permitir funciones automatizadas de extracción, transcripción y traducción de subtítulos de vídeo. La herramienta integra tecnologías avanzadas de inteligencia artificial, como...
hace 1 año
063.3K
Agent Inbox:与AI智能体进行人机交互的管理界面

Agent Inbox: una interfaz de gestión para la interacción persona-ordenador con inteligencias IA

Introducción general Agent Inbox es un proyecto de código abierto desarrollado por el equipo LangChain para proporcionar una nueva experiencia de usuario para interactuar con inteligencias AI. El proyecto permite a los usuarios gestionar y optimizar las interacciones con múltiples inteligencias IA a través de una interfaz centralizada.Ag...
hace 1 año
063.2K
AIBot PRO:集成多种AI产品的商业化聚合平台

AIBot PRO: una plataforma de agregación de comercialización que integra múltiples productos de IA

Introducción completa AIBot PRO es un cliente de agregación de AI basado en .NET 6 diseñado para proporcionar a los usuarios una plataforma conveniente para integrar múltiples productos de AI. El cliente admite el diálogo de conmutación sin sentido e integra ChatGPT, Gemini, Claude, Wenxin Yiyin...
hace 1 año
063.1K
Easy Voice Toolkit:本地部署的AI语音工具箱

Easy Voice Toolkit: kit de herramientas de voz AI para implantación local

Introducción exhaustiva Easy-Voice-Toolkit es un conjunto de herramientas multifuncionales basado en el Open Source Speech Project, que proporciona una amplia gama de herramientas de audio automatizadas para el reconocimiento del habla, la transcripción del habla, la conversión del habla, la creación de conjuntos de datos y el entrenamiento de modelos. Los usuarios pueden utilizar estas herramientas de forma selectiva según sus necesidades...
hace 2 años
063.1K
MiniRAG:简化检索增强生成框架,实体图索引召回相关文本块

MiniRAG: Marco de Generación Mejorada de Recuperación Simplificada, Índice de Grafos de Entidades Recupera Bloques de Texto Relevantes

Una introducción exhaustiva MiniRAG es un marco de trabajo de Generación Aumentada de Recuperación (RAG) extremadamente sencillo que pretende permitir un buen rendimiento de la RAG incluso para modelos pequeños mediante la indexación de grafos heterogéneos y la recuperación mejorada por topología ligera. Ha sido desarrollado por el Laboratorio de Ciencia de Datos de la Universidad de Hong Kong (HKUDS) para ...
hace 1 año
063.1K
Leffa:高保真模特虚拟试穿与人物姿势调整,Meta开源的可控人物图像生成模型

Leffa: ajuste virtual de modelos de alta fidelidad y ajuste de la pose de los personajes, Meta modelo de generación de imágenes de personajes controlable de código abierto

Introducción exhaustiva Leffa es un marco unificado para generar imágenes de personajes controlables, que permite la manipulación precisa de la apariencia del personaje (por ejemplo, ajuste virtual) y la pose (por ejemplo, transferencia de pose). El marco reduce significativamente la distorsión de detalles finos dirigiendo la consulta de destino para centrarse en la clave de referencia correcta en la capa de atención, con...
hace 1 año
063K
Open Deep Research:生成基于网络搜索内容的AI研究报告

Open Deep Research: generar investigación sobre IA a partir del contenido de las búsquedas web

Introducción general Open Deep Research es una herramienta de código abierto de generación de informes de investigación impulsada por IA como alternativa de código abierto a las capacidades de investigación profunda de Google Gemini. El proyecto está desarrollado en TypeScript y basado en Next.js 1...
hace 1 año
063K
Easegen:开源数字人课程制作平台,PPT一键生成克隆数字人讲解视频

Easegen: plataforma de producción de cursos humanos digitales de código abierto, clonación de vídeos de conferencias humanas digitales de generación PPT con un solo clic

Introducción exhaustiva Easegen es una plataforma de creación de cursos humanos digitales de código abierto que tiene como objetivo mejorar la eficiencia de la producción y gestión de contenidos de enseñanza a través de la tecnología de IA. La plataforma proporciona una solución integral desde la producción de cursos, la gestión de vídeo hasta el interrogatorio inteligente, que permite a los usuarios crear cursos digitales de vídeo explicados por humanos....
hace 1 año
063K
Memora:构建人性化AI记忆模块,保存并更新与人类的互动信息

Memora: construcción de módulos de memoria de IA humanizada para guardar y actualizar información sobre interacciones con humanos.

Introducción general Memora es un agente diseñado para replicar los recuerdos humanos en cada IA personalizada. Ayuda a las IAs a recordar detalles de interacciones pasadas, emociones y experiencias compartidas al igual que lo hacen los humanos a través de características como memorias con marca de tiempo, marcadores de emoción y memorias multimodales.Memora soporta multi-tenancy y es capaz de manejar...
hace 1 año
063K
Deep Research Web UI:支持多语言深度研究的AI助手

Deep Research Web UI: un asistente de inteligencia artificial para la investigación profunda multilingüe

Introducción exhaustiva Deep Research Web UI es una herramienta asistente de investigación de código abierto basada en tecnología de IA, diseñada para ayudar a los usuarios a realizar investigaciones iterativas profundas sobre cualquier tema. Combina la potencia de los motores de búsqueda, el rastreo web y el modelado lingüístico a gran escala a través de una interfaz web intuitiva....
hace 1 año
063K
sensitive-word:敏感词过滤工具,高效DFA算法实现

sensitive-word: herramienta de filtrado de palabras sensibles, aplicación eficaz del algoritmo DFA

Introducción completa Sensitive Word Filtering Tool (Sensitive Word) es una herramienta Java de alto rendimiento para el filtrado de palabras sensibles basada en la implementación del marco del algoritmo DFA . La herramienta es capaz de detectar y filtrar eficientemente palabras sensibles , soporta una variedad de conversión de formatos y estrategias de reemplazo personalizadas. Su objetivo de diseño es proporcionar ...
hace 2 años
062.9K
MindSearch:开源AI搜索引擎框架,部署您自己的 Perplexity 搜索引擎!

MindSearch: motor de búsqueda de IA de código abierto para desplegar su propio motor de búsqueda Perplexity.

Introducción general MindSearch es un marco de motor de búsqueda de IA de código abierto lanzado por el Laboratorio de Inteligencia Artificial de Shanghai (SAL), cuyo objetivo es simular el proceso de pensamiento humano para la recopilación e integración de información compleja. La herramienta combina las tecnologías avanzadas de modelado de lenguaje a gran escala (LLM) y motores de búsqueda a través de la multiinteligencia....
hace 1 año
062.8K
MockingBird:快速克隆声音与模型训练,基于 xtts v2 实现的文本转语音

MockingBird: clonación de voz rápida y formación de modelos, conversión de texto a voz basada en xtts v2

Introducción completa MockingBird es un proyecto de código abierto que pretende conseguir una rápida clonación de voz y conversión de texto a voz mediante tecnología de IA. Los usuarios sólo tienen que proporcionar 5 segundos de muestras de voz, puede generar cualquier contenido de voz. El proyecto admite una gran variedad de conjuntos de datos chinos ...
hace 1 año
062.8K
Raycast-G4F:通过Raycast免费使用GPT-4、Llama-3等多种 AI 模型

Raycast-G4F: ¡Acceso gratuito a GPT-4, Llama-3 y muchos otros modelos de IA a través de Raycast!

Introducción general Raycast-G4F (GPT4Free) es una potente extensión de Raycast que ofrece a los usuarios acceso gratuito a una amplia gama de modelos avanzados de IA, incluyendo GPT-4, Llama-3. La extensión no sólo proporciona transmisión de diálogos en tiempo real...
hace 1 año
062.8K
RLAMA:命令行操作的本地文档智能问答 RAG 系统

RLAMA: un sistema RAG de interrogación inteligente de documentos locales operado desde la línea de comandos

Introducción general RLAMA es un sistema RAG (Retrieval Augmentation Generation) de cuestionario de inteligencia documental desarrollado por DonTizi de código abierto y alojado en GitHub, cuya característica principal es la funcionalidad a través de operaciones de línea de comandos. Los usuarios pueden utilizar simples comandos de terminal para conectarse a ...
hace 1 año
062.7K
Step-Video-T2V:支持多语言输入和长视频生成的文生视频模型

Step-Video-T2V: un modelo de vídeo de Vincennes que admite la entrada multilingüe y la generación de vídeos largos

Introducción completa Step-Video-T2V es un modelo avanzado de conversión de texto a vídeo de StepFun AI (StepFun Star). El modelo tiene 3.000 millones de parámetros y es capaz de generar vídeos de hasta 204 fps. Con un Auto-Encoder Variable (VAE) profundamente comprimido, el modelo...
hace 1 año
062.6K
XRAG:优化检索增强生成系统的可视化评估工具

XRAG: una herramienta de evaluación visual para optimizar los sistemas de generación de mejoras de la recuperación

Introducción completa XRAG (eXamining the Core) es un marco de evaluación comparativa diseñado para evaluar los componentes subyacentes de los sistemas avanzados de generación de aumento de la recuperación (RAG). Mediante el perfilado y análisis de cada módulo central, XRAG proporciona información sobre cómo afectan las distintas configuraciones y componentes a los sistemas RAG....
hace 1 año
062.6K
ConsisID:一张人像参考图,生成人物一致的视频,多终端快速集成

ConsisID: un mapa de referencia de retratos para generar vídeos coherentes con los personajes, rápida integración multiterminal

Introducción ConsisID es un proyecto de código abierto desarrollado por el grupo de Yuan Rong en la Universidad de Pekín, cuyo objetivo es lograr la generación de texto a vídeo coherente con la identidad (IPT2V) mediante técnicas de descomposición de frecuencias. El núcleo del proyecto es un sistema DiT (Diffusion Transfor...
hace 1 año
062.5K
CodeArena:开源LLM编程能力对比竞技场,实时查看最佳代码生成模型

CodeArena: comparador de capacidades de programación LLM de código abierto, visión en tiempo real de los mejores modelos de generación de código

Introducción general CodeArena es una plataforma única diseñada para mostrar los mejores modelos de generación de código abierto (LLM) a través de enfrentamientos en tiempo real. Los usuarios pueden ver diferentes LLMs compitiendo en las mismas tareas de programación y ver los modelos con mejor rendimiento a través de tablas de clasificación en tiempo real. La plataforma utiliza Tog...
hace 1 año
062.5K
KBLaM:为大模型嵌入外部知识的开源增强工具

KBLaM: una herramienta mejorada de código abierto para incrustar conocimientos externos en grandes modelos

KBLaM es un proyecto de código abierto desarrollado por Microsoft , el nombre completo es "Knowledge Base augmented Language Model" ( Modelo de Lenguaje Aumentado de Base de Conocimiento ). Es a través de la conversión de conocimiento externo en vectores e incrustado en un gran modelo de...
hace 1 año
062.5K
AnimatedDrawings:儿童手绘涂鸦转换动画,自动化儿童绘画动画生成工具

AnimatedDrawings: garabatos infantiles dibujados a mano convertidos en animación, herramienta automatizada de generación de animaciones de dibujos infantiles.

Introducción general AnimatedDrawings es un proyecto de código abierto desarrollado por Facebook Research para transformar dibujos infantiles en personajes animados mediante técnicas de automatización. El proyecto se basa en el artículo "A Method for A...
hace 1 año
062.4K
Maxun:开源无代码平台,自动抓取网页数据并转换为API或电子表格

Maxun: una plataforma sin código y de código abierto que rastrea automáticamente datos web y los convierte en API u hojas de cálculo.

Introducción completa Maxun es una plataforma de extracción de datos web sin código de código abierto que permite a los usuarios entrenar robots en cuestión de minutos para rastrear automáticamente datos web y convertirlos en API u hojas de cálculo. La plataforma admite paginación y desplazamiento, se adapta a los cambios en el diseño del sitio web, proporciona un potente rastreo de datos...
hace 1 año
062.3K
Novel:模仿Notion AI的开源写作编辑器

Novel: un editor de escritura de código abierto que imita a Notion AI

Introducción integral Este es un proyecto de código abierto desarrollado por Steven Tey llamado Novel, es un editor de texto WYSIWYG estilo Noción , integrado AI función de autocompletado que puede ayudar a los usuarios a mejorar la eficiencia de la entrada de texto . El proyecto proporciona documentación detallada e instrucciones de instalación ...
hace 2 años
062.3K
RapBank:根据歌词和伴奏直接生成说唱(Rap)人声的模型(目前开放了数据集)

RapBank: modelo de generación directa de voces de rap a partir de letras y pistas de acompañamiento (conjunto de datos abierto actualmente).

Introducción general RapBank es un conjunto de datos y herramientas diseñado para la generación de letras de rap. El proyecto fue creado por NZqian para proporcionar a investigadores y desarrolladores datos de alta calidad sobre letras de rap mediante la recopilación y el procesamiento de...
hace 1 año
062.3K
Clevrr Computer:使用 PyAutoGUI 库实现自动化桌面操作智能体

Clevrr Computer: Automatización de la inteligencia de manipulación del escritorio con la biblioteca PyAutoGUI

Introducción General Clevrr Computer es un proyecto de código abierto que tiene como objetivo automatizar las operaciones del sistema mediante el uso de la biblioteca PyAutoGUI. El proyecto se inspiró en Anthropic para diseñar un agente de automatización que pueda realizar operaciones de forma precisa y eficiente utilizando ...
hace 1 año
062.3K
Aggregator:一站式代理爬取与聚合平台,免费代理池(请合规使用)

Agregador: plataforma única de rastreo y agregación de agentes, fondo común de agentes gratuitos (utilícelo de forma respetuosa).

Introducción completa Aggregator es un proyecto de código abierto destinado a crear una piscina proxy libre que puede rastrear una variedad de nodos proxy disponibles. La plataforma tiene un sistema flexible de plug-in , los usuarios pueden de acuerdo a las necesidades especiales del sitio de destino , a través de plug-ins para lograr funciones específicas . El proyecto se utiliza principalmente para aprender a rastrear ...
hace 1 año
062.3K
MeetingMind:依赖OpenAI Whisper的开源智能会议记录与总结工具

MeetingMind: herramienta inteligente de código abierto para grabar y resumir reuniones basada en OpenAI Whisper

Introducción general MeetingMind es una aplicación de IA avanzada diseñada para mejorar la eficiencia de la captura y el resumen de las reuniones de negocios. La aplicación integra la tecnología Whisper de OpenAI para una conversión precisa de voz a texto y utiliza IBM Watso...
hace 1 año
062.3K
ChatAnyone:从照片生成半身数字人肖像视频的工具

ChatAnyone: una herramienta para generar vídeos de retratos humanos digitales de medio cuerpo a partir de fotos

Introducción general ChatAnyone es un proyecto innovador desarrollado por el equipo HumanAIGC. Utiliza técnicas de inteligencia artificial para generar vídeos digitales de retratos humanos con movimientos de la parte superior del cuerpo a partir de una única foto y una entrada de audio. El proyecto se basa en un modelo jerárquico de difusión del movimiento que genera movimientos de la cabeza...
hace 1 año
062.1K
PicMenu:文字菜单转换为美观的图文菜单

PicMenu: Convierte menús de texto en bonitos menús gráficos

Introducción exhaustiva PicMenu es una innovadora herramienta de IA que transforma los menús tradicionales de papel en menús de imágenes vívidas e intuitivas a través de una simple operación fotográfica. La herramienta no solo genera automáticamente imágenes de alta calidad de cada plato, sino que también proporciona información enriquecida sobre los platos para la transformación digital del sector de la restauración....
hace 1 año
062.1K
MCP Server ChatSum:依赖MCP在Claude中查询和总结微信聊天消息

MCP Server ChatSum: Confiar en MCP para consultar y resumir los mensajes de WeChat en Claude

Introducción general MCP Server ChatSum es un proyecto de código abierto diseñado para ayudar a los usuarios a consultar y resumir los mensajes de chat. El proyecto está alojado en GitHub y proporciona un potente conjunto de herramientas que permite a los usuarios consultar los registros de chat basándose en parámetros específicos y generar los resúmenes correspondientes....
hace 1 año
062K
Coding Agent:基于Langgraph构建的简单编程助手

Agente de codificación: un sencillo asistente de programación basado en Langgraph

Introducción general Coding Agent es un asistente de programación inteligente desarrollado por AbhinavTheDev, diseñado para ayudar a los desarrolladores a mejorar su eficiencia en la programación. La herramienta utiliza tecnología de inteligencia artificial para generar código de forma automática, proporcionar sugerencias de programación y ayudar a los desarrolladores...
hace 1 año
062K
DeepClaude:融合DeepSeek R1链式推理与Claude创造力的聊天界面

DeepClaude: una interfaz de chat que fusiona el razonamiento en cadena R1 de DeepSeek con la creatividad de Claude

Introducción exhaustiva DeepClaude es una API de inferencia e interfaz de chat de alto rendimiento de Large Language Model (LLM) que integra las capacidades de inferencia encadenada (CoT) de DeepSeek R1 con la creatividad y generación de código del modelo antrópico Claude....
hace 1 año
062K
Story-Adapter:根据长篇故事生成连续且风格一致的图像插画

Adaptador de historias: Genere ilustraciones gráficas continuas y coherentes basadas en una historia larga.

Introducción general Story-Adapter es un innovador marco de visualización de historias que convierte relatos textuales en secuencias de imágenes coherentes. Desarrollado por investigadores, este proyecto emplea un enfoque iterativo que no requiere formación para generar ilustraciones de historias de alta calidad. El marco se caracteriza por su capacidad para...
hace 1 año
061.9K
FiveThirtyNine:基于搜索知识对未来事件发生概率预测

FiveThirtyNine: Predecir la probabilidad de acontecimientos futuros basándose en el conocimiento de las búsquedas

Introducción general Forecast AI es una magnífica plataforma de predicción basada en tecnología avanzada de inteligencia artificial. Utiliza potentes algoritmos de análisis de datos y aprendizaje automático para proporcionar a los usuarios predicciones muy precisas sobre acontecimientos futuros. Ya se trate de elecciones políticas, tendencias económicas o acontecimientos sociales, Forecast ...
hace 2 años
061.9K
AppAgent:利用多模态智能体自动操作智能手机

AppAgent: manejo automatizado de smartphones mediante inteligencias multimodales

Introducción AppAgent es un marco de agente multimodal basado en un modelo de lenguaje amplio (LLM) diseñado para manipular aplicaciones de teléfonos inteligentes. El marco imita interacciones humanas como toques y deslizamientos a través de un espacio de manipulación simplificado, eliminando así la necesidad de acceso al back-end del sistema y extendiendo su uso a través de diferentes aplicaciones....
hace 1 año
061.8K
DocAgent:自动生成Python代码文档的智能工具

DocAgent: una herramienta inteligente para automatizar la documentación de código Python

Introducción general DocAgent es una herramienta de código abierto de generación de documentación de código Python desarrollada por Meta AI. Utiliza la colaboración multi-inteligencia y el análisis jerárquico de código para generar automáticamente anotaciones de documentos de alta calidad y conscientes del contexto para bases de código Python (d...
hace 12 meses
061.8K
Dolphin:面向亚洲语言识别与语音转文本模型

Dolphin: reconocimiento de lenguas asiáticas y modelización de voz a texto para lenguas asiáticas

Introducción general Dolphin es un modelo de código abierto desarrollado por DataoceanAI y la Universidad de Tsinghua, centrado en el reconocimiento del habla y del lenguaje para las lenguas asiáticas. Es compatible con 40 lenguas de Asia Oriental, Asia Meridional, Asia Sudoriental y Oriente Medio, así como con 22 dialectos chinos...
hace 1 año
061.8K
Optexity:用人类演示训练AI执行网页操作的开源项目

Optexity: un proyecto de código abierto para entrenar a la IA a realizar acciones web con demostraciones humanas

Introducción general Optexity es un proyecto de código abierto en GitHub, desarrollado por el equipo de Optexity. Su núcleo es utilizar datos de demostración humana para entrenar a la IA a completar tareas informáticas, especialmente operaciones de páginas web. El proyecto contiene tres bibliotecas de código: Compute...
hace 1 año
061.7K
DCT-Net:照片和视频转绘为动漫风格化的开源工具

DCT-Net: una herramienta de código abierto para transformar fotos y vídeos en anime estilizado

Introducción general DCT-Net es un proyecto de código abierto desarrollado por la Academia DAMO y el Instituto Wang Xuan de Tecnología Informática de la Universidad de Pekín, cuyo objetivo es la transformación anime estilizada de imágenes. El proyecto utiliza técnicas de aprendizaje profundo a través de la Traducción Calibrada por Dominio (Domain-Calibrat...
hace 1 año
061.7K
MIDI-3D:从单张图片快速生成多物体3D场景的开源工具

MIDI-3D: herramienta de código abierto para generar rápidamente escenas 3D multiobjeto a partir de una sola imagen

Introducción general MIDI-3D es un proyecto de código abierto desarrollado por el equipo VAST-AI-Research para generar rápidamente escenas 3D con múltiples objetos a partir de una sola imagen para desarrolladores, investigadores y creadores. Esta herramienta se basa en la técnica de modelado de difusión multi-instancia...
hace 1 año
061.7K
Klavis AI:面向AI应用的模型上下文协议(MCP)集成工具

Klavis AI: herramienta de integración del protocolo de contexto de modelo (MCP) para aplicaciones de IA

Introducción general Klavis AI es una plataforma de código abierto centrada en simplificar el uso y la integración del Protocolo de Contexto de Modelo (MCP), un estándar abierto que permite a las aplicaciones de IA conectarse dinámicamente con herramientas y fuentes de datos externas.Klavis AI proporciona a Slack...
hace 11 meses
061.7K
Ichigo(llama3-s):本地实时语音AI助手,开源版Siri

Ichigo (llama3-s): asistente de voz local en tiempo real, versión de código abierto de Siri.

Introducción general Ichigo es un proyecto de IA de voz en tiempo real de código abierto que pretende ampliar los modelos de lenguaje basados en texto con capacidades de "escucha" nativa. El proyecto utiliza técnicas de fusión temprana inspiradas en el documento Chameleon de Meta.El objetivo de Ichigo es convertirse...
hace 1 año
061.7K
pdf2htmlEX:PDF无损转换为HTML,保持文本格式,适用于学术论文和杂志排版

pdf2htmlEX: conversión sin pérdidas de PDF a HTML, manteniendo el formato del texto, adecuado para trabajos académicos y composición de revistas.

Introducción completa pdf2htmlEX es una herramienta de código abierto diseñada para convertir archivos PDF a formato HTML , mediante el análisis del contenido del archivo PDF y el uso de HTML + CSS para restaurar con precisión su efecto visual , el documento PDF se ...
hace 1 año
061.7K
InfiniteYou:保留人脸特征的照片生成与编辑工具

InfiniteYou: una herramienta de generación y edición de fotos que conserva los rasgos faciales

Introducción general InfiniteYou es un proyecto de código abierto desarrollado por el equipo de ByteDance Intelligent Creation. Se basa en la tecnología de Transformadores de Difusión (DiTs), utilizando el modelo FLUX.1-dev, la función principal es permitir a los usuarios subir una foto e introducir una descripción de texto, generando...
hace 1 año
061.7K
Agentic Security:开源的LLM漏洞扫描工具,提供全面的模糊测试和攻击技术

Agentic Security: herramienta de escaneo de vulnerabilidades LLM de código abierto que proporciona pruebas fuzz y técnicas de ataque exhaustivas.

Introducción general Agentic Security es una herramienta de escaneo de vulnerabilidades LLM (Large Language Model) de código abierto diseñada para proporcionar a los desarrolladores y profesionales de la seguridad pruebas fuzz completas y técnicas de ataque. La herramienta admite conjuntos de reglas personalizadas o ataques basados en agentes y es capaz de integrar LLM AP...
hace 1 año
061.6K
Agenta:集成到AI应用的提示词与模型效果评估工具

Agenta: una herramienta para evaluar los efectos de las palabras clave y los modelos integrados en aplicaciones de IA

Introducción completa Agenta es una herramienta de gestión de modelos de IA de código abierto diseñada para ayudar a los usuarios a experimentar fácilmente con palabras clave, probar los efectos de los modelos y supervisar las ejecuciones. Es adecuada para personas que desean desarrollar aplicaciones de IA rápidamente, ya que proporciona una plataforma sencilla de manejar. Puede utilizarla para probar el efecto de diferentes palabras de...
hace 1 año
061.6K
SVFR:实现视频人脸修复的统一框架,修复黑白、模糊的人像老视频

SVFR: un marco unificado para implementar la reparación de rostros en vídeo, reparar vídeos en blanco y negro, retratos borrosos y antiguos

Introducción exhaustiva SVFR (Stable Video Face Restoration) es un marco unificado para la restauración de rostros en vídeo que admite tareas de restauración básica de rostros (BFR), coloreado, reparación y su combinación. El marco utiliza priors generativos y cinemáticos unificando...
hace 1 año
061.5K
VideoChat:自定义形象和音色克隆的实时语音交互数字人,支持端到端语音方案和级联方案

VideoChat: persona digital interactiva de voz en tiempo real con clonación personalizada de imágenes y tonos, compatible con soluciones de voz de extremo a extremo y soluciones en cascada.

Introducción general VideoChat es un proyecto de persona digital de interacción de voz en tiempo real basado en tecnología de código abierto, que admite tanto esquemas de voz de extremo a extremo (GLM-4-Voice - THG) como esquemas en cascada (ASR-LLM-TTS-THG). El proyecto permite a los usuarios personalizar la ...
hace 1 año
061.5K
Audiblez:生成有声书,使用Kokoro将电子书转换为有声读物

Audiblez: Generar audiolibros, convertir libros electrónicos en audiolibros con Kokoro

Introducción general Audiblez es un proyecto de código abierto diseñado para convertir libros electrónicos (por ejemplo, en formato .epub) en audiolibros (por ejemplo, en formato .m4b). El proyecto utiliza la tecnología de síntesis de voz de alta calidad de Kokoro para soportar múltiples idiomas y múltiples voces. Los usuarios pueden...
hace 1 año
061.4K
Quick Prompt:快速管理和使用提示词的浏览器扩展

Quick Prompt: Extensión del navegador para gestionar y utilizar avisos rápidamente

General Quick Prompt es una extensión de navegador de código abierto que se centra en la gestión de palabras de aviso (Prompt) y en la introducción rápida de datos. Los usuarios pueden crear, organizar y almacenar bibliotecas de Prompts e insertar rápidamente contenido preestablecido Prompt en el cuadro de entrada de cualquier página web. Esta herramienta es especialmente ...
hace 11 meses
061.4K
VideoSeal:先进的开源视频隐藏水印嵌入与提取工具,保护视频版权

VideoSeal: Herramienta avanzada de código abierto para incrustar y extraer marcas de agua ocultas en vídeo y proteger los derechos de autor.

Introducción general VideoSeal es una herramienta de marca de agua de vídeo de código abierto desarrollada por Facebook Research, diseñada para proporcionar una incrustación y extracción eficientes de marcas de agua de vídeo. La herramienta es compatible con los últimos modelos de código abierto y contiene modelos preentrenados, código de entrenamiento, código de inferencia y herramientas de evaluación....
hace 1 año
061.4K
EchoMimic:音频驱动人像照片生成说话视频(EchoMimicV2加速版安装包)

EchoMimic: retratos sonoros para generar vídeos parlantes (instalador acelerado de EchoMimicV2)

Introducción general EchoMimic es un proyecto de código abierto diseñado para generar animaciones de retratos realistas controladas por audio. Desarrollado por la división Terminal Technologies de Ant Group, el proyecto utiliza condiciones de puntos marcadores editables para generar vídeos de retratos dinámicos utilizando una combinación de audio y puntos marcadores faciales.EchoMimic...
hace 1 año
061.4K
Cosmos:世界基础模型,构建物理世界的人工智能基础模型平台

Cosmos: World Base Model, una plataforma para construir modelos base de IA del mundo físico.

Introducción completa NVIDIA Cosmos es una plataforma de modelado basada en mundos para desarrolladores, diseñada específicamente para ayudar a los desarrolladores de IA de física a crear sus sistemas de IA de física mejor y más rápido. La plataforma ofrece una amplia gama de modelos preentrenados, incluidos modelos de difusión y autorregresivos...
hace 1 año
061.4K