Proyecto AI de código abierto

Total 1020 artículos
ModelBest(面壁智能):全球领先的轻量高性能端侧大模型

ModelBest: el líder mundial en modelos grandes ligeros y de alto rendimiento de extremo a extremo

Introducción general ModelBest es una empresa centrada en el desarrollo de grandes modelos ligeros y de alto rendimiento, y se dedica a aplicar tecnologías avanzadas de IA a la electrónica de consumo convencional y a todo tipo de dispositivos finales de la vida cotidiana. Su serie MiniCPM de modelos finales con extrema potencia aritmética y eficiencia en el uso de la memoria...
hace 12 meses
025.4K
CFG-Zero-star:提升图像和视频生成质量的开源工具

CFG-Zero-star: una herramienta de código abierto para mejorar la calidad de la generación de imágenes y vídeos

Introducción exhaustiva CFG-Zero-star es un proyecto de código abierto desarrollado por Weichen Fan y el equipo S-Lab de la Universidad Tecnológica de Nanyang. Se centra en la mejora de la técnica Classifier Free Guidance (CFG) en modelos de correspondencia de flujos mediante la optimización de la estrategia de guiado y de la ...
hace 7 meses
025.4K
Qwen2.5-Omni:多模态输入和实时语音交互的端测模型

Qwen2.5-Omni: un modelo de medición final para entrada multimodal e interacción verbal en tiempo real

Introducción general Qwen2.5-Omni es un modelo de IA multimodal de código abierto desarrollado por el equipo Qwen de Alibaba Cloud. Puede procesar múltiples entradas, como texto, imágenes, audio y vídeo, y generar respuestas de texto o habla natural en tiempo real. El modelo se lanzó en 2025 el 3 ...
hace 7 meses
025.3K
MiniRAG:简化检索增强生成框架,实体图索引召回相关文本块

MiniRAG: Marco de Generación Mejorada de Recuperación Simplificada, Índice de Grafos de Entidades Recupera Bloques de Texto Relevantes

Una introducción exhaustiva MiniRAG es un marco de trabajo de Generación Aumentada de Recuperación (RAG) extremadamente sencillo que pretende permitir un buen rendimiento de la RAG incluso para modelos pequeños mediante la indexación de grafos heterogéneos y la recuperación mejorada por topología ligera. Ha sido desarrollado por el Laboratorio de Ciencia de Datos de la Universidad de Hong Kong (HKUDS) para ...
hace 9 meses
025.3K
NodeRAG:基于异构图的精准信息检索与生成工具

NodeRAG: una herramienta basada en grafos heterogéneos para la recuperación y generación de información precisa

Una introducción completa NodeRAG es un sistema de código abierto de Generación Aumentada de Recuperación (RAG) alojado en GitHub y desarrollado por Terry-Xu-666. Optimiza la recuperación y generación de información a través de estructuras de grafos heterogéneos, mejorando significativamente la precisión de la recuperación y la relevancia contextual.Nod...
hace 6 meses
025.3K
Chunkr:使用视觉模型进行文档摄取以及根据文本段落层级智能分块的一体化服务

Chunkr: un servicio todo en uno que utiliza modelos visuales para la ingestión de documentos y la agrupación inteligente basada en la jerarquía de párrafos de texto.

Introducción general Chunkr es una API autoalojada dedicada a convertir archivos PDF, PPTX, DOCX y Excel en datos aptos para su uso en RAG (Retrieval Augmented Generation) y LLM (Large Language Modelling). El proyecto fue desarrollado por Lumina...
hace 10 meses
025.3K
Raycast-G4F:通过Raycast免费使用GPT-4、Llama-3等多种 AI 模型

Raycast-G4F: ¡Acceso gratuito a GPT-4, Llama-3 y muchos otros modelos de IA a través de Raycast!

Introducción general Raycast-G4F (GPT4Free) es una potente extensión de Raycast que ofrece a los usuarios acceso gratuito a una amplia gama de modelos avanzados de IA, incluyendo GPT-4, Llama-3. La extensión no sólo proporciona transmisión de diálogos en tiempo real...
hace 9 meses
025.3K
Prompt Optimizer:优化主流AI模型提示词的开源工具

Prompt Optimizer: una herramienta de código abierto para optimizar las palabras clave de los modelos de IA convencionales.

Introducción general Prompt Optimizer es una herramienta de código abierto centrada en la optimización de palabras clave, desarrollada por linshenkx en GitHub. Ayuda a los usuarios a optimizar las palabras clave de los modelos de IA mediante algoritmos inteligentes, mejorando así la calidad del contenido generado...
hace 8 meses
025.3K
Moshi:实时语音对话框架,支持多种语言和口音的语音对话基础模型

Moshi: un marco de diálogo vocal en tiempo real compatible con múltiples idiomas y acentos para modelos de base de diálogo vocal

Introducción general Moshi Chat es un asistente de voz de IA en tiempo real de Kyutai, un laboratorio francés de IA sin ánimo de lucro. No solo escucha en tiempo real, sino que también participa en conversaciones naturales y admite interacciones multimodales, incluida la capacidad de ver, oír y hablar.Moshi Ch...
hace 1 año
025.2K
Aide:强化VSCode开发体验的AI助手扩展,一键注释、转换、UI生成代码

Aide: extensión de ayuda de IA que mejora la experiencia de desarrollo de VSCode, la anotación con un solo clic, la conversión y la generación de interfaz de usuario de código.

Introducción general AIDE (AI-assisted Development Extension) es una potente extensión de desarrollo asistido por IA para VSCode, centrada en proporcionar una asistencia de programación de IA única y útil. Es diferente de GitHu...
hace 10 meses
025.2K
AutoGPT:工作流自动化与自主执行任务的智能体构建平台

AutoGPT: plataforma inteligente de carrozado para la automatización de flujos de trabajo y la ejecución autónoma de tareas

Descripción general AutoGPT es una potente plataforma diseñada para ayudar a los usuarios a crear, desplegar y gestionar agentes de IA en ejecución continua y automatizar flujos de trabajo complejos. Desarrollada por Significant Gravitas, la plataforma ofrece una amplia gama de herramientas y funciones que permiten a los usuarios centrarse...
hace 10 meses
025.2K
LivePortrait:静态图像、视频生成动态肖像动画工具

LivePortrait: herramienta de animación para generar retratos dinámicos a partir de imágenes fijas y vídeos

Introducción general LivePortrait es una herramienta avanzada de animación dinámica de retratos AI desarrollada por Racer Technology. Utiliza una innovadora tecnología de IA para transformar imágenes fijas en vívidas animaciones de vídeo. Tanto si utiliza fotos reales, estilos de animación o retratos artísticos, LivePo...
hace 11 meses
025.2K
Genesis:开源生成式物理引擎,实现基于真实物理的4D动态世界模拟

Genesis: motor de física generativa de código abierto para la simulación de mundos dinámicos en 4D basados en la física real.

Introducción general Genesis es un mundo de física generativa diseñado para la robótica de propósito general y el aprendizaje de IA personificada. Proporciona una plataforma de simulación unificada que admite la simulación de una amplia gama de materiales y fenómenos físicos.Genesis tiene como objetivo desbloquear la IA generativa y la simulación física mediante la combinación...
hace 10 meses
025.2K
WeChatAI:Windows版微信群聊智能助手客户端

WeChatAI: cliente asistente inteligente de chat en grupo de WeChat para Windows

Introducción integral WeChatAI es un chat de grupo WeChat basado en Python y asistente inteligente personal, que soporta una variedad de grandes modelos de lenguaje (como DeepSeek, Gemini, Tongyi Thousand Questions), que puede lograr el diálogo inteligente, auto-respuesta y otras funciones. El proyecto utiliza ...
hace 8 meses
025.2K
Step-Video-T2V:支持多语言输入和长视频生成的文生视频模型

Step-Video-T2V: un modelo de vídeo de Vincennes que admite la entrada multilingüe y la generación de vídeos largos

Introducción completa Step-Video-T2V es un modelo avanzado de conversión de texto a vídeo de StepFun AI (StepFun Star). El modelo tiene 3.000 millones de parámetros y es capaz de generar vídeos de hasta 204 fps. Con un Auto-Encoder Variable (VAE) profundamente comprimido, el modelo...
hace 8 meses
025.2K
MegaParse:解析各类型文档为LLM可用数据,完整保留文档中的表格、图片等所有信息

MegaParse: analiza cada tipo de documento en datos disponibles en LLM, conservando toda la información del documento, como tablas e imágenes, en su totalidad.

Introducción general MegaParse es una potente y versátil herramienta de análisis sintáctico de documentos diseñada para optimizar el procesamiento de datos para el Large Language Model (LLM). Tanto si trabaja con texto, PDF, presentaciones de PowerPoint o documentos de Word, MegaParse...
hace 10 meses
025.2K
OmniGen:统一图像生成模型,多模态输入生成人物一致性图像

OmniGen: un modelo unificado de generación de imágenes con entradas multimodales para generar imágenes coherentes con los caracteres

Introducción general OmniGen es un modelo "universal" de generación de imágenes desarrollado por VectorSpaceLab que permite a los usuarios crear efectos visuales diversos y contextualmente ricos con simples indicaciones de texto o entradas multimodales. Es especialmente adecuado para aplicaciones que necesitan reconocer...
hace 11 meses
025.2K
WhoDB:支持自然语言交互的轻量数据库可视化管理软件

WhoDB: software ligero de gestión de visualización de bases de datos con interacción en lenguaje natural

Introducción general WhoDB es una herramienta de gestión de bases de datos ligera (~20MB), potente y fácil de usar, diseñada para simplificar las tareas de administración de bases de datos. Combina la simplicidad de Adminer con la experiencia del usuario y mejoras en el rendimiento.WhoDB utiliza Go...
hace 11 meses
025.2K
SegAnyMo:从视频中自动分割任意运动物体的开源工具

SegAnyMo: herramienta de código abierto para segmentar automáticamente objetos arbitrarios en movimiento a partir de vídeo

Introducción general SegAnyMo es un proyecto de código abierto desarrollado por un equipo de investigadores de la UC Berkeley y la Universidad de Pekín, entre los que se encuentran miembros como Nan Huang. Esta herramienta se centra en el procesamiento de vídeo y puede identificar y segmentar automáticamente objetos arbitrarios en movimiento en un vídeo, como personas, animales o...
hace 7 meses
025.2K
Shandu:多轮收集分析信息的AI研究自动化工具

Shandu: una herramienta de automatización de la investigación con IA para recopilar y analizar información en múltiples rondas

Introducción general Shandu es un sistema de investigación basado en inteligencia artificial de código abierto alojado en GitHub y creado por el desarrollador jolovicdev. Utiliza las tecnologías LangChain y LangGraph, y su objetivo es proporcionar...
hace 7 meses
025.2K
AnkiAIUtils: Anki Flashcard Learning AI Toolset, un asistente inteligente que optimiza automáticamente las tarjetas de memoria

AnkiAIUtils: Anki Flashcard Learning AI Toolset, un asistente inteligente que optimiza automáticamente las tarjetas de memoria

Descripción General AnkiAIUtils es un conjunto de herramientas mejoradas con IA diseñadas para el sistema de aprendizaje de tarjetas flash Anki. Desarrollado por un estudiante de medicina, la herramienta está diseñada para mejorar automáticamente las tarjetas que los usuarios están luchando con durante el proceso de aprendizaje a través de la tecnología de IA. Proporciona a los usuarios...
hace 10 meses
025.2K
Comp AI:自动化SOC 2、ISO 27001和GDPR合规的开源平台

Comp AI: una plataforma de código abierto para automatizar el cumplimiento de SOC 2, ISO 27001 y GDPR

Introducción general Comp AI es una plataforma de código abierto desarrollada por Comp AI, Inc. con sede en San Francisco, Estados Unidos. Ayuda a las organizaciones a completar rápidamente los requisitos de cumplimiento como SOC 2, ISO 27001 y GDPR a través de herramientas automatizadas, con el objetivo de varios...
hace 6 meses
025.1K
MarkItDown:微软文档智能转换工具,转换各种文件为Markdown格式

MarkItDown: Herramienta de conversión inteligente de documentos de Microsoft para convertir varios archivos al formato Markdown

Introducción general MarkItDown es una herramienta Python desarrollada por Microsoft diseñada para convertir diversos archivos y documentos ofimáticos al formato Markdown. La herramienta admite una amplia gama de tipos de archivo, como PDF, PowerPoint, Word, Excel, diagramas...
hace 10 meses
025.1K
TreeGPT:可视化树状对话的AI聊天界面

TreeGPT: interfaz de chat para visualizar conversaciones basadas en árboles

Introducción general TreeGPT es una aplicación de chat de código abierto basada en Next.js, centrada en la visualización de conversaciones con grandes modelos lingüísticos (LLMs, por sus siglas en inglés, p. ej., GPTs) a través de estructuras de grafos en árbol (grafos acíclicos dirigidos, DAGs), sustituyendo a los métodos de chat lineales tradicionales para mejorar la velocidad y...
hace 8 meses
025.1K
LlamaEdge:本地运行和微调LLM的最快捷方式

LlamaEdge: ¡la forma más rápida de ejecutar y ajustar LLM localmente!

Introducción general LlamaEdge es un proyecto de código abierto diseñado para simplificar el proceso de ejecución y puesta a punto de grandes modelos lingüísticos (LLM) en dispositivos locales o edge. El proyecto es compatible con la familia de modelos Llama2 y proporciona servicios API compatibles con OpenAI que permiten a los usuarios crear y ejecutar fácilmente...
hace 9 meses
025.1K
BrushEdit:腾讯ARC发布的图像修复和编辑的全能工具

BrushEdit: herramienta todo en uno para la restauración y edición de imágenes lanzada por Tencent ARC

Introducción general BrushEdit es una herramienta integral de reparación y edición de imágenes desarrollada por Tencent ARC Labs. La herramienta se basa en la última tecnología de IA y es capaz de identificar y reparar automáticamente los defectos en las imágenes, mientras que el apoyo a la edición interactiva por users.BrushEdit combina una variedad de...
hace 10 meses
025.1K
Flow(Laminar):构建智能体的轻量级任务引擎,简化并灵活管理任务

Flow (Laminar): un motor de tareas ligero para construir inteligencias que simplifica y gestiona con flexibilidad las tareas.

Introducción general Flow es un motor de tareas ligero diseñado para construir agentes de IA con un énfasis en la simplicidad y la flexibilidad. A diferencia de los flujos de trabajo tradicionales basados en nodos y bordes, Flow utiliza un sistema dinámico de colas de tareas que admite la ejecución paralela, la programación dinámica y la gestión inteligente de dependencias. Su concepto central es ...
hace 10 meses
025.1K
ALog:便携AI语音日记应用,支持语音转文字。

ALog: aplicación portátil de diario vocal con inteligencia artificial y conversión de voz a texto.

Introducción general ALog es una aplicación de diario de voz basada en IA diseñada para ayudar a los usuarios a registrar su vida diaria por voz. Está desarrollada por duxins y de código abierto en GitHub. Los usuarios pueden grabar entradas de diario a través de la entrada de voz, y la aplicación convertirá automáticamente la voz en texto ...
hace 9 meses
025.1K
Agentic Security:开源的LLM漏洞扫描工具,提供全面的模糊测试和攻击技术

Agentic Security: herramienta de escaneo de vulnerabilidades LLM de código abierto que proporciona pruebas fuzz y técnicas de ataque exhaustivas.

Introducción general Agentic Security es una herramienta de escaneo de vulnerabilidades LLM (Large Language Model) de código abierto diseñada para proporcionar a los desarrolladores y profesionales de la seguridad pruebas fuzz completas y técnicas de ataque. La herramienta admite conjuntos de reglas personalizadas o ataques basados en agentes y es capaz de integrar LLM AP...
hace 8 meses
025.1K
Leffa:高保真模特虚拟试穿与人物姿势调整,Meta开源的可控人物图像生成模型

Leffa: ajuste virtual de modelos de alta fidelidad y ajuste de la pose de los personajes, Meta modelo de generación de imágenes de personajes controlable de código abierto

Introducción exhaustiva Leffa es un marco unificado para generar imágenes de personajes controlables, que permite la manipulación precisa de la apariencia del personaje (por ejemplo, ajuste virtual) y la pose (por ejemplo, transferencia de pose). El marco reduce significativamente la distorsión de detalles finos dirigiendo la consulta de destino para centrarse en la clave de referencia correcta en la capa de atención, con...
hace 10 meses
025.1K
Clone Voice:支持多语言的少样本声音克隆工具,基于xtts_v2提供Windows一键安装包

Clone Voice: herramienta de clonación de voz multilingüe y sin muestras basada en xtts_v2 para Windows.

Descripción general Clone Voice es una herramienta de clonación de sonido de código abierto que proporciona una interfaz basada en web que permite a los usuarios clonar voces utilizando cualquier sonido o grabación de voz personal. La herramienta es fácil de usar, incluso sin una GPU NVIDIA, y se puede utilizar con una aplicación precompilada...
hace 1 año
025.1K
Open Codex:将自然语言转换为Shell命令的开源AI工具

Open Codex: una herramienta de AI de código abierto para convertir lenguaje natural en comandos de shell

Introducción general Open Codex es una herramienta de AI de línea de comandos de código abierto diseñada para que los desarrolladores conviertan instrucciones de lenguaje natural en comandos de shell precisos. Utiliza un modelo de lenguaje nativo (por ejemplo, phi-4-mini), no requiere redes ni claves API, y todas las operaciones en...
hace 6 meses
025.1K
MediaCrawler:多社交媒体平台内容、视频评论爬虫工具

MediaCrawler: Herramienta de rastreo de comentarios de vídeo y contenidos de plataformas de medios multisociales

Introducción general MediaCrawler es una herramienta de rastreo de contenido de medios sociales diseñada para desarrolladores. Al proporcionar un rastreador de gran alcance, se puede agarrar rápidamente vídeos, imágenes, comentarios, gustos, retweets y otros datos de las plataformas sociales como Xiaohongshu,...
hace 1 año
025K
Onlook:面向前端设计开源Cursor,在React应用中设计并发布代码

Onlook: Cursor de código abierto para el diseño front-end, diseñar y publicar código en aplicaciones React.

Introducción general Onlook es una herramienta de diseño de código abierto construida para diseñadores y desarrolladores que permite a los usuarios diseñar directamente en una aplicación React en ejecución y convertir los cambios de diseño en código. La herramienta proporciona una experiencia de edición visual intuitiva similar a Figma o Webf...
hace 9 meses
025K
Devin.cursorrules:增强Cursor IDE开发体验,将Cursor/Windsurf打造成类Devin智能编程助手

Devin.cursorrules: Mejorando la Experiencia de Desarrollo de Cursor IDE, Haciendo de Cursor/Windsurf un Asistente de Programación Inteligente similar a Devin.

Introducción General Devin.cursorrules es un innovador proyecto de código abierto diseñado para convertir el asequible Cursor o Windsurf IDE (~$20) en un potente asistente de programación AI como Devin. El proyecto proporciona un conjunto de ...
hace 9 meses
025K
VBDeepSeek:使用DeepSeek生成四级单词学习资料的开源工具

VBDeepSeek: una herramienta de código abierto para generar materiales de estudio de palabras de 4º curso utilizando DeepSeek.

Introducción completa "Vocabulary Book by DeepSeek" es un proyecto de código abierto desarrollado sobre la base del gran modelo de DeepSeek, con el objetivo de ayudar a los estudiantes de inglés a dominar el vocabulario del nivel 4 de inglés universitario (CET-4) de manera eficiente. El proyecto está alojado en GitHub...
hace 8 meses
025K
DragGAN:交互式图像编辑工具,点选和拖拽控制图像位置

DragGAN: herramienta interactiva de edición de imágenes, control de la posición de las imágenes mediante apuntar y hacer clic y arrastrar y soltar.

Introducción general DragGAN es una herramienta interactiva de edición de imágenes basada en Redes Generativas Adversariales (GAN). Fue lanzada por Xingang Pan et al. en SIGGRAPH 2023 y tiene como objetivo permitir a los usuarios manipular intuitivamente a través de simples operaciones de apuntar y hacer clic y arrastrar y soltar....
hace 10 meses
025K
Orama:高性能全文本和向量搜索引擎

Orama: un motor de búsqueda vectorial y de libros a texto completo de alto rendimiento

Introducción general Orama es un motor de búsqueda de código abierto y alto rendimiento , escrito íntegramente en TypeScript , que soporta búsqueda de texto completo , búsqueda vectorial y búsqueda híbrida.Orama está diseñado para funcionar en cualquier entorno de ejecución JavaScript , proporcionando ...
hace 9 meses
025K
FoleyCrafter:为无声视频添加生动同步的音效

FoleyCrafter: añade sonido sincronizado a un vídeo mudo

Introducción general FoleyCrafter es un proyecto de código abierto desarrollado por OpenMMLab para generar efectos de sonido vívidos y sincronizados para vídeos mudos. El proyecto utiliza técnicas avanzadas de inteligencia artificial para generar efectos de sonido semánticamente relevantes y sincronizados en el tiempo mediante el análisis del contenido del vídeo....
hace 10 meses
024.9K
SemHash:快速实现语义文本去重,提升数据清理效率

SemHash: implementación rápida de la deduplicación semántica de textos para mejorar la eficacia de la limpieza de datos

Introducción completa SemHash es una herramienta ligera y flexible para desduplicar conjuntos de datos por similitud semántica. Combina la rápida generación de incrustaciones de Model2Vec con la eficaz búsqueda de similitud RNA (vecino más cercano aproximado) de Vicinity.SemHa...
hace 9 meses
024.9K
MedRAX: 利用多模态大模型进行胸部X光片分析的智能体

MedRAX: un organismo inteligente para el análisis de radiografías de tórax mediante macromodelos multimodales

Introducción completa MedRAX es una inteligencia artificial de última generación diseñada para el análisis de radiografías de tórax (CXR). Integra herramientas de análisis CXR de última generación y grandes modelos de lenguaje multimodal para procesar dinámicamente consultas médicas complejas sin formación adicional.MedRAX, a través de su diseño modular...
hace 7 meses
024.9K
Fay数字人框架:集成语言模型与3D数字角色,支持多种应用场景

Fay Digital Human Framework: integración de modelos lingüísticos y personajes digitales tridimensionales para dar soporte a diversos escenarios de aplicación.

Introducción general Fay es un marco de trabajo de código abierto para humanos digitales virtuales en 3D que integra modelos lingüísticos y personajes digitales para diversos escenarios de aplicación, como guías de compras virtuales, presentadores virtuales, asistentes, camareros, profesores y asistentes móviles basados en voz o texto.
hace 9 meses
024.9K
PhotoDoodle:文字指令为照片添加艺术涂鸦的AI工具

PhotoDoodle: herramienta de AI para añadir garabatos artísticos a fotos con comandos de texto

Introducción general PhotoDoodle es una herramienta de edición de imágenes de código abierto, desarrollada por ShowLab, centrada en la edición artística de fotos mediante tecnología de inteligencia artificial. Los usuarios pueden añadir un estilo de dibujos animados, efecto 3D, luz a fotos reales con sólo escribir...
hace 7 meses
024.9K
Devika:开源的AI软件工程师智能体,能够理解、拆分指令为子任务并编写代码

Devika: inteligencia artificial de código abierto que comprende, divide instrucciones en subtareas y escribe código

Introducción general Devika es un ingeniero de software de IA avanzada que entiende instrucciones humanas de alto nivel, las descompone en pasos, estudia la información relevante y escribe código para lograr un objetivo determinado. Desarrolla software de forma inteligente utilizando modelos lingüísticos a gran escala, algoritmos de planificación y razonamiento y capacidades de navegación web.D...
hace 7 meses
024.9K
混元文生视频:生成写实镜头感的高质量视频,腾讯开源视频生成大模型

Vídeo híbrido de Vincennes: generación de secuencias realistas de vídeo de alta calidad, generación de vídeo de código abierto de Tencent de modelos de gran tamaño

Introducción Tencent Mixed Yuan Text Generation Video (disponible en Yuanbao APP) es una plataforma de generación de vídeo basada en tecnología de IA lanzada por Tencent. La plataforma utiliza el Tencent Mixed Yuan Big Model con un potente conocimiento entre dominios y comprensión del lenguaje natural para generar vídeos de alta calidad basados en las descripciones de texto de los usuarios....
hace 9 meses
024.9K
MiMo:高效数学推理与代码生成的小型开源模型

MiMo: un pequeño modelo de código abierto para el razonamiento matemático eficiente y la generación de código

Introducción general MiMo es un proyecto de modelado de grandes lenguajes de código abierto desarrollado por Xiaomi, centrado en el razonamiento matemático y la generación de código. El producto principal es la familia de modelos MiMo-7B, que contiene un modelo base (Base), un modelo de ajuste fino supervisado (SFT), un químico fuerte entrenado a partir del modelo base....
hace 5 meses
024.9K
LocalGPT:在本地设备上与多文档对话,确保数据隐私

LocalGPT: Garantice la privacidad de los datos hablando con varios documentos en dispositivos locales.

Introducción general LocalGPT es un proyecto de código abierto diseñado para permitir a los usuarios hablar con documentos en dispositivos locales, garantizando la privacidad de los datos. Mediante el uso de varios modelos de código abierto, LocalGPT puede procesar y comprender el contenido de los documentos sin subir los datos a la nube. El proyecto es compatible con diversos p...
hace 10 meses
024.9K
Data Formulator:AI驱动的数据可视化工具

Data Formulator: una herramienta de visualización de datos basada en IA

Introducción general Data Formulator es una herramienta de código abierto de visualización de datos basada en IA desarrollada por Microsoft Research. La herramienta combina una interfaz gráfica de usuario (GUI) y la entrada de lenguaje natural (NL) para permitir a los usuarios crear e iterar rápidamente a través de interacciones y comandos sencillos....
hace 8 meses
024.9K
PPTX2MD:将PPTX文件转换为Markdown的专用工具

PPTX2MD: Herramienta especial para convertir archivos PPTX a Markdown

Introducción general PPTX2MD es una herramienta de código abierto diseñada para convertir archivos PPTX de PowerPoint al formato Markdown. Desarrollada por el usuario de GitHub ssine, la herramienta permite conservar los encabezados, las listas, el formato del texto (por ejemplo, negrita, cursiva, colores y super...
hace 8 meses
024.9K
Deep Recall:为大模型提供企业级记忆框架的开源工具

Deep Recall: una herramienta de código abierto que proporciona un marco de memoria de clase empresarial para modelos de gran tamaño.

Introducción Deep Recall es un marco de memoria empresarial de código abierto diseñado para grandes modelos lingüísticos (LLM). Proporciona una capacidad de respuesta hiperpersonalizada a través de una recuperación y una integración contextuales eficaces. El marco utiliza una arquitectura de tres niveles, que incluye un servicio de memoria, un servicio de razonamiento y un...
hace 5 meses
024.8K
AI ContentCraft:生成短故事、对话脚本、配音、配图的多功能AI内容创作工具

AI ContentCraft: una versátil herramienta de creación de contenidos de IA para generar historias cortas, guiones de diálogos, voces en off y gráficos.

Descripción general AI ContentCraft es una versátil herramienta de creación de contenidos que integra generación de texto, síntesis de voz, generación de imágenes y mucho más. Ayuda a los creadores a generar rápidamente historias, guiones de podcasts y contenidos de audio y vídeo complementarios. La herramienta admite conversiones a varios idiomas y puede...
hace 9 meses
024.8K
EchoMimic:音频驱动人像照片生成说话视频(EchoMimicV2加速版安装包)

EchoMimic: retratos sonoros para generar vídeos parlantes (instalador acelerado de EchoMimicV2)

Introducción general EchoMimic es un proyecto de código abierto diseñado para generar animaciones de retratos realistas controladas por audio. Desarrollado por la división Terminal Technologies de Ant Group, el proyecto utiliza condiciones de puntos marcadores editables para generar vídeos de retratos dinámicos utilizando una combinación de audio y puntos marcadores faciales.EchoMimic...
hace 9 meses
024.8K
Ai2 OLMoE:基于 OLMoE 模型离线运行的开源iOS AI应用

Ai2 OLMoE: una aplicación de IA para iOS de código abierto basada en modelos OLMoE que funcionan sin conexión.

Introducción general Ai2 OLMoE es una aplicación iOS de código abierto desarrollada por el Allen Institute for AI (Ai2, Instituto Allen de Inteligencia Artificial) para proporcionar modelos de IA que se ejecutan íntegramente en dispositivos. La aplicación aprovecha el código abie...
hace 8 meses
024.8K
CogAgent:智谱开源的智能视觉语言模型,实现图形界面自动化操作

CogAgent: modelo de lenguaje visual inteligente de código abierto de Smart Spectrum para la automatización de interfaces gráficas

Introducción CogAgent es un modelo de lenguaje visual de código abierto desarrollado por el Grupo de Investigación de Minería de Datos de la Universidad de Tsinghua (THUDM), cuyo objetivo es automatizar el funcionamiento de la interfaz gráfica de usuario (GUI) en todas las plataformas. El modelo se basa en CogVLM (GLM-4V-9B) y es compatible con el chino y el inglés bilingües....
hace 10 meses
024.8K
opensource_notebooklm:基于Deepseek-V3和PlayHT TTS的NotebookLM开源实现

opensource_notebooklm: aplicación de código abierto de NotebookLM basada en Deepseek-V3 y PlayHT TTS

Introducción General Open Source NotebookLM es un innovador proyecto de inteligencia artificial que combina las capacidades de comprensión del lenguaje de Deepseek-V3 con la tecnología de síntesis de voz de PlayHT, con el objetivo de crear un sistema inteligente de diálogo para tomar notas. El proyecto fue desarrollado por Build Fast c...
hace 9 meses
024.8K
Morphic:AI驱动的开源搜索引擎,提供智能问答、视频搜索、生成UI代码

Morphic: motor de búsqueda de código abierto impulsado por inteligencia artificial que ofrece preguntas y respuestas inteligentes, búsqueda de vídeos y generación de código de interfaz de usuario.

Introducción general Morphic es un motor de búsqueda basado en tecnología de IA con una interfaz de usuario generativa diseñada para ofrecer preguntas y respuestas inteligentes y una experiencia de búsqueda eficiente. Los usuarios pueden realizar una gran variedad de búsquedas con Morphic, incluyendo texto, vídeo, etc., y pueden guardar el historial de búsqueda y compartir los resultados.Mo...
hace 11 meses
024.8K
AnimeGamer:用语言指令生成动漫视频和角色互动的开源工具

AnimeGamer: una herramienta de código abierto para generar vídeos de anime e interacciones de personajes con comandos lingüísticos

AnimeGamer es una herramienta de código abierto del ARC Lab de Tencent. Los usuarios pueden generar vídeos de anime con comandos lingüísticos sencillos, como "Sousuke conduce en un coche morado", así como permitir que diferentes personajes de anime interactúen entre sí, como Kiki de Magical Girl's Adventure y Sky City....
hace 6 meses
024.8K
Paper2Code:将机器学习论文自动转化为可运行代码

Paper2Code: conversión automática de documentos de aprendizaje automático en código ejecutable

Introducción general Paper2Code es un proyecto de código abierto que pretende resolver el problema de la falta de implementaciones de código para artículos de aprendizaje automático. Transforma automáticamente artículos científicos en repositorios de código ejecutables a través del sistema multiagente de modelado de grandes lenguajes (LLM) PaperCoder. El sistema utiliza la planificación ...
hace 5 meses
024.8K
VoiceCraft:开源零样本语音克隆与文本转语音工具

VoiceCraft: herramienta de código abierto de clonación de voz sin muestras y conversión de texto a voz

Introducción completa VoiceCraft es una herramienta de código abierto para la edición del habla y la síntesis del habla sin muestras basada en el modelo de lenguaje del códec neural. Emplea un innovador método de generación de secuencias codificadas que permite realizar operaciones de inserción, eliminación y sustitución en secuencias de habla existentes para generar un habla editada natural y coherente....
hace 1 año
024.8K
Gemini Teacher:英语口语发音纠正助手

Gemini Teacher: Asistente de corrección de la pronunciación en inglés

Introducción general Gemini Teacher es un asistente para practicar la pronunciación en inglés basado en la IA Gemini de Google. Reconoce la pronunciación inglesa del usuario en tiempo real y proporciona sugerencias de corrección y comentarios instantáneos. La herramienta está diseñada para ayudar a los usuarios a...
hace 8 meses
024.7K
Harbor:一键部署本地LLM开发环境,轻松管理和运行AI服务的容器化工具集

Harbor: un conjunto de herramientas en contenedores para desplegar entornos de desarrollo LLM locales con un solo clic y gestionar y ejecutar fácilmente servicios de IA.

Introducción general Harbor es un revolucionario conjunto de herramientas LLM en contenedores centrado en simplificar el despliegue y la gestión de entornos de desarrollo de IA locales. Ofrece a los desarrolladores una interfaz de línea de comandos (CLI) limpia y una aplicación complementaria para lanzar y gestionar con un solo clic, incluyendo backends LLM, interfaces API,...
hace 9 meses
024.7K
AnyText:生成和编辑多语言图像文本,高可控在图像中生成多行中文

AnyText: Genera y edita texto de imagen multilingüe, altamente controlable para generar múltiples líneas de chino en la imagen.

Introducción AnyText es una revolucionaria herramienta de generación y edición de texto visual multilingüe desarrollada a partir del modelo de difusión. Genera texto multilingüe natural y de alta calidad en imágenes y admite funciones flexibles de edición de texto. Fue desarrollada por un equipo de investigadores y presentada en ICLR 2024....
hace 10 meses
024.7K
AgenticSeek:完全本地运行的任务自动化AI助手

AgenticSeek: un asistente de IA para la automatización de tareas que se ejecuta de forma totalmente local

Introducción general AgenticSeek es un asistente de IA de código abierto que se ejecuta de forma completamente local y se basa en el modelo Deepseek R1. No requiere una API en la nube y no incurre en cientos de dólares en cuotas mensuales. Pretende ser un asistente inteligente similar a "Jarvis" en la película...
hace 7 meses
024.7K
BetterWhisperX:自动语音识别与说话人分离,提供高精度单词级时间戳

BetterWhisperX: reconocimiento automático de voz independiente del orador que proporciona marcas de tiempo de gran precisión a nivel de palabra.

Introducción general BetterWhisperX es una versión optimizada del proyecto WhisperX centrada en proporcionar servicios de Reconocimiento Automático del Habla (ASR) eficientes y precisos. Como rama mejorada de WhisperX, el proyecto fue desarrollado por Federico ...
hace 10 meses
024.7K
OASIS:多智能体模拟数百万用户社交媒体互动,研究复杂社会现象

OASIS: simulación multiinteligente de las interacciones en redes sociales de millones de usuarios para estudiar fenómenos sociales complejos

Introducción general OASIS (Open Agent Social Interaction Simulations) es un simulador de redes sociales de código abierto capaz de simular el comportamiento de hasta un millón de usuarios. La plataforma combina un modelo lingüístico a gran escala con un...
hace 7 meses
024.7K
E2B Open Computer Use:E2B沙盒中安全的运行AI操作系统

Uso de ordenadores abiertos E2B: ejecución segura de un sistema operativo de inteligencia artificial en el espacio aislado E2B

Introducción general E2B Open Computer Use es un proyecto de código abierto cuyo objetivo es proporcionar una experiencia segura de uso de ordenadores Linux basada en la nube a través de E2B Desktop Sandbox.E2B Sandbox proporciona un entorno gráfico de escritorio que los usuarios...
hace 9 meses
024.7K
Sana:快速生成高分辨率图像,0.6B超小尺寸模型,低配笔记本GPU运行

Sana: generación rápida de imágenes de alta resolución, modelo de tamaño ultrapequeño de 0,6B, funcionamiento con GPU de portátil de bajo perfil

Introducción general Sana es un eficiente marco de generación de imágenes de alta resolución desarrollado por NVIDIA Labs, capaz de generar imágenes de hasta 4096 × 4096 de resolución en cuestión de segundos.Sana emplea un transformador de difusión lineal y tecnología de autocodificación de compresión profunda para...
hace 11 meses
024.7K
AutoMouser:生成浏览器自动化代码,将鼠标操作通过AI转为Selenium Python脚本

AutoMouser: Generación de código de automatización del navegador para convertir acciones del ratón en scripts Selenium Python mediante IA

Introducción general AutoMouser es una extensión de Chrome que rastrea de forma inteligente las interacciones del usuario y genera automáticamente código de prueba Selenium utilizando los modelos GPT de OpenAI. Para ello, registra las acciones del navegador del usuario y las convierte...
hace 9 meses
024.7K
NextChat:兼容多平台的本地化AI聊天助手

NextChat: un asistente de chat con inteligencia artificial compatible con múltiples plataformas

Introducción general NextChat es un revolucionario servicio de chat con IA que permite a los usuarios implementar servicios de chat con los mejores modelos lingüísticos de su clase, como GPT-3, GPT-4, GPT-4.5 y Gemini Pro. Ofrece una elegante interfaz de usuario, funciones de colaboración, integraciones, plantillas y...
hace 8 meses
024.6K
SVFR:实现视频人脸修复的统一框架,修复黑白、模糊的人像老视频

SVFR: un marco unificado para implementar la reparación de rostros en vídeo, reparar vídeos en blanco y negro, retratos borrosos y antiguos

Introducción exhaustiva SVFR (Stable Video Face Restoration) es un marco unificado para la restauración de rostros en vídeo que admite tareas de restauración básica de rostros (BFR), coloreado, reparación y su combinación. El marco utiliza priors generativos y cinemáticos unificando...
hace 9 meses
024.6K
LangGraph Supervisor:利用监督智能体来管理多智能体协作的工具

LangGraph Supervisor: una herramienta para gestionar la colaboración multiinteligencia mediante inteligencias supervisoras

Introducción general LangGraph Supervisor es una librería Python basada en el framework LangGraph, diseñada para crear y gestionar sistemas de cuerpos multi-inteligentes. La librería coordina el trabajo de múltiples agentes especializados a través de un agente supervisor central, asegurando que los flujos de comunicación y las tareas se dividen...
hace 8 meses
024.6K
STORM:基于Topic搜索网络数据,生成带引用的论文、长文报告

STORM: búsqueda de datos en la web basada en temas, generación de artículos con citas, informes de artículos largos

Introducción general STORM es un sistema de integración de conocimientos y generación de artículos desarrollado por el equipo Oval de la Universidad de Stanford. Se centra en la generación exhaustiva de artículos tipo Wikipedia (documentos sistemáticos) desde cero. El sistema utiliza modelos lingüísticos a gran escala para la investigación de temas, la preparación de sinopsis y la simulación de...
hace 7 meses
024.6K
Gemini Cursor:基于Gemini构建的AI桌面智能助手,能看、能听、能说

Gemini Cursor: un asistente inteligente de sobremesa basado en Gemini que puede ver, oír y hablar.

Introducción general Gemini Cursor es un asistente inteligente de escritorio basado en el modelo Gemini 2.0 Flash (experimental) de Google. Permite interacciones visuales, auditivas y de voz a través de una API multimodal, proporcionando un uso en tiempo real de baja latencia....
hace 8 meses
024.6K
Vanna:利用RAG技术将文本生成精准SQL查询

Vanna: generación de consultas SQL precisas a partir de texto mediante técnicas RAG

Introducción exhaustiva Vanna es un marco Python de código abierto con licencia del MIT centrado en la generación de consultas SQL mediante técnicas RAG (Retrieval Augmented Generation). Los usuarios pueden entrenar modelos RAG, aplicarlos a sus propios datos, y luego hacer preguntas, y Vanna devolverá los s...
hace 9 meses
024.5K
RAG Web UI:构建智能文档问答系统,简单构建私有Web端知识库

RAG Web UI: Creación de un sistema inteligente de preguntas y respuestas sobre documentos y creación sencilla de una base de conocimientos web privada

Introducción completa RAG Web UI es un sistema de diálogo inteligente basado en la tecnología RAG (Retrieval Augmented Generation). Ayuda a empresas y particulares a crear sistemas inteligentes de preguntas y respuestas basados en su propia base de conocimientos. Combinando la recuperación de documentos y grandes modelos lingüísticos, RAG Web UI proporciona...
hace 9 meses
024.5K
MeetingMind:依赖OpenAI Whisper的开源智能会议记录与总结工具

MeetingMind: herramienta inteligente de código abierto para grabar y resumir reuniones basada en OpenAI Whisper

Introducción general MeetingMind es una aplicación de IA avanzada diseñada para mejorar la eficiencia de la captura y el resumen de las reuniones de negocios. La aplicación integra la tecnología Whisper de OpenAI para una conversión precisa de voz a texto y utiliza IBM Watso...
hace 1 año
024.5K