Proyecto AI de código abierto

Total 1020 artículos
HunyuanVideoGP:支持低端GPU运行的混元视频生成模型

HunyuanVideoGP: un modelo híbrido de generación de vídeo compatible con GPU de gama baja

Introducción general HunyuanVideoGP es un modelo de generación de vídeo a gran escala desarrollado por DeepBeepMeep y diseñado para usuarios de GPU de gama baja. El modelo es una versión mejorada del modelo Hunyuan Video original, que reduce significativamente los requisitos de memoria y memoria gráfica....
hace 6 meses
01.9K
InspireMusic:阿里开源的统一音乐、歌曲和音频生成框架

InspireMusic: marco unificado de generación de música, canciones y audio de código abierto de Ali.

Introducción general InspireMusic es un conjunto de herramientas de código abierto basado en PyTorch centrado en la generación de música, canciones y audio. Proporciona un marco unificado para generar audio de alta calidad con controles para pistas de texto, estructura musical y estilo musical.Inspire...
hace 5 meses
02.7K
Gemini Playground:无服务器部署Gemini多模态对话网站

Gemini Playground: despliegue sin servidor de un sitio de diálogo multimodal Gemini

Introducción General Gemini Playground es un proyecto de código abierto diseñado para ayudar a los usuarios a implementar rápidamente un sitio de diálogo multimodal . El proyecto es desarrollado por el camarón de rastreo técnico , apoyar el uso de Gemini API Key en 10 segundos para completar el despliegue . Si el usuario es ...
hace 6 meses
02.7K
wdoc:从海量、多源文档中检索内容并总结知识

wdoc: recuperar contenidos y resumir conocimientos a partir de documentos masivos de múltiples fuentes

Introducción wdoc es un potente sistema RAG (Retrieval Augmentation Generation) diseñado para procesar y analizar grandes cantidades de documentos diversos. Es capaz de recuperar a partir de una amplia gama de tipos de documentos, incluidos PDF, páginas web, vídeos de YouTube, archivos de audio, etc. wdoc es especialmente adecuado para procesar...
hace 6 meses
02.6K
Magic 1-For-1: 高效生成视频的开源项目,号称在一分钟内生成一分钟的视频

Magic 1-For-1: proyecto de código abierto de generación eficiente de vídeo que pretende generar un vídeo de un minuto en menos de un minuto.

Introducción exhaustiva Magic 1-For-1 es un modelo eficiente de generación de vídeo diseñado para optimizar el uso de memoria y reducir la latencia de inferencia. El modelo descompone la tarea de generación de texto a vídeo en dos subtareas: generación de texto a imagen y generación de imagen a vídeo, lo que permite un entrenamiento y una destilación más eficientes....
hace 6 meses
02.6K
DataLine:AI数据分析与可视化客户端,快速生成图表和报告

DataLine: cliente AI de análisis y visualización de datos para la generación rápida de gráficos e informes

Introducción general DataLine es una potente herramienta de análisis y visualización de datos de IA diseñada para ayudar a los usuarios a interactuar con diversas fuentes de datos mediante operaciones sencillas. Ya sea un archivo CSV o una base de datos convencional como Postgres, MySQL, Snowflake, SQL...
hace 6 meses
02.8K
FinRobot:提升金融数据分析效率和投资研究的的智能体

FinRobot: un organismo inteligente para mejorar la eficacia del análisis de datos financieros y la investigación de inversiones

Introducción exhaustiva FinRobot es una plataforma de inteligencia de IA de código abierto desarrollada por AI4Finance Foundation y diseñada para el análisis financiero. No solo abarca los modelos lingüísticos tradicionales, sino que también incorpora diversas tecnologías de IA, con el objetivo de ofrecer una solución integral para el sector financiero.F...
hace 6 meses
02.5K
Simba:收纳文档的知识管理系统,无缝集成到任何RAG系统

Simba: un sistema de gestión del conocimiento para organizar documentos, perfectamente integrado en cualquier sistema GAR.

Introducción general Simba es un sistema portátil de gestión del conocimiento (KMS) diseñado para integrarse perfectamente con cualquier sistema de generación de aumento de la recuperación (RAG). Creado por el usuario de GitHub GitHamza0206, el proyecto proporciona una solución eficiente de gestión del conocimiento para una variedad de...
hace 6 meses
02.3K
LocalPdfChatRAG:支持本地多源PDF文档问答的智能聊天工具

LocalPdfChatRAG: Herramienta de chat inteligente para apoyar las preguntas y respuestas sobre documentos PDF locales de múltiples fuentes

Introducción general LocalPdfChatRAG es un proyecto de código abierto que pretende implementar una funcionalidad de chat inteligente combinando documentos PDF locales con un modelo de Generación Aumentada de Recuperación (RAG). El proyecto permite a los usuarios cargar documentos PDF y hacer preguntas a través del lenguaje natural para llegar desde el documento...
hace 6 meses
02.4K
Deep Searcher:企业私有文档高效检索与智能问答

Deep Searcher: recuperación eficiente de documentos privados de empresas y preguntas y respuestas inteligentes

Descripción general Deep Searcher es una herramienta que combina potentes modelos de big language (como DeepSeek y OpenAI) y bases de datos vectoriales (como Milvus) diseñados para buscar, evaluar y razonar basándose en datos privados, proporcionando respuestas altamente precisas...
hace 6 meses
02K
LineAvatars:生成 Notion 风格线条头像的免费工具

LineAvatars: herramienta gratuita para generar avatares de líneas al estilo Notion

Descripción General LineAvatars es una herramienta online gratuita y fácil de usar diseñada para generar avatares de líneas al estilo Notion. Los usuarios pueden subir una foto o tomar una foto a través de la webcam y el sistema generará automáticamente un avatar de línea utilizando AI. Esta herramienta...
hace 6 meses
02.4K
Goku: 生成画面精细且一致的视频,适合创作包含人物、物体细节的广告视频

Goku: Genera vídeos detallados y coherentes, ideales para crear vídeos publicitarios con personajes y objetos detallados.

Introducción exhaustiva Goku es un modelo federado de generación de imágenes y vídeos basado en técnicas de transformación de flujos y diseñado para alcanzar un rendimiento de nivel industrial. Integra técnicas avanzadas de generación visual de alta calidad, como la recopilación de datos detallados, el diseño de modelos y la formulación de transformaciones de flujo.
hace 6 meses
03.2K
Gemini Cursor:基于Gemini构建的AI桌面智能助手,能看、能听、能说

Gemini Cursor: un asistente inteligente de sobremesa basado en Gemini que puede ver, oír y hablar.

Introducción general Gemini Cursor es un asistente inteligente de escritorio basado en el modelo Gemini 2.0 Flash (experimental) de Google. Permite interacciones visuales, auditivas y de voz a través de una API multimodal, proporcionando un uso en tiempo real de baja latencia....
hace 6 meses
04K
Data Formulator:AI驱动的数据可视化工具

Data Formulator: una herramienta de visualización de datos basada en IA

Introducción general Data Formulator es una herramienta de código abierto de visualización de datos basada en IA desarrollada por Microsoft Research. La herramienta combina una interfaz gráfica de usuario (GUI) y la entrada de lenguaje natural (NL) para permitir a los usuarios crear e iterar rápidamente a través de interacciones y comandos sencillos....
hace 6 meses
02.8K
Ai2 OLMoE:基于 OLMoE 模型离线运行的开源iOS AI应用

Ai2 OLMoE: una aplicación de IA para iOS de código abierto basada en modelos OLMoE que funcionan sin conexión.

Introducción general Ai2 OLMoE es una aplicación iOS de código abierto desarrollada por el Allen Institute for AI (Ai2, Instituto Allen de Inteligencia Artificial) para proporcionar modelos de IA que se ejecutan íntegramente en dispositivos. La aplicación aprovecha el código abie...
hace 6 meses
03.5K
Meetily:生成会议纪要的AI助手,实时转录和生成会议摘要

Meetily: un asistente de IA para generar actas de reuniones, transcribir y generar resúmenes de reuniones en tiempo real.

Descripción general Meetily es un asistente de reuniones basado en IA desarrollado por Zackriya Solutions que captura el audio de las reuniones en tiempo real, realiza transcripciones de voz y genera resúmenes de las reuniones. Es único en el sentido de que todo el procesamiento se realiza localmente en el dispositivo, garantizando la privacidad del usuario...
hace 6 meses
03.1K
DeepSeek-VL2:高级多模态理解的专家级视觉语言模型

DeepSeek-VL2: un modelo de lenguaje visual experto para la comprensión multimodal avanzada

Introducción exhaustiva DeepSeek-VL2 es una serie de modelos avanzados de lenguaje visual Mixture-of-Experts (MoE) que mejoran significativamente el rendimiento de su predecesor, DeepSeek-VL. Los modelos son útiles en preguntas y respuestas visuales, reconocimiento óptico de caracteres,...
hace 6 meses
03K
ChatGPT Box:让 ChatGPT 在其他网页工作的浏览器插件

ChatGPT Box: Complemento del navegador para que ChatGPT funcione en otras páginas web

Introducción general ChatGPT Box es una extensión de navegador de código abierto diseñada para integrar profundamente ChatGPT en el navegador de un usuario. Desarrollada por josStorer, la herramienta soporta múltiples idiomas y proporciona una variedad de características tales como llamar a pares de chat en cualquier página...
hace 4 meses
02.6K
小半 WordPress AI 助手:实现对话、文章生成与翻译的 WordPress AI助手插件

Little Half WordPress AI Assistant: un plugin de WordPress AI Assistant para el diálogo, la generación de entradas y la traducción

Introducción completa WordPress AI Assistant Plugin (wp-ai-chat) es un plugin de WordPress de código abierto diseñado para proporcionar a los usuarios una variedad de características de AI, incluyendo el diálogo AI, la generación de artículos, resumen de artículos, traducción de artículos y lectura de contenidos. El plugin soporta el acoplamiento de múltiples ...
hace 6 meses
02.6K
promptfoo:提供安全可靠的LLM应用测试工具

Promptfoo: una herramienta segura y fiable para probar aplicaciones LLM

Introducción completa promptfoo es una herramienta de línea de comandos de código abierto y la biblioteca dedicada a la evaluación y la prueba de red-teaming Large Language Model (LLM) aplicaciones. Proporciona a los desarrolladores un conjunto completo de herramientas para la construcción de prompts fiables, modelos, y la generación basada en la recuperación (RAGs) con auto...
hace 6 meses
02.6K
NoneBot DeepSeek 插件:基于 NoneBot&DeepSeek 实现客服智能对话

Plugin NoneBot DeepSeek: Diálogo inteligente para el servicio de atención al cliente basado en NoneBot y DeepSeek.

Introducción General El plugin DeepSeek de NoneBot es un plugin de NoneBot que integra el modelo DeepSeek y está diseñado para proporcionar diálogo inteligente y funcionalidad de preguntas y respuestas. Al acceder al modelo DeepSeek, los usuarios pueden utilizar el plugin NoneBot...
hace 6 meses
02.5K
Solana Agent Kit:连接AI智能体与Solana协议的开源工具包

Solana Agent Kit: un conjunto de herramientas de código abierto para conectar inteligencias de IA al protocolo Solana.

Introducción general Solana Agent Kit es un kit de herramientas de código abierto diseñado para conectar sin problemas inteligencias AI al protocolo blockchain Solana. El kit permite tanto a los investigadores de IA como a los desarrolladores de criptomonedas utilizar cualquier cuerpo inteligente entrenado en modelos para realizar sobre...
hace 6 meses
02.5K
LiberSonora:有声书字幕提取与多语言翻译,有声小说转录为多语言

LiberSonora: Extracción de subtítulos de audiolibros y traducción multilingüe, transcripción de audiolibros a varios idiomas

Introducción LiberSonora, que significa "sonido libre", es un potente conjunto de herramientas de código abierto para audiolibros. Es compatible con la extracción inteligente de subtítulos, la generación de títulos AI, traducción multi-idioma, etc., y es capaz de procesamiento por lotes fuera de línea bajo GPU acceleration.LiberSo...
hace 6 meses
02.4K
go-stock:AI赋能股票分析工具,自选股行情实时监控并基于AI深度分析

go-stock: herramienta de análisis de valores basada en IA, seguimiento en tiempo real de las cotizaciones de valores elegidos por el usuario y análisis en profundidad basados en IA.

Introducción completa go-stock es una herramienta de análisis de acciones con IA construida sobre Wails y NaiveUI. La herramienta es capaz de monitorizar en tiempo real las cotizaciones de las acciones, proporcionando visualización de costes y beneficios/pérdidas y función de empuje de alarma arriba/abajo. Todos los datos se guardan localmente para...
hace 6 meses
02.9K
KTransformers:大模型推理性能引擎:极致加速,灵活赋能

KTransformers: motor de rendimiento para la inferencia de grandes modelos: aceleración extrema, potenciación flexible

KTransformers: Un framework Python de alto rendimiento para romper el cuello de botella de la inferencia de grandes modelos. Es más que una simple herramienta de ejecución de modelos, es un conjunto de motores de optimización de rendimiento extremo y una plataforma flexible de potenciación de interfaces. KTransf...
hace 6 meses
03K
VideoRAG:理解超长视频的RAG框架,支持多模态检索和知识图谱构建

VideoRAG: un marco RAG para la comprensión de vídeos ultralargos con soporte para la recuperación multimodal y la construcción de grafos de conocimiento

Introducción VideoRAG es un marco generativo de recuperación mejorado diseñado para procesar y comprender vídeos contextuales muy largos. La herramienta combina una base de conocimiento textual basada en grafos con la codificación jerárquica multimodal del contexto para procesar eficientemente en una sola GPU NVIDIA RTX 3090....
hace 6 meses
03K
Instructor:简化大语言模型结构化输出工作流的Python库

Instructor: una biblioteca de Python que simplifica los flujos de trabajo de salida estructurados para grandes modelos lingüísticos.

Introducción general Instructor es una popular biblioteca de Python diseñada para procesar resultados estructurados de grandes modelos lingüísticos (LLM). Basada en Pydantic, proporciona una API sencilla, transparente y fácil de usar para gestionar datos...
hace 6 meses
02.4K
MedRAX: 利用多模态大模型进行胸部X光片分析的智能体

MedRAX: un organismo inteligente para el análisis de radiografías de tórax mediante macromodelos multimodales

Introducción completa MedRAX es una inteligencia artificial de última generación diseñada para el análisis de radiografías de tórax (CXR). Integra herramientas de análisis CXR de última generación y grandes modelos de lenguaje multimodal para procesar dinámicamente consultas médicas complejas sin formación adicional.MedRAX, a través de su diseño modular...
hace 5 meses
02.7K
LangBot:开源大模型即时通信机器人,支持多微信、QQ、飞书等多平台部署AI机器人

LangBot: robot de mensajería instantánea de código abierto de modelo grande, compatible con múltiples WeChat, QQ, Flybook y otros despliegues multiplataforma de robots de IA.

LangBot es una plataforma bot de mensajería instantánea basada en modelos de gran tamaño que admite múltiples plataformas de mensajería y modelos de gran tamaño. La plataforma se adapta a QQ, WeChat (WeChat empresarial, WeChat personal), Flybook, Discord, OneBot y otras plataformas de mensajería, y es compatible con Open...
hace 6 meses
02.9K
zChunk:基于Llama-70B的通用语义分块策略

zChunk: una estrategia genérica de fragmentación semántica basada en Llama-70B

Introducción general zChunk es una novedosa estrategia de chunking desarrollada por ZeroEntropy que pretende ofrecer una solución para el chunking semántico genérico. La estrategia se basa en el modelo Llama-70B, que optimiza el proceso de chunking de los documentos solicitando la generación de trozos, lo que garantiza que la recuperación de información se mantenga en un alto...
hace 6 meses
02.4K
Hibiki:实时语音翻译模型,保留原声特点的流式翻译

Hibiki: un modelo de traducción de voz en tiempo real, traducción en flujo continuo que conserva las características de la voz original

Introducción general Hibiki es un modelo de traducción de voz en tiempo real de alta fidelidad desarrollado por Kyutai Labs. A diferencia de los traductores offline tradicionales, Hibiki es capaz de generar traducciones de voz naturales en el idioma de destino en tiempo real mientras el usuario habla, así como proporcionar traducciones de texto. El modelo...
hace 6 meses
03.3K
Qwen4Mac:在Mac菜单栏中使用千问(Qwen)大模型随时对话

Qwen4Mac: ¡utiliza los grandes modelos de Qwen en la barra de menús de Mac para conversar en cualquier momento!

Introducción general Qwen4Mac es un proyecto de código abierto diseñado para integrar el Qwen Large Language Model (LLM) en la barra de menú del Mac, facilitando a los usuarios su llamada y uso en cualquier momento. El proyecto está desarrollado y mantenido por andreaturchet y proporciona una manera fácil para que los usuarios...
hace 6 meses
02.1K
口袋AI:手机中运行的离线AI助手,适配 DeepSeek-R1 (5.37GB)

Pocket AI: un asistente de inteligencia artificial offline que se ejecuta en el teléfono, adaptado para DeepSeek-R1 (5,37 GB)

Introducción general Pocket AI (PocketPal AI versión china) es un potente asistente de IA offline diseñado para permitir a los usuarios hablar con la IA en cualquier momento y lugar. Se basa en Small Language Models (SLMs) y funciona en teléfonos móviles sin conexión a Internet, especialmente adaptado a la experiencia del usuario chino. Boca...
hace 6 meses
03.1K
OpenHealthForAll:个人健康数据管理AI助手,上传检查报告定制健康计划

OpenHealthForAll: asistente de IA para la gestión de datos sanitarios personales, carga de informes de exámenes para un plan de salud personalizado.

Introducción general OpenHealthForAll es un proyecto de código abierto diseñado para ayudar a los usuarios a gestionar y comprender sus datos personales de salud. Aprovechando la tecnología de inteligencia artificial, OpenHealthForAll proporciona un asistente de salud de gestión local para ayudar a los usuarios a gestionar mejor...
hace 6 meses
02K
OpenPilot:开源自动驾驶系统,为爱车DIY一套自己的智能驾驶系统

OpenPilot: sistema de conducción autónoma de código abierto, hazte tu propio sistema de conducción inteligente para tu coche

Introducción general OpenPilot es un sistema de conducción autónoma de código abierto desarrollado por comma.ai para mejorar la experiencia de conducción y la seguridad de los vehículos existentes con funciones avanzadas de asistencia al conductor. Desde su primer lanzamiento en 2016, OpenPilot ha dado soporte a más de 2...
hace 6 meses
02.6K
Agentic Security:开源的LLM漏洞扫描工具,提供全面的模糊测试和攻击技术

Agentic Security: herramienta de escaneo de vulnerabilidades LLM de código abierto que proporciona pruebas fuzz y técnicas de ataque exhaustivas.

Introducción general Agentic Security es una herramienta de escaneo de vulnerabilidades LLM (Large Language Model) de código abierto diseñada para proporcionar a los desarrolladores y profesionales de la seguridad pruebas fuzz completas y técnicas de ataque. La herramienta admite conjuntos de reglas personalizadas o ataques basados en agentes y es capaz de integrar LLM AP...
hace 6 meses
02.7K
CogVLM2:开源多模态模型,支持视频理解与多轮对话

CogVLM2: modelo multimodal de código abierto para la comprensión de vídeos y rondas múltiples de diálogo

Introducción CogVLM2 es un modelo multimodal de código abierto desarrollado por el Grupo de Investigación de Minería de Datos de la Universidad de Tsinghua (THUDM), basado en la arquitectura Llama3-8B, y cuyo objetivo es proporcionar un rendimiento comparable o incluso mejor que GPT-4V. El modelo permite la comprensión de imágenes, el diálogo...
hace 6 meses
02.4K
VisoMaster:强大且易用的图片/视频换脸和编辑软件

VisoMaster: programa de retoque y edición de fotos y vídeos potente y fácil de usar

Introducción general VisoMaster es una herramienta de edición e intercambio de caras de vídeo potente y fácil de usar que utiliza tecnología de inteligencia artificial para conseguir efectos de intercambio de caras naturales y realistas. Tanto si se trata de una imagen como de un vídeo, VisoMaster puede generar resultados de intercambio de caras de alta calidad con operaciones sencillas, aptas para...
hace 6 meses
04.1K
基于RAG构建提供健康建议的小助手(实验项目)

Construcción basada en el GAR de un miniasistente que proporcione asesoramiento sanitario (proyecto piloto)

Introducción general LLM-RAG-Longevity-Coach es un chatbot basado en las tecnologías Large Language Modelling (LLM) y Retrieval Augmented Generation (RAG) diseñado para proporcionar consejos personalizados sobre salud y longevidad a los usuarios. El proyecto fue desarrollado por Tyler Burle...
hace 6 meses
02.7K
Maestro:简化主流开源视觉语言模型微调过程的工具

Maestro: una herramienta para simplificar el proceso de ajuste de modelos de los principales lenguajes visuales de código abierto

Introducción Maestro es una herramienta desarrollada por Roboflow para simplificar y acelerar el proceso de ajuste fino de modelos multimodales, de modo que todo el mundo pueda entrenar sus propios macromodelos visuales. Proporciona recetas ya preparadas para el ajuste fino de modelos de lenguaje visual (VLM) populares como F...
hace 6 meses
02.6K
Bilingual Book Maker:使用AI翻译制作双语电子书,全书自动化翻译工具

Bilingual Book Maker: Utiliza la traducción automática para crear libros electrónicos bilingües.

Introducción general Bilingual Book Maker es un proyecto de código abierto diseñado para ayudar a los usuarios a crear versiones multilingües de libros electrónicos utilizando tecnología de IA. La herramienta utiliza principalmente ChatGPT para la traducción y soporta múltiples formatos de archivo, incluyendo epub, txt y srt....
hace 6 meses
02.7K
Rowfill:批量提取文档结构化信息并自动化分析

Rowfill: extracción por lotes de información estructurada de documentos y análisis automatizado

Introducción general Rowfill es una plataforma de procesamiento de documentos de código abierto diseñada para trabajadores del conocimiento. Utiliza técnicas avanzadas de inteligencia artificial para extraer, analizar y procesar datos de documentos complejos, imágenes y PDFs.Rowfill soporta Native Large Language Model (LLM) y Ope...
hace 6 meses
02.3K
PRAG:提升问答系统性能的参数化检索增强生成工具

PRAG: Herramienta paramétrica de generación de aumentos de recuperación para mejorar el rendimiento de los sistemas de preguntas y respuestas.

Introducción exhaustiva PRAG (Parametric Retrieval-Augmented Generation) es una innovadora herramienta de generación aumentada por recuperación que pretende mejorar la generación de conocimiento externo incrustándolo directamente en el espacio de parámetros de un Large Language Model (LLM)....
hace 6 meses
03.5K
GPT Researcher:利用本地和网络数据,生成全面、详实的研究报告

GPT Researcher: Genere informes de investigación completos y detallados utilizando datos locales y de Internet.

Introducción exhaustiva GPT Researcher es una herramienta de agente autónomo basada en el Large Language Model (LLM) diseñada para realizar investigaciones locales y en la web y generar informes de investigación detallados. La herramienta proporciona un rendimiento estable y una mayor velocidad al paralelizar el trabajo del agente, garantizando que la información sea precisa...
hace 4 meses
02.2K
Linly-Talker:数字人智能对话系统,结合大语言模型与视觉模型,实现互动新体验

Linly-Talker: sistema de diálogo inteligente para personas digitales que combina grandes modelos lingüísticos y modelos visuales para nuevas experiencias interactivas.

Introducción general Linly-Talker es un innovador sistema digital de diálogo humano que combina grandes modelos lingüísticos (LLM) con modelos visuales para crear un enfoque novedoso de la interacción persona-ordenador. El sistema integra diversas tecnologías como Whisper, Linly, Micros...
hace 6 meses
02.6K
Airweave:让应用程序快速集成知识库,实现智能搜索

Airweave: aplicaciones que integran rápidamente bases de conocimiento para búsquedas inteligentes

Introducción general Airweave es una herramienta de código abierto diseñada para facilitar la búsqueda en cualquier aplicación mediante la sincronización de los datos de las aplicaciones, API, bases de datos y sitios web del usuario con bases de datos gráficas y vectoriales.
hace 6 meses
02.2K
ai-gradio:轻松集成多种AI模型,基于Gradio构建多模态应用

ai-gradio: integra fácilmente múltiples modelos de IA y crea aplicaciones multimodales basadas en Gradio

Introducción general ai-gradio es un conjunto de herramientas Python de código abierto diseñado para ayudar a los desarrolladores a integrar y utilizar fácilmente múltiples modelos de IA. Construido sobre Gradio, el proyecto proporciona una interfaz unificada para soportar múltiples modelos y servicios de IA. Ya sea texto, voz o vídeo...
hace 6 meses
02.9K
OpenDeepResearcher:自动化深度研究工具,撰写完整的研究报告

OpenDeepResearcher: herramienta automatizada de investigación en profundidad para redactar informes de investigación completos.

Introducción general OpenDeepResearcher es una herramienta de investigación profunda automatizada de código abierto diseñada para mejorar la eficiencia de la investigación mediante técnicas de inteligencia artificial. El proyecto está desarrollado por mshumer y alojado en GitHub.OpenDeepResear...
hace 4 meses
02.7K
ColiVara:基于视觉嵌入的文档存储与检索服务

ColiVara: servicio de almacenamiento y recuperación de documentos basado en incrustación visual

Introducción general ColiVara es un servicio de almacenamiento y recuperación de documentos basado en la tecnología de incrustación visual. Elimina la necesidad de reconocimiento óptico de caracteres (OCR) o extracción de texto y evita los problemas de formularios rotos o imágenes perdidas.ColiVara admite más de 100 formatos de archivo, incluidos PDF...
hace 6 meses
02.6K
Cursor Reset:重置 Cursor 0.45.x 以上版本设备标识的脚本

Restablecer Cursor: Un script para restablecer el identificador de dispositivo para las versiones de Cursor 0.45.x y superiores.

Descripción General Cursor Reset es una herramienta de scripting PowerShell para resetear identificadores de dispositivos en el IDE de Cursor, soportando la versión 0.45.x de Cursor. La herramienta está diseñada para ayudar a los usuarios a restablecer los identificadores de dispositivo en el IDE de Cursor....
hace 6 meses
03.8K
n8n自托管AI入门套件:快速搭建本地AI环境的开源模板

n8n Self-hosted AI Starter Kit: una plantilla de código abierto para crear rápidamente un entorno local de IA

Introducción completa El n8n Self-Hosted AI Starter Kit es una plantilla Docker Compose de código abierto diseñada para inicializar rápidamente una IA local completa y un entorno de desarrollo de código bajo. Creado por el equipo de n8n, el paquete combina la plataforma autoalojada n8n con una gama de...
hace 6 meses
03.2K
Gemini Teacher:英语口语发音纠正助手

Gemini Teacher: Asistente de corrección de la pronunciación en inglés

Introducción general Gemini Teacher es un asistente para practicar la pronunciación en inglés basado en la IA Gemini de Google. Reconoce la pronunciación inglesa del usuario en tiempo real y proporciona sugerencias de corrección y comentarios instantáneos. La herramienta está diseñada para ayudar a los usuarios a...
hace 6 meses
02.7K
bilive:B站无人监守直播录制与自动切片、上传工具

bilive: grabación en directo no supervisada y autocorte, herramienta de carga para la estación B

Introducción bilive es una herramienta diseñada para la grabación en directo de estaciones B, que proporciona una grabación en directo extremadamente rápida, corte automático, renderización de ventanas emergentes y generación de subtítulos. La herramienta es compatible con máquinas de configuración ultrabaja, soporta grabación desatendida 7x24 horas, identifica y renderiza automáticamente pop-ups y subtítulos, trocea y...
hace 6 meses
02.7K
R1-V:低成本强化学习实现视觉语言模型泛化能力

R1-V: Aprendizaje por refuerzo de bajo coste para la capacidad de generalización de modelos de lenguaje visual

Introducción exhaustiva R1-V es un proyecto de código abierto cuyo objetivo es lograr avances en el modelado del lenguaje visual (VLM) mediante el aprendizaje por refuerzo (RL) de bajo coste. El proyecto utiliza mecanismos de recompensa verificables para motivar a los VLM a aprender habilidades genéricas de conteo. Sorprendentemente, R1-V's 2B ...
hace 6 meses
02.9K
PPTX2MD:将PPTX文件转换为Markdown的专用工具

PPTX2MD: Herramienta especial para convertir archivos PPTX a Markdown

Introducción general PPTX2MD es una herramienta de código abierto diseñada para convertir archivos PPTX de PowerPoint al formato Markdown. Desarrollada por el usuario de GitHub ssine, la herramienta permite conservar los encabezados, las listas, el formato del texto (por ejemplo, negrita, cursiva, colores y super...
hace 6 meses
02.3K
DSPy Examples:展示DSPy功能的实用示例

Ejemplos DSPy: Ejemplos prácticos que demuestran la funcionalidad de DSPy

Introducción general La base de código de ejemplos DSPy es una base de código GitHub mantenida por el equipo de IA de Langtrace que muestra una variedad de programas de IA de ejemplo construidos con DSPy. La base de código está diseñada para demostrar las muchas características de DSPy a través de ejemplos del mundo real para ayudar a los...
hace 6 meses
02.8K
CoT-Lab:探索人机协作迭代思考的实验性对话工具

CoT-Lab: una herramienta de diálogo experimental para explorar el pensamiento iterativo sobre la colaboración persona-ordenador.

CoT-Lab es una interfaz experimental para explorar nuevos paradigmas en la colaboración entre humanos y ordenadores. Basado en la Teoría de la Carga Cognitiva y los Principios del Aprendizaje Activo, CoT-Lab facilita una profunda alineación cognitiva entre humanos e Inteligencia Artificial (IA) mediante la creación de relaciones de "compañero pensante". El proyecto pretende...
hace 6 meses
02.2K
Orate:集成知名语音生成、语音转录与变声模型的统一API

Orate: una API unificada para integrar la generación de voz bien conocida, la transcripción de voz y el modelado de voz

Introducción general Orate es un conjunto de herramientas de IA centrado en la generación y transcripción de voz. Proporciona una API unificada que se integra a la perfección con los principales proveedores de IA, como OpenAI, ElevenLabs y AssemblyAI, para ayudar a...
hace 6 meses
02.9K
Reflex LLM Examples:展示大语言模型实际应用的AI应用集合

Ejemplos de Reflex LLM: una colección de aplicaciones de IA que demuestran la aplicación práctica de grandes modelos lingüísticos

Introducción general Reflex LLM Examples es un proyecto de código abierto creado por el equipo de desarrollo de Reflex para demostrar aplicaciones prácticas del Large Language Model (LLM). El proyecto reúne varias aplicaciones de IA construidas sobre Reflex, mostrando aplicaciones de Googl...
hace 6 meses
02.1K
DeepClaude:融合DeepSeek R1链式推理与Claude创造力的聊天界面

DeepClaude: una interfaz de chat que fusiona el razonamiento en cadena R1 de DeepSeek con la creatividad de Claude

Introducción exhaustiva DeepClaude es una API de inferencia e interfaz de chat de alto rendimiento de Large Language Model (LLM) que integra las capacidades de inferencia encadenada (CoT) de DeepSeek R1 con la creatividad y generación de código del modelo antrópico Claude....
hace 6 meses
03.5K
BEN2:从图像、视频中快速移除背景的深度学习模型

BEN2: modelo de aprendizaje profundo para eliminar rápidamente el fondo de imágenes y vídeos

Introducción exhaustiva BEN2 (Background Erase Network 2) es un modelo de aprendizaje profundo desarrollado por Prama LLC específicamente diseñado para eliminar automáticamente el fondo de una imagen y generar una imagen en primer plano. El modelo utiliza un innovador algoritmo de Confiden...
hace 2 meses
03.8K
AI Web Operator:浏览器自动化操作,OpenAI Operator的开源实现

AI Web Operator: Automatización de navegadores, implementación de código abierto de OpenAI Operator

Introducción general AI Web Operator es una herramienta de código abierto AI navegador operador diseñado para simplificar la experiencia del usuario en el navegador mediante la integración de múltiples tecnologías de IA y SDKs. La herramienta se basa en Browserbase y Vercel....
hace 6 meses
02.8K
LLM API Engine:通过自然语言快速生成和部署API

LLM API Engine: generación y despliegue rápidos de API mediante lenguaje natural

Introducción general LLM API Engine es un proyecto de código abierto diseñado para ayudar a los desarrolladores a crear y desplegar rápidamente API impulsadas por IA.El proyecto aprovecha el Large Language Model (LLM) y las tecnologías de rastreo web inteligente para permitir a los usuarios crear API personalizadas a través de descripciones en lenguaje natural.Su principal...
hace 6 meses
02.2K
PengChengStarling:对比Whisper-Large v3更小、更快的多语言语音转文字工具

PengChengStarling: herramienta multilingüe de conversión de voz a texto más pequeña y rápida que Whisper-Large v3

Introducción completa PengChengStarling (PengCheng Labs) es una herramienta multilingüe de reconocimiento automático del habla (ASR) capaz de convertir el habla en distintos idiomas en el texto correspondiente. Este conjunto de herramientas se ha desarrollado a partir del proyecto icefall y proporciona un proceso completo de reconocimiento del habla...
hace 6 meses
02.3K
Doc2XAPITranslate:文档全文翻译:快速将英文PDF/MD论文翻译为中文文档

Doc2XAPITranslate: traducción de documentos a texto completo: traduce rápidamente documentos PDF/MD ingleses a documentos chinos.

Introducción completa Doc2XAPITranslate es una potente herramienta de traducción de documentos de texto completo diseñada para traducir rápidamente documentos PDF o Markdown en inglés a documentos chinos. La herramienta es compatible con una variedad de traductores, incluyendo DeepSeek, OpenAI, O...
hace 6 meses
02.6K
SpeechGPT 2.0-preview:实时交互的端到端拟人语音对话大模型

SpeechGPT 2.0-preview: un macromodelo de diálogo antropomórfico de extremo a extremo para la interacción en tiempo real

SpeechGPT 2.0-preview es el primer sistema antropomórfico de interacción en tiempo real introducido por OpenMOSS, que se entrena basándose en millones de horas de datos de habla. El sistema está equipado con una expresión hablada antropomórfica y una respuesta de baja latencia de 100 ms, lo que...
hace 6 meses
02.8K
Goose:开源可扩展的编程智能体,自动化执行编程全流程任务

Goose: inteligencias de programación escalables de código abierto que automatizan tareas de programación de procesos completos.

Introducción general Goose es una herramienta de agente de IA de código abierto desarrollada por Block, Inc. diseñada para ayudar a los desarrolladores a automatizar las tareas de desarrollo cotidianas. Es compatible con una amplia gama de modelos de lenguaje de gran tamaño (LLM) e interactúa con los usuarios a través de la línea de comandos o interfaces de aplicaciones de escritorio.Goose puede realizar una amplia gama de tareas de agente...
hace 6 meses
04K
Onlook:面向前端设计开源Cursor,在React应用中设计并发布代码

Onlook: Cursor de código abierto para el diseño front-end, diseñar y publicar código en aplicaciones React.

Introducción general Onlook es una herramienta de diseño de código abierto construida para diseñadores y desarrolladores que permite a los usuarios diseñar directamente en una aplicación React en ejecución y convertir los cambios de diseño en código. La herramienta proporciona una experiencia de edición visual intuitiva similar a Figma o Webf...
hace 6 meses
02.4K
YuE:将歌词转化为完整歌曲的基础模型,支持多种音乐风格

YuE: transforma la letra en un modelo base de una canción completa, compatible con una amplia gama de estilos musicales.

Introducción general YuE es un modelo base de generación de canciones completas de código abierto que se centra en transformar letras de canciones en canciones completas. A diferencia de otros modelos que sólo generan fragmentos cortos de música no vocal, YuE es capaz de generar canciones completas con voz principal y coros de hasta varios minutos de duración. El modelo aborda la generación de música en...
hace 6 meses
03.3K
Supermemory:导入书签和网页内容构建个人知识库

Supermemoria: importar marcadores y contenidos web para crear una base de conocimientos personal

Introducción general Supermemory es un proyecto de código abierto diseñado para ayudar a los usuarios a construir su "segundo cerebro". Con una potente extensión de Chrome y tecnología de IA, permite a los usuarios guardar, organizar y recuperar fácilmente datos de páginas web, marcadores de Twitter...
hace 6 meses
02.9K
Open NotebookLM:将PDF转换为播客的开源工具

Open NotebookLM: convierta PDF en podcasts de herramientas de código abierto

Introducción general Open NotebookLM es un proyecto de código abierto diseñado para convertir cualquier documento PDF en un podcast. La herramienta utiliza modelos de código abierto Large Language Model (LLM) y Text-to-Speech (TTS) para procesar contenidos PDF y generar diálogos naturales adecuados para podcasts de audio....
hace 6 meses
02.7K
Lux:几乎支持所有视频平台的命令行视频下载器

Lux: descargador de vídeo por línea de comandos compatible con casi todas las plataformas de vídeo

Introducción general Lux es una biblioteca de descarga de vídeo rápida y sencilla y una herramienta de línea de comandos escrita en Go. Soporta la descarga de vídeos de múltiples sitios web, incluyendo YouTube, Bilibili, Youku, etc. Lux ofrece una variedad de opciones de descarga y características, tales como la descarga multi-hilo....
hace 6 meses
02.2K
MNN-LLM-Android:MNN 多模态语言模型的安卓应用

MNN-LLM-Android: modelado lingüístico multimodal MNN para Android

Introducción exhaustiva MNN (Mobile Neural Network) es un marco de aprendizaje profundo eficiente y ligero desarrollado por Alibaba y optimizado para dispositivos móviles.MNN no solo es capaz de realizar inferencias rápidas en dispositivos móviles, sino que también admite tareas multimodales, incluida la generación de texto....
hace 6 meses
03.3K
AI RSS生成器:通过AI将网页内容转换为RSS订阅源的工具

AI RSS Generator: una herramienta para convertir contenidos web en canales RSS mediante IA

Introducción general AI RSS es una herramienta innovadora para convertir contenidos web en fuentes RSS mediante tecnología de IA. Consta de dos partes principales: un complemento del navegador y un servidor. El complemento del navegador permite a los usuarios seleccionar listas de páginas web y generar archivos de descripción de datos estructurados (SDD)...
hace 7 meses
02.6K
UltraRAG:一站式RAG系统解决方案,简化数据构建与模型微调

UltraRAG: una solución integral del sistema RAG para simplificar la construcción de datos y el ajuste de modelos

Introducción exhaustiva UltraRAG es una solución de sistema RAG (Retrieval Augmented Generation) propuesta conjuntamente por el grupo THUNLP de la Universidad de Tsinghua, el grupo NEUIR de la Universidad Northeastern, Modelbest.Inc y el equipo 9#AISoft. El marco se basa en el despliegue ágil y la construcción modular...
hace 7 meses
02.2K
Llasa 1~8B:高品质语音生成和克隆的开源文本转语音模型

Llasa 1~8B: un modelo de conversión de texto en habla de código abierto para la generación y clonación de habla de alta calidad

Introducción general Llasa-3B es un modelo de conversión de texto a voz (TTS) de código abierto desarrollado por el Laboratorio de Audio de la Universidad de Ciencia y Tecnología de Hong Kong (HKUST Audio). El modelo se basa en la arquitectura Llama 3.2B, que ha sido cuidadosamente ajustada para proporcionar una generación de voz de alta calidad que no sólo soporta múltiples...
hace 6 meses
03.2K
Fast GraphRAG:高准确率且低成本的图形化检索增强生成工具

Fast GraphRAG: una herramienta de generación de mejoras de búsqueda gráfica de gran precisión y bajo coste

Introducción completa Fast GraphRAG es una herramienta de código abierto desarrollada por Circlemind AI para permitir una generación de aumento de recuperación (RAG) eficiente y precisa mediante algoritmos de grafos de conocimiento y PageRank. La herramienta se adapta de forma inteligente al uso que el usuario...
hace 7 meses
02.4K