Proyecto AI de código abierto

Total 1020 artículos
IOPaint:全能AI图像处理工具,擦除、扩图、替换元素与绘制文本

IOPaint: Herramienta polivalente de tratamiento de imágenes AI, borrado, ampliación, sustitución de elementos y dibujo de texto.

Introducción general IOPaint es una herramienta de procesamiento de imágenes de IA gratuita y de código abierto que permite borrar, reparar y ampliar imágenes. Utiliza modelos de IA de última generación para ayudar a los usuarios a eliminar fácilmente objetos no deseados de las imágenes, reparar defectos, añadir nuevos contenidos e incluso expandir imágenes.IOPa...
hace 10 meses
011.2K
Auto-Deep-Research:多Agent协作执行文献查询并生成研究报告

Auto-Deep-Research: colaboración multiagente para realizar búsquedas bibliográficas y generar informes de investigación

Introducción general Auto-Deep-Research es una herramienta de IA de código abierto desarrollada por el Laboratorio de Inteligencia de Datos de la Universidad de Hong Kong (HKUDS), cuyo objetivo es ayudar a los usuarios a automatizar tareas de investigación en profundidad. Se basa en el marco AutoAgent y admite múltiples modelos lingüísticos de gran tamaño...
hace 4 meses
04.6K
Cherry Studio:集成API/Web/本地模型的AI助手桌面客户端

Cherry Studio: cliente de escritorio para asistentes de inteligencia artificial con modelos API/Web/locales integrados

Introducción general Cherry Studio es un cliente de escritorio que admite una amplia gama de servicios de Large Language Model (LLM) y es compatible con sistemas Windows, Mac y Linux. Ofrece numerosas opciones de personalización y funciones de vanguardia diseñadas para ayudar a los usuarios en una amplia gama de...
hace 6 meses
04.3K
Riona-AI-Agent:社交媒体自动化互动智能体,自动搜索、点赞、留言

Riona-AI-Agent: inteligencias interactivas automatizadas en redes sociales que buscan, dan a me gusta y dejan mensajes automáticamente.

Introducción general Riona-AI-Agent es una innovadora herramienta de automatización impulsada por IA diseñada específicamente para gestionar y optimizar las operaciones de las principales plataformas de medios sociales. El proyecto utiliza modelos avanzados de IA para plataformas como Instagram, Twitter y GitHub con el fin de proporcionar...
hace 6 meses
04.2K
FaceFusion:视频换脸增强工具|语音同步视频嘴型动作

FaceFusion: Video Face Swap Enhancement Tool | Voice Sync Video Mouth Moves

Descripción general FaceFusion es una plataforma en la nube de última generación con intercambio y mejora facial integrados, optimizada para el intercambio de imagen a vídeo e imagen a imagen, con 5 modelos profesionales para garantizar un resultado impecable. Además, realiza la mejora facial con 7 modelos utilizando 3...
hace 6 meses
04.1K
CosyVoice:阿里推出的3秒急速语音克隆开源项目,支持情感控制标签

CosyVoice: Ali lanza un proyecto de código abierto de clonación de voz en 3 segundos con soporte para etiquetas controladas emocionalmente.

Introducción CosyVoice es un modelo multilingüe de generación de voz a gran escala que ofrece capacidades completas, desde la inferencia y el entrenamiento hasta el despliegue. Desarrollado por el equipo FunAudioLLM, su objetivo es lograr un habla de alta calidad mediante transformadores autorregresivos avanzados y modelos de difusión basados en ODE....
hace 6 meses
04K
EXO:利用闲置家用设备运行分布式AI集群,支持多种推理引擎和自动设备发现。

EXO: Ejecución de clústeres de IA distribuidos utilizando dispositivos domésticos inactivos, con soporte para múltiples motores de inferencia y descubrimiento automatizado de dispositivos.

Introducción general Exo es un proyecto de código abierto diseñado para ejecutar su propio clúster de IA utilizando dispositivos cotidianos (por ejemplo, iPhone, iPad, Android, Mac, Linux, etc.). Mediante la partición dinámica de modelos y el descubrimiento automatizado de dispositivos, Exo es capaz de unificar múltiples dispositivos en un potente...
hace 8 meses
03.4K
cognee:基于知识图谱构建的RAG开源框架,核心prompts学习

cognee: un marco RAG de código abierto para la construcción basada en grafos de conocimiento, aprendizaje de prompts básicos

Introducción general Cognee es una solución de capa de datos fiable diseñada para aplicaciones de IA y agentes de IA. Diseñado para cargar y construir contextos LLM (Large Language Models) para crear soluciones de IA precisas e interpretables a través de grafos de conocimiento y almacenes de vectores. El marco de trabajo favorece el ahorro de costes,...
hace 7 meses
03.4K
OpenHands:AI 驱动的软件开发多智能代理助手,覆盖开发者各类操作

OpenHands: agente asistente multiinteligente para el desarrollo de software basado en IA, que cubre todos los tipos de operaciones de los desarrolladores.

Introducción general OpenHands es un proyecto de código abierto desarrollado por el equipo All-Hands-AI para agilizar el proceso de desarrollo de software a través de la tecnología de IA. Anteriormente conocida como OpenDevin y ahora rebautizada como OpenHands, la plataforma proporciona potentes...
hace 7 meses
03.4K
视频分析工具(Video Analyzer):分析视频内容并生成详细描述

Analizador de vídeo: analiza el contenido de los vídeos y genera descripciones detalladas.

Comprehensive Introduction Video Analyzer es una completa herramienta de análisis de vídeo que combina técnicas de visión por ordenador, transcripción de audio y procesamiento del lenguaje natural para generar descripciones detalladas del contenido del vídeo. La herramienta transcribe el contenido de audio extrayendo fotogramas clave del vídeo....
hace 6 meses
03.4K
MuseV+Muse Talk:完整数字人视频生成框架|人像转视频|姿态转视频|唇形同步

MuseV+Muse Talk: Marco completo de generación de vídeo humano digital | Retrato a vídeo | Pose a vídeo | Sincronización de labios

Introducción general MuseV es un proyecto público en GitHub cuyo objetivo es la generación de vídeo avatar de longitud ilimitada y alta fidelidad. Se basa en la tecnología de difusión y proporciona Image2Video, Text2Image2Video, Video2Video...
hace 8 meses
03.4K
Cobalt:万能视频下载器,YouTube、Vimeo、Twitter、Reddit、SoundCloud等

Cobalt: descargador universal de vídeos, YouTube, Vimeo, Twitter, Reddit, SoundCloud ¡y mucho más!

Introducción general A menudo tengo que descargar vídeos de YouTube y Twitter, así que encontré este descargador de vídeo gratuito y sin publicidad.Cobalt es un descargador multimedia de código abierto diseñado para proporcionar una experiencia de descarga fácil de usar. Admite la descarga de contenidos de vídeo y audio desde múltiples plataformas, incluyendo...
hace 8 meses
03.4K
Page Assist:本地AI模型对话与检索文档的网页助手插件

Page Assist: complemento del asistente web para el diálogo nativo con modelos de IA y la recuperación de documentos

Introducción general Page Assist es una extensión de navegador de código abierto diseñada para proporcionar a los usuarios una forma sencilla de interactuar con modelos locales de IA. Con esta extensión, los usuarios pueden abrir una barra lateral en cualquier página web para interactuar con modelos de IA que se ejecutan localmente.Page Assi...
hace 4 meses
03.3K
Dify:生成式AI应用开发平台,可视化编排, 支持私有化部署

Dify: Plataforma de desarrollo de aplicaciones de IA generativa, orquestación visual, soporte de despliegue privado

Introducción completa Dify es una plataforma de desarrollo de aplicaciones de IA generativa de código abierto diseñada para ayudar a los desarrolladores a construir y operar rápidamente aplicaciones nativas de IA basadas en Grandes Modelos de Lenguaje (LLMs). La plataforma proporciona todo, desde la construcción de agentes hasta la orquestación de flujos de trabajo de IA, la recuperación de RAG...
hace 7 meses
03.3K
GitDiagram:可视化GitHub代码库结构,将代码仓库转换为交互式系统架构图

GitDiagram: Visualiza la estructura de los repositorios de código de GitHub y transforma los repositorios de código en diagramas interactivos de arquitectura de sistemas.

Introducción general GitDiagram es una innovadora herramienta de visualización de la base de código de GitHub que transforma rápidamente cualquier repositorio de GitHub en un diagrama interactivo de la arquitectura del sistema. Utiliza tecnología avanzada de IA (Claude 3.5 Sonnet) para proporcionar a los desarrolladores...
hace 7 meses
03.3K
Ollama OCR:使用Ollama中视觉模型提取图像中的文本

Ollama OCR: Extracción de texto de imágenes mediante modelos visuales en Ollama

Introducción general Ollama OCR es un potente kit de herramientas de reconocimiento óptico de caracteres (OCR) que utiliza el modelo de lenguaje visual de última generación proporcionado por la plataforma Ollama para extraer texto de imágenes. El proyecto está disponible como paquete Python y proporciona una interfaz Strea...
hace 7 meses
03.2K
Continue:与VS Code集成并自定义模型和embedding的开源AI代码助手

Continue: un asistente de código de IA de código abierto que se integra con VS Code y personaliza modelos e incrustaciones.

Introducción general Continue es un asistente de código de IA de código abierto diseñado para mejorar la eficiencia de los desarrolladores de software. Sus principales características incluyen autocompletado de código, optimización de código y sugerencias inteligentes de código para VS Code y JetBrains IDEs.Continue hace...
hace 6 meses
03.2K
Wav2Lip:开源高精度口型同步生成工具(推荐)

Wav2Lip: herramienta de código abierto para generar sincronías labiales de alta precisión (recomendado)

Introducción general Wav2Lip es una herramienta de código abierto de generación de sincronización labial de alta precisión diseñada para sincronizar con precisión audio arbitrario con la sincronización labial en vídeo. La herramienta fue desarrollada por Rudrabha Mukhopadhyay et al. en ACM Multimedia 20...
hace 7 meses
03.2K
Browser Use Web UI:运行AI智能体浏览网页,让AI能够自动操作网页的开源框架

Browser Use Web UI: un marco de código abierto para ejecutar inteligencias IA para navegar por la web, permitiendo a la IA manipular automáticamente las páginas web.

Introducción general Browser Use Web UI es un innovador proyecto de código abierto centrado en proporcionar a los agentes de IA capacidades de interacción con el navegador como herramienta de interfaz gráfica. El proyecto está construido sobre el núcleo del framework browser-use, construido con Gradio ...
hace 2 meses
03.2K
Smolagents: proyecto de código abierto para el desarrollo rápido de inteligencias de IA y la construcción ligera de inteligencias

Smolagents: proyecto de código abierto para el desarrollo rápido de inteligencias de IA y la construcción ligera de inteligencias

Introducción completa Smolagents es una biblioteca ligera de agentes inteligentes desarrollada por HuggingFace que se centra en simplificar el proceso de desarrollo de sistemas de agentes de IA. El proyecto es conocido por su simplicidad en la filosofía de diseño, con sólo alrededor de 1000 líneas de código del núcleo, sin embargo, proporciona potentes capacidades de integración de características. Es más ...
hace 7 meses
03.2K
Screenshot to Code:将截图转换为干净前端代码的AI工具

Screenshot to Code: herramienta de AI para convertir capturas de pantalla en código front-end limpio.

Introducción general Screenshot-to-Code es una herramienta de código abierto que utiliza inteligencia artificial para convertir capturas de pantalla, borradores de diseño y diseños Figma en código limpio y funcional. La herramienta soporta múltiples tecnologías front-end, incluyendo HTML, Tailwind CS...
hace 9 meses
03.2K
Easy-Wav2Lip:高质量视频唇同步的工具,优化版Wav2Lip

Easy-Wav2Lip: herramienta para la sincronización labial de vídeo de alta calidad, optimizada para Wav2Lip

Introducción general Easy-Wav2Lip es una herramienta mejorada basada en Wav2Lip diseñada para simplificar el proceso de sincronización labial de vídeo. La herramienta ofrece una configuración e implementación más sencillas con soporte para Google Colab e instalación local. Mediante la optimización del algoritmo, Ea...
hace 8 meses
03.2K
PDFMathTranslate:保留PDF完整排版的AI翻译工具

PDFMathTranslate: herramienta de traducción automática que conserva toda la tipografía de los PDF

Introducción completa PDFMathTranslate es una herramienta de código abierto centrado en la traducción de artículos científicos , documentos PDF se pueden traducir en su totalidad y generar una versión bilingüe . Utiliza la tecnología AI para conservar el diseño completo del documento original , incluyendo fórmulas , diagramas , tablas de contenido y notas , soporte ...
hace 2 meses
03.1K
PraisonAI:低代码多智能体框架,简化复杂任务的自动化解决方案

PraisonAI: un marco de trabajo de bajo código para organismos multiinteligentes que simplifica las soluciones de automatización de tareas complejas

Introducción completa PraisonAI es un marco de cuerpo multi-inteligencia out-of-the-box para entornos de producción, diseñado para crear inteligencias AI para automatizar y resolver problemas que van desde tareas simples a desafíos complejos. El marco proporciona una solución de bajo código que simplifica la construcción de sistemas LLM de cuerpos multi-inteligentes y...
hace 6 meses
03K
XHS-Downloader:免费小红书数据采集工具,支持笔记批量下载、视频提取、图片去水印

XHS-Downloader: herramienta gratuita de recopilación de datos de Xiaohongshu, descarga por lotes de notas de apoyo, extracción de vídeo, marca de agua de imágenes

Introducción General XHS-Downloader es una herramienta de código abierto diseñada para los usuarios de Xiaohongshu para apoyar la extracción y descarga de imágenes sin marca de agua y obras de vídeo en Xiaohongshu. La herramienta proporciona una variedad de características, incluyendo la obtención de cookies de los navegadores, soporte para operaciones de línea de comandos, descarga por lotes...
hace 12 meses
03K
Browser-Use:构建智能网页自动化工具,让AI智能体轻松操作浏览器

Browser-Use: creación de herramientas inteligentes de automatización web para que las inteligencias artificiales manejen fácilmente los navegadores

Introducción exhaustiva Browser-Use es una innovadora herramienta de automatización web de código abierto diseñada específicamente para permitir que los modelos lingüísticos (LLM) interactúen de forma natural con los sitios web. Proporciona un marco potente y flexible que admite una amplia gama de modelos lingüísticos convencionales, como GPT-4, Claud...
hace 8 meses
03K
OpenBB:开源金融数据分析平台,集成私有数据集和 AI 来增强投资决策

OpenBB: Plataforma de análisis de datos financieros de código abierto que integra conjuntos de datos privados e IA para mejorar la toma de decisiones de inversión.

Introducción general OpenBB es una plataforma de análisis de datos financieros gratuita y de código abierto diseñada para facilitar el acceso a datos financieros y herramientas de análisis para todos. La plataforma integra más de 100 fuentes de datos diferentes que cubren acciones, opciones, criptomonedas, divisas, indicadores macroeconómicos,...
hace 7 meses
03K
FunASR:开源语音识别工具包,说话人分离/ 多人对话语音识别

FunASR: kit de herramientas de reconocimiento del habla de código abierto, separación de hablantes/reconocimiento del habla en diálogos multipersona

Introducción FunASR es un conjunto de herramientas de reconocimiento del habla de código abierto desarrollado por la Academia Alibaba Dharmo para unir la investigación académica y las aplicaciones industriales. Es compatible con una amplia gama de funciones de reconocimiento del habla, incluido el reconocimiento del habla (ASR), la detección del punto final de la voz (VAD), la recuperación de la puntuación, el modelado del lenguaje, el habla...
hace 10 meses
03K
TableGPT2:表格数据集成的多模态模型

TableGPT2: un modelo multimodal para la integración de datos tabulares

Introducción general TableGPT2 es un modelo multimodal desarrollado por un equipo de la Universidad de Zhejiang, centrado en la integración y el procesamiento de datos tabulares. El modelo está preentrenado y perfeccionado para poder realizar tareas relacionadas con datos de tablas, al tiempo que mantiene unas sólidas capacidades de lenguaje y codificación de propósito general.TableGP...
hace 9 meses
03K
Paperless-AI:使用AI自动分析和标记文档,适用 paperless-ngx 文档管理系统

Paperless-AI: análisis y etiquetado automático de documentos mediante IA para el sistema de gestión documental paperless-ngx

Introducción general Paperless-AI es una innovadora herramienta de análisis de automatización de documentos diseñada específicamente para el sistema de gestión documental Paperless-ngx. Combina inteligentemente la API OpenAI con una variedad de modelos avanzados de IA como Ollama...
hace 7 meses
03K
ComfyUI Portrait Master 中文版:优化肖像生成的提示词工具

ComfyUI Portrait Master versión china: Herramienta de palabras clave para optimizar la generación de retratos

Introducción General ComfyUI Portrait Master versión China es una herramienta de generación de palabras clave para retratos diseñada para creadores de imágenes AI. La herramienta ayuda a los usuarios a generar retratos de alta calidad mediante la optimización de las palabras clave. Los usuarios pueden elegir diferentes lentes según la demanda...
hace 11 meses
03K
AsrTools:语音转字幕工具,内置剪映、快手、必剪接口的轻量客户端

AsrTools: herramienta de conversión de voz en subtítulos, cliente ligero con interfaces integradas para Cutscene, Racer y Must-Cut.

Introducción completa AsrTools es una herramienta inteligente de voz a texto con interfaces incorporadas de grandes jugadores como Cutscene, QuickScope y MustScope, que soporta procesamiento por lotes multihilo eficiente sin necesidad de GPU o configuraciones tediosas. Se basa en el desarrollo PyQt5, interfaz hermosa y fácil de usar, capaz de salida SRT y TXT palabras de formato ...
hace 10 meses
03K
Marker:快速将PDF转换为Markdown的开源工具

Marker: herramientas de código abierto para convertir rápidamente PDF a Markdown

Introducción general Marker es una herramienta de procesamiento de documentos basada en aprendizaje profundo diseñada para convertir archivos PDF a formato Markdown de forma rápida y precisa. Es compatible con una amplia gama de tipos de documentos y está especialmente optimizado para la conversión de libros y artículos científicos.Marker es capaz de eliminar los encabezados...
hace 5 meses
02.9K
腾讯混元3D(Hunyuan3D):生成高分辨率3D资产,多种3D素材生成工作流

Tencent Hybrid 3D (Hunyuan3D): generación de activos 3D de alta resolución, múltiples flujos de trabajo de generación de materiales 3D

Introducción Tencent Hunyuan3D (Hunyuan3D 2.0) es un avanzado sistema de composición 3D a gran escala de Tencent diseñado para generar activos 3D texturizados de alta resolución. El sistema consta de dos componentes principales: Hunyuan3D-DiT, un modelo de generación de formas a gran escala, y Hunyuan3D-DiT, un...
hace 7 meses
02.9K
Memary:利用知识图谱增强Agent长期记忆的开源项目

Memary: un proyecto de código abierto para mejorar la memoria a largo plazo del Agente mediante grafos de conocimiento

Introducción general Memary es un innovador proyecto de código abierto centrado en proporcionar soluciones de gestión de memoria a largo plazo para inteligencias autónomas. El proyecto ayuda a las inteligencias a superar las limitaciones de las ventanas contextuales tradicionales para lograr experiencias de interacción más inteligentes mediante grafos de conocimiento y módulos de memoria especializados.Memary adopta...
hace 7 meses
02.9K
Surya:专业多语言文档OCR工具,开源本地部署

Surya: Herramienta profesional de OCR de documentos multilingües, de código abierto y despliegue nativo

Introducción completa Surya es un conjunto de herramientas de OCR de documentos multilingües de código abierto que admite el reconocimiento de texto en más de 90 idiomas. No sólo realiza la detección de texto línea por línea, sino también el análisis de diseño, la detección del orden de lectura y el reconocimiento de tablas.El rendimiento de Surya es comparable al de los servicios en la nube para todo tipo de...
hace 10 meses
02.9K
ElizaOS:构建自主执行的多智能体,功能完备的开源AI智能体开发框架

ElizaOS: creación de multiinteligentes de ejecución autónoma, un marco de desarrollo de organismos inteligentes de IA de código abierto totalmente funcional

Introducción general Eliza es un marco avanzado de desarrollo de múltiples cuerpos inteligentes (Multi-Agente) , se compromete a simplificar la construcción y el despliegue del proceso de cuerpo inteligente autónomo (Agente Autónomo) . Soporta el despliegue de múltiples cuerpos inteligentes con diferentes configuraciones de roles , puede lograr ...
hace 7 meses
02.9K
AI Hedge Fund:开源自动化交易系统,利用多智能体进行复杂对冲基金交易决策

AI Hedge Fund: sistema de negociación automatizado de código abierto que utiliza inteligencias múltiples para tomar decisiones complejas de negociación en fondos de cobertura.

Introducción general AI Hedge Fund es un fondo de cobertura de inteligencia artificial que utiliza un sistema multiagente para tomar decisiones comerciales. El sistema trabaja en colaboración con varios agentes especializados, como agentes de datos de mercado, agentes cuantitativos, agentes de gestión de riesgos y agentes de gestión de carteras, para...
hace 7 meses
02.9K
Langflow:构建强大AI智能体和工作流的低代码工具

Langflow: una herramienta de bajo código para crear potentes flujos de trabajo e inteligencia artificial

Introducción general Langflow es una herramienta de bajo código diseñada para que los desarrolladores construyan potentes agentes y flujos de trabajo de IA. Es compatible con el uso de cualquier API, modelo o base de datos, lo que simplifica el desarrollo de aplicaciones complejas AI.Langflow proporciona una interfaz visual intuitiva....
hace 8 meses
02.9K
Chatbot UI:模仿ChatGPT界面和功能的开源AI聊天应用程序

Chatbot UI: una aplicación de chat con inteligencia artificial de código abierto que imita la interfaz y las funciones de ChatGPT.

Introducción general Chatbot UI es un proyecto de código abierto diseñado para ayudar a los desarrolladores a crear interfaces conversacionales personalizadas e inteligentes. El proyecto proporciona una serie de componentes de interfaz y funciones interactivas que pueden integrarse fácilmente en el sistema Chatbot existente para ofrecer a los usuarios un cuerpo de diálogo más fluido e inteligente....
hace 11 meses
02.9K
Text generation web UI:基于 Gradio 大语言模型聊天界面,支持多种后端服务

Interfaz web de generación de texto: interfaz de chat basada en modelos lingüísticos de gran tamaño de Gradio y compatible con varios servicios backend.

Introducción general La interfaz web de generación de texto es una interfaz web basada en Gradio diseñada para el Large Language Model (LLM). Soporta una variedad de backends de generación de texto, incluyendo Transformers, llama.cp...
hace 9 meses
02.9K
AI Chatbot Supabase:开源的Next.js和Supabase构建的AI聊天机器人,快速部署到Vercel。

AI Chatbot Supabase: código abierto Next.js y Supabase construyeron AI chatbot para un rápido despliegue en Vercel.

Introducción general AI Chatbot Supabase es una plantilla de chatbot AI de código abierto construida sobre Next.js y Supabase. Desarrollado por Vercel, el proyecto tiene como objetivo proporcionar una solución de chatbot totalmente funcional y personalizable. Por ...
hace 8 meses
02.9K
OpenAI Realtime Agents:多智能体语音交互应用(OpenAI示例)

Agentes en tiempo real de OpenAI: una aplicación multiinteligente de interacción cuerpo-voz (ejemplo de OpenAI)

Introducción General OpenAI Realtime Agents es un proyecto de código abierto que tiene como objetivo mostrar cómo la API en tiempo real de OpenAI se puede utilizar para construir aplicaciones de voz corporal multi-inteligente. Proporciona un modelo de cuerpo inteligente de alto nivel (tomado de OpenAI Swarm) que permite...
hace 7 meses
02.9K
RAGFlow:基于深度文档理解的开源RAG引擎,提供高效的检索增强生成工作流

RAGFlow: un motor RAG de código abierto basado en la comprensión profunda de los documentos, que proporciona flujos de trabajo de generación eficientes y mejorados por la recuperación.

Introducción exhaustiva RAGFlow es un motor de generación aumentada de recuperación (RAG) de código abierto basado en la tecnología de comprensión profunda de documentos. Proporciona un flujo de trabajo RAG eficiente para empresas de todos los tamaños, incorporando un modelo de lenguaje a gran escala (LLM) que puede proporcionar datos en formatos complejos basados en...
hace 7 meses
02.9K
KAG:知识图谱与向量混合检索的专业知识库问答框架

KAG: un marco profesional de preguntas y respuestas sobre bases de conocimiento para la recuperación híbrida de vectores y grafos de conocimiento

Introducción exhaustiva KAG (Knowledge Augmented Generation) es un marco de razonamiento y recuperación guiado por formas lógicas basado en el motor OpenSPG y en grandes modelos lingüísticos (LLM). El marco está diseñado específicamente para construir bases de conocimiento de dominio profesional...
hace 8 meses
02.8K
DeOldify:使用AI技术为黑白照片和视频上色的经典开源工具

DeOldify: la clásica herramienta de código abierto para colorear fotos y vídeos en blanco y negro mediante técnicas de IA

Introducción exhaustiva DeOldify es un proyecto de código abierto basado en tecnología de aprendizaje profundo dedicado a la coloración y restauración inteligente de fotos y vídeos en blanco y negro. El proyecto utiliza un innovador método de entrenamiento NoGAN para resolver con éxito los defectos comunes de las redes GAN tradicionales en el proceso de coloreado de imágenes....
hace 8 meses
02.8K
MinerU:PDF文档提取转换为多模态Markdown格式,支持电子书OCR扫描

MinerU: extracción de documentos PDF y conversión a formato Markdown multimodal, compatibilidad con escaneado OCR de libros electrónicos

Introducción exhaustiva MinerU es una herramienta de extracción de datos de código abierto desarrollada por el equipo OpenDataLab del Laboratorio de Inteligencia Artificial de Shanghai, centrada en la extracción eficiente de contenido de documentos PDF, páginas web y libros electrónicos complejos. Es capaz de tomar PDF multimodales que contengan imágenes, fórmulas, tablas y otros elementos...
hace 10 meses
02.8K
GitIngest:快速将Github代码仓库转为适合LLM理解的文本

GitIngest: Convierta rápidamente los repositorios de código de Github en texto apto para la comprensión del LLM

Introducción general GitIngest es una herramienta de código abierto diseñada para transformar los repositorios de código de GitHub en texto adecuado para las sugerencias de Large Language Model (LLM). Con una sencilla operación, los usuarios pueden extraer y formatear el contenido de cualquier repositorio de GitHub para adaptarlo al LLM...
hace 8 meses
02.8K
AutoGen Studio:多代理系统AutoGen的简易用户界面版

AutoGen Studio: versión con interfaz fácil de usar del sistema multiagente AutoGen

Descripción general AutoGen Studio 2.0 es una interfaz de usuario impulsada por AutoGen diseñada para simplificar el proceso de creación y gestión de soluciones multiagente. La plataforma permite a los usuarios definir y modificar de forma declarativa los agentes y sus flujos de trabajo a través de una interfaz intuitiva....
hace 7 meses
02.8K
LLPlayer:生成实时字幕并双语翻译的视频播放器

LLPlayer: un reproductor de vídeo que genera subtítulos en tiempo real con traducción bilingüe

Introducción general LLPlayer es un reproductor multimedia de código abierto para estudiantes de idiomas, alojado en GitHub y creado por el desarrollador umlx5h. Integra una variedad de características útiles como la visualización de subtítulos bilingües, subtítulos autogenerados por IA, traducción en tiempo real y búsqueda de palabras....
hace 2 meses
02.8K
BuffGPT:企业级生成式AI应用低代码开发平台

BuffGPT: una plataforma de desarrollo de bajo código para aplicaciones de IA generativa de nivel empresarial

Introducción BuffGPT es una plataforma de desarrollo de aplicaciones de IA de código abierto basada en el Large Language Model (LLM), que proporciona funciones listas para usar como el procesamiento de datos, la invocación de modelos, la recuperación RAG y la orquestación visual de flujos de trabajo para ayudar a los usuarios a construir y operar fácilmente aplicaciones de IA generativa. La plataforma admite...
hace 5 meses
02.8K
Chunkr:使用视觉模型进行文档摄取以及根据文本段落层级智能分块的一体化服务

Chunkr: un servicio todo en uno que utiliza modelos visuales para la ingestión de documentos y la agrupación inteligente basada en la jerarquía de párrafos de texto.

Introducción general Chunkr es una API autoalojada dedicada a convertir archivos PDF, PPTX, DOCX y Excel en datos aptos para su uso en RAG (Retrieval Augmented Generation) y LLM (Large Language Modelling). El proyecto fue desarrollado por Lumina...
hace 8 meses
02.8K
Crawl4AI:开源的异步网页爬虫工具,无需LLM提取结构化数据

Crawl4AI: herramienta asíncrona de código abierto para extraer datos estructurados sin LLM

Introducción general Crawl4AI es una herramienta de rastreo web asíncrona de código abierto diseñada para grandes modelos lingüísticos (LLM) y aplicaciones de inteligencia artificial (IA). Simplifica el rastreo web y el proceso de extracción de datos, soporta el rastreo web eficiente, y proporciona formatos de salida LLM-amigable para...
hace 9 meses
02.7K
MMAudio:为视频画面生成同步音效与配乐,视频到音频的多模态联合训练工具

MMAudio: generación de efectos sonoros sincronizados y bandas sonoras para secuencias de vídeo, herramienta de coformación multimodal vídeo-audio.

Introducción general MMAudio es un proyecto de código abierto cuyo objetivo es generar audio sincronizado de alta calidad mediante el entrenamiento multimodal conjunto. Desarrollado por Ho Kei Cheng et al. en la Universidad China de Hong Kong, la función principal del proyecto es generar audio sincronizado a partir de la entrada de vídeo y/o texto.MM...
hace 8 meses
02.7K
LatentSync:用音频直接生成唇形同步视频的开源工具

LatentSync: herramienta de código abierto para generar vídeo con sincronización labial directamente a partir de audio

Introducción general LatentSync es una herramienta de código abierto desarrollada por ByteDance y alojada en GitHub. Controla los movimientos labiales de los personajes de un vídeo directamente a través del audio, de modo que la forma de la boca coincide con la voz con precisión. El proyecto se basa en Stable Di...
hace 2 meses
02.7K
NeoAI:让AI接管电脑远程操作,使用自然语言控制电脑的开源项目

NeoAI: proyecto de código abierto que permite a la IA manejar ordenadores a distancia y controlarlos mediante lenguaje natural

Introducción general NeoAI es una innovadora herramienta de código abierto AI asistente que permite a los usuarios controlar y gestionar fácilmente sus ordenadores a través del diálogo en lenguaje natural. Sin escribir ningún código, los usuarios pueden hacer la búsqueda de archivos, automatización de tareas, gestión de dispositivos y mucho más con sólo el diálogo diario.NeoAI...
hace 7 meses
02.7K
OmniGen:统一图像生成模型,多模态输入生成人物一致性图像

OmniGen: un modelo unificado de generación de imágenes con entradas multimodales para generar imágenes coherentes con los caracteres

Introducción general OmniGen es un modelo "universal" de generación de imágenes desarrollado por VectorSpaceLab que permite a los usuarios crear efectos visuales diversos y contextualmente ricos con simples indicaciones de texto o entradas multimodales. Es especialmente adecuado para aplicaciones que necesitan reconocer...
hace 9 meses
02.7K
Goose:开源可扩展的编程智能体,自动化执行编程全流程任务

Goose: inteligencias de programación escalables de código abierto que automatizan tareas de programación de procesos completos.

Introducción general Goose es una herramienta de agente de IA de código abierto desarrollada por Block, Inc. diseñada para ayudar a los desarrolladores a automatizar las tareas de desarrollo cotidianas. Es compatible con una amplia gama de modelos de lenguaje de gran tamaño (LLM) e interactúa con los usuarios a través de la línea de comandos o interfaces de aplicaciones de escritorio.Goose puede realizar una amplia gama de tareas de agente...
hace 6 meses
02.7K
小智 AI 聊天机器人:打造你的AI聊天伴侣,轻松实现语音对话和智能互动

Xiaozhi AI Chatbot: Construye tu compañero de chat AI, diálogo de voz fácil e interacción inteligente.

Introducción Xiaozhi AI Chatbot es un proyecto de código abierto basado en la placa de desarrollo ESP32, diseñado para ayudar a los usuarios a construir su propio compañero de chat de IA. El proyecto fue desarrollado por Shrimp y se utiliza principalmente con fines didácticos para ayudar a más personas a iniciarse en el desarrollo de hardware de IA y entender cómo aplicar grandes modelos de lenguaje a...
hace 5 meses
02.7K
Model Context Provider CLI:任意大模型中使用MCP服务的命令行工具,不依赖Claude

Model Context Provider CLI: Herramienta de línea de comandos para utilizar los servicios de MCP en cualquier modelo grande, no depende de Claude.

Introducción general La CLI del proveedor de contexto de modelo (mcp-cli) es una herramienta de línea de comandos a nivel de protocolo para interactuar con un servidor de proveedor de contexto de modelo. La herramienta permite a los usuarios enviar comandos, consultar datos e interactuar con diversos recursos proporcionados por el servidor...
hace 5 meses
02.7K
OpenCharacter:开源无审查的Character.AI替代品

OpenCharacter: la alternativa sin censura de código abierto a Character.AI

Introducción general OpenCharacter es una herramienta de creación de personajes de código abierto diseñada para proporcionar a los usuarios una experiencia de creación e interacción de personajes de IA ilimitada y sin filtros como alternativa a Character.AI. Los usuarios pueden crear y ejecutar sus propios personajes utilizando modelos nativos, o...
hace 7 meses
02.7K
VisoMaster:强大且易用的图片/视频换脸和编辑软件

VisoMaster: programa de retoque y edición de fotos y vídeos potente y fácil de usar

Introducción general VisoMaster es una herramienta de edición e intercambio de caras de vídeo potente y fácil de usar que utiliza tecnología de inteligencia artificial para conseguir efectos de intercambio de caras naturales y realistas. Tanto si se trata de una imagen como de un vídeo, VisoMaster puede generar resultados de intercambio de caras de alta calidad con operaciones sencillas, aptas para...
hace 6 meses
02.7K