Proyecto AI de código abierto

Total 1020 artículos
ModelBest(面壁智能):全球领先的轻量高性能端侧大模型

ModelBest: el líder mundial en modelos grandes ligeros y de alto rendimiento de extremo a extremo

Introducción general ModelBest es una empresa centrada en el desarrollo de grandes modelos ligeros y de alto rendimiento, y se dedica a aplicar tecnologías avanzadas de IA a la electrónica de consumo convencional y a todo tipo de dispositivos finales de la vida cotidiana. Su serie MiniCPM de modelos finales con extrema potencia aritmética y eficiencia en el uso de la memoria...
hace 10 meses
03K
Podcastfy:多源内容转多语言音频对话工具,NotebookLM 播客功能的开源替代方案

Podcastfy: Herramienta de conversión de contenidos de múltiples fuentes a audio multilingüe, una alternativa de código abierto a las funciones de podcasting de NotebookLM.

Introducción general Podcastfy es un paquete Python de código abierto que utiliza la tecnología de Inteligencia Artificial Generativa (GenAI) para convertir contenidos web, archivos PDF, texto, imágenes, vídeos de youtube y muchas otras fuentes en...
hace 10 meses
03K
文多多 AiPPT:AI生成PPT,演讲稿生成

Wenduoduo AiPPT: AI Generated PPT, Generación de presentaciones

Introducción completa AiPPT es una herramienta de generación de PPT basada en tecnología de inteligencia artificial, diseñada para ayudar a los usuarios a crear rápidamente presentaciones profesionales. Genera automáticamente diapositivas ricas en contenido y bellamente diseñadas introduciendo temas, cargando archivos o proporcionando URL, etc. Es compatible con gráficos nativos, animaciones y...
hace 6 meses
03.4K
Easegen:开源数字人课程制作平台,PPT一键生成克隆数字人讲解视频

Easegen: plataforma de producción de cursos humanos digitales de código abierto, clonación de vídeos de conferencias humanas digitales de generación PPT con un solo clic

Introducción exhaustiva Easegen es una plataforma de creación de cursos humanos digitales de código abierto que tiene como objetivo mejorar la eficiencia de la producción y gestión de contenidos de enseñanza a través de la tecnología de IA. La plataforma proporciona una solución integral desde la producción de cursos, la gestión de vídeo hasta el interrogatorio inteligente, que permite a los usuarios crear cursos digitales de vídeo explicados por humanos....
hace 10 meses
03.4K
Open Canvas:代码编辑协作画布,开源版OpenAI Canvas/Claude Artifacts

Open Canvas: lienzo colaborativo de edición de código, versión de código abierto de OpenAI Canvas/Claude Artifacts

Introducción general LangChain presenta Open Canvas, una aplicación web de código abierto diseñada para mejorar la experiencia de edición y colaboración de documentos con funcionalidad de memoria de doble agente incorporada y smith integrado para observar todos los detalles de ejecución. La plataforma está impulsada por OpenA...
hace 5 meses
03.7K
AutoGen Studio:多代理系统AutoGen的简易用户界面版

AutoGen Studio: versión con interfaz fácil de usar del sistema multiagente AutoGen

Descripción general AutoGen Studio 2.0 es una interfaz de usuario impulsada por AutoGen diseñada para simplificar el proceso de creación y gestión de soluciones multiagente. La plataforma permite a los usuarios definir y modificar de forma declarativa los agentes y sus flujos de trabajo a través de una interfaz intuitiva....
hace 7 meses
03.9K
MeetingMind:依赖OpenAI Whisper的开源智能会议记录与总结工具

MeetingMind: herramienta inteligente de código abierto para grabar y resumir reuniones basada en OpenAI Whisper

Introducción general MeetingMind es una aplicación de IA avanzada diseñada para mejorar la eficiencia de la captura y el resumen de las reuniones de negocios. La aplicación integra la tecnología Whisper de OpenAI para una conversión precisa de voz a texto y utiliza IBM Watso...
hace 10 meses
03.5K
Coqui TTS(xTTS):文本到语音生成的深度学习工具包,支持多种语言和声音克隆功能

Coqui TTS (xTTS): un conjunto de herramientas de aprendizaje profundo para la generación de texto a voz con soporte multilingüe y capacidades de clonación de voz.

Introducción exhaustiva Coqui TTS es un kit de herramientas avanzado de generación de texto a voz (TTS) de código abierto basado en técnicas de aprendizaje profundo. Se ha puesto a prueba tanto en entornos de investigación como de producción, y ofrece un amplio conjunto de funciones y modelos que admiten la conversión de texto a voz en varios idiomas.Coqui TTS...
hace 6 meses
03.5K
MemFree:本地知识库与搜索信息混合的AI搜索引擎

MemFree: un motor de búsqueda de inteligencia artificial para mezclar bases de conocimiento local e información de búsqueda

Introducción general MemFree es un avanzado motor de búsqueda híbrido de IA capaz de buscar y hacer preguntas a través de texto, imágenes, documentos y páginas web. Proporciona acceso con un solo clic a los resultados de búsqueda de texto, mapas mentales, imágenes y vídeos.MemFree pretende extraer información de la base de conocimientos del usuario y...
hace 10 meses
03.1K
BlinkShot:输入提示词实时生成图像(免费接入Flux Schnell模型)

BlinkShot: generación de imágenes en tiempo real escribiendo palabras clave (acceso gratuito al modelo Flux Schnell)

Descripción general BlinkShot es un generador de imágenes de IA en tiempo real de código abierto que utiliza la tecnología Together AI y Flux Schnell para permitir a los usuarios generar imágenes de alta calidad a medida que introducen indicaciones. La plataforma es completamente gratuita y admite la personalización del usuario y...
hace 10 meses
03.8K
FunASR:开源语音识别工具包,说话人分离/ 多人对话语音识别

FunASR: kit de herramientas de reconocimiento del habla de código abierto, separación de hablantes/reconocimiento del habla en diálogos multipersona

Introducción FunASR es un conjunto de herramientas de reconocimiento del habla de código abierto desarrollado por la Academia Alibaba Dharmo para unir la investigación académica y las aplicaciones industriales. Es compatible con una amplia gama de funciones de reconocimiento del habla, incluido el reconocimiento del habla (ASR), la detección del punto final de la voz (VAD), la recuperación de la puntuación, el modelado del lenguaje, el habla...
hace 10 meses
04.5K
UltraPixel:革新超高分辨率图像生成技术,图像细节丰富

UltraPixel: revolucionaria tecnología de generación de imágenes de altísima resolución con gran riqueza de detalles

Introducción general UltraPixel es una tecnología avanzada de generación de imágenes de ultra alta resolución diseñada para crear imágenes de altísima calidad y ricas en detalles. Fue desarrollada por el usuario de GitHub catcathh y presentada en NeurIPS 2024.U...
hace 10 meses
02.9K
SiYuan(思源笔记):隐私优先的个人知识管理软件,支持AI写作/问答聊天

SiYuan (SiYuan Notes): software de gestión del conocimiento personal que da prioridad a la privacidad, con soporte de chat para la escritura y las preguntas y respuestas mediante inteligencia artificial.

General: SiYuan Notes (SiYuan) es un software de gestión del conocimiento personal que da prioridad a la privacidad, es de código abierto y admite autoalojamiento. Está escrito en TypeScript y Golang, proporciona referencias a nivel de bloque de grano fino y Markdown WYSIWYG (WYSIWY...
hace 6 meses
03.9K
阿布量化交易系统:基于Python的开源量化交易平台

Abu quantitative trading system: plataforma de negociación cuantitativa de código abierto basada en Python

Introducción general Abu Quantitative Trading System es una plataforma de código abierto basada en Python. Fue creada por el usuario "bbfamily" para ayudar a los inversores a aplicar estrategias de negociación cuantitativa mediante código. El sistema soporta backtesting y trading de varios productos financieros como acciones, opciones, futuros y bitcoin. Es...
hace 5 meses
02.5K
Knowledge Table:高效提取与探索结构化数据的开源工具

Knowledge Table: una herramienta de código abierto para la extracción y exploración eficientes de datos estructurados

Introducción exhaustiva Knowledge Table (Tabla de conocimientos) es un proyecto de código abierto diseñado para simplificar el proceso de extracción y exploración de datos estructurados a partir de documentos no estructurados. Los usuarios pueden crear representaciones estructuradas del conocimiento, como tablas y gráficos, mediante una interfaz de consulta en lenguaje natural. La herramienta permite personalizar la extracción ...
hace 10 meses
02.8K
CogView3:智谱轻言开源的级联扩散文本生成图像模型

CogView3: modelo de generación de imágenes por difusión de texto en cascada de código abierto de Wisdom Spectrum

Introducción CogView3 es un sistema avanzado de generación de imágenes de texto desarrollado por la Universidad de Tsinghua y Think Tank Team (Chi Spectrum Qingyan). Se basa en un modelo de difusión en cascada y genera imágenes de alta resolución a través de múltiples etapas.Las características clave de CogView3 incluyen la generación en múltiples etapas, una arquitectura innovadora y un rendimiento eficiente....
hace 10 meses
03K
AsrTools:语音转字幕工具,内置剪映、快手、必剪接口的轻量客户端

AsrTools: herramienta de conversión de voz en subtítulos, cliente ligero con interfaces integradas para Cutscene, Racer y Must-Cut.

Introducción completa AsrTools es una herramienta inteligente de voz a texto con interfaces incorporadas de grandes jugadores como Cutscene, QuickScope y MustScope, que soporta procesamiento por lotes multihilo eficiente sin necesidad de GPU o configuraciones tediosas. Se basa en el desarrollo PyQt5, interfaz hermosa y fácil de usar, capaz de salida SRT y TXT palabras de formato ...
hace 10 meses
04.2K
Surya:专业多语言文档OCR工具,开源本地部署

Surya: Herramienta profesional de OCR de documentos multilingües, de código abierto y despliegue nativo

Introducción completa Surya es un conjunto de herramientas de OCR de documentos multilingües de código abierto que admite el reconocimiento de texto en más de 90 idiomas. No sólo realiza la detección de texto línea por línea, sino también el análisis de diseño, la detección del orden de lectura y el reconocimiento de tablas.El rendimiento de Surya es comparable al de los servicios en la nube para todo tipo de...
hace 10 meses
05.2K
Inbox Zero:轻松实现收件箱零邮件,借助 AI 帮助你对邮件进行归类、过滤、处理。

Inbox Zero: Consigue fácilmente cero correos electrónicos en tu bandeja de entrada, con la ayuda de la IA para ayudarte a categorizar, filtrar y procesar tus correos electrónicos.

Descripción general Inbox Zero es una aplicación de gestión de correo electrónico de código abierto diseñada para ayudar a los usuarios a alcanzar rápidamente la bandeja de entrada cero con un asistente de inteligencia artificial. La aplicación ofrece una gran variedad de funciones, como responder automáticamente, archivar, etiquetar y reenviar correos electrónicos, gestionar y darse de baja de boletines, bloquear correos...
hace 8 meses
02.3K
xyks:小猿口算逆向笔记,逆向工程与解密算法

xyks: pequeño simio cálculo oral notas inversas, ingeniería inversa y algoritmos de descifrado

Introducción completa Ape Mouth Calculator Reverse Notes es un proyecto de código abierto que tiene como objetivo documentar y compartir el proceso y los métodos de ingeniería inversa de la aplicación Ape Mouth Calculator. El proyecto contiene una variedad de herramientas y técnicas inversas para usar las instrucciones , como Frida, dexdump , etc., para ayudar a los usuarios a entender y descifrar la suma aritmética oral del pequeño simio....
hace 10 meses
03.1K
XiaoYuanKouSuan_Auto:小猿口算自动答题工具,高效解决口算题目

XiaoYuanKouSuan_Auto: Herramienta automática de preguntas y respuestas XiaoYuanKouSuan, que resuelve eficazmente temas de aritmética oral.

Introducción completa Ape Mouth Calculator Automatic Question Answer Tool es un proyecto de código abierto basado en Python diseñado para resolver eficientemente las preguntas de la aplicación Ape Mouth Calculator a través de scripts de reconocimiento OCR y automatización. La herramienta hace uso de tecnologías como OpenCV y Tesseract para poder identificar las preguntas en la pantalla en tiempo real....
hace 10 meses
02.8K
Cloud Document Converter:飞书文档下载插件,飞书云文档转换为本地Markdown格式文档

Conversor de documentos en la nube: complemento de descarga de documentos Flying Book, conversión de documentos Flying Book en la nube a documentos locales en formato Markdown.

Introducción general Cloud Document Converter es una extensión de Chrome diseñada para convertir documentos en la nube de Flying Book al formato Markdown. Los usuarios pueden descargar o copiar fácilmente documentos en la nube de Flying Book en formato Markdo...
hace 9 meses
02.7K
QuickPiperAudiobook:一键生成自然音质的有声书,支持PDF、epub、docx等格式

QuickPiperAudiobook: una clave para generar audiolibros con calidad de sonido natural, compatible con PDF, epub, docx y otros formatos.

Introducción completa QuickPiperAudiobook es un proyecto de código abierto diseñado para convertir una variedad de formatos de texto (por ejemplo, epub, mobi, txt, PDF, HTML, etc) en audiolibros de sonido natural a través de un simple comando. La herramienta utiliza Pi...
hace 10 meses
02.8K
Crawl4AI:开源的异步网页爬虫工具,无需LLM提取结构化数据

Crawl4AI: herramienta asíncrona de código abierto para extraer datos estructurados sin LLM

Introducción general Crawl4AI es una herramienta de rastreo web asíncrona de código abierto diseñada para grandes modelos lingüísticos (LLM) y aplicaciones de inteligencia artificial (IA). Simplifica el rastreo web y el proceso de extracción de datos, soporta el rastreo web eficiente, y proporciona formatos de salida LLM-amigable para...
hace 9 meses
03.8K
AIHawk:智能求职助手,自动化投放简历(限英文)

AIHawk: Asistente inteligente de búsqueda de empleo, colocación automatizada de CV (sólo en inglés)

Introducción general Auto_Jobs_Applier_AIHawk es una herramienta para automatizar la búsqueda de empleo utilizando tecnología de inteligencia artificial. Ayuda a los usuarios a automatizar el envío de un gran número de CV en un corto periodo de tiempo y a personalizarlos según su información personal y sus intenciones de búsqueda de empleo. La herramienta está diseñada...
hace 8 meses
03.5K
VoAPI:高颜值的AI模型转发接口管理系统,官网每日提供免费API额度

VoAPI: Sistema de gestión de interfaz de reenvío de modelos de IA de alto valor, el sitio web oficial ofrece cuota API gratuita diaria.

Introducción general VoAPI es un nuevo sistema de gestión y distribución de interfaces de modelos de IA de alto perfil y alto rendimiento, que se utiliza principalmente para la gestión interna y los canales de distribución personales o empresariales. Desarrollado sobre la base de NewAPI, el sistema proporciona módulos funcionales ricos e interfaz de usuario optimizada, con el objetivo de mejorar...
hace 9 meses
02.8K
MockingBird:快速克隆声音与模型训练,基于 xtts v2 实现的文本转语音

MockingBird: clonación de voz rápida y formación de modelos, conversión de texto a voz basada en xtts v2

Introducción completa MockingBird es un proyecto de código abierto que pretende conseguir una rápida clonación de voz y conversión de texto a voz mediante tecnología de IA. Los usuarios sólo tienen que proporcionar 5 segundos de muestras de voz, puede generar cualquier contenido de voz. El proyecto admite una gran variedad de conjuntos de datos chinos ...
hace 8 meses
03.4K
Clone Voice:支持多语言的少样本声音克隆工具,基于xtts_v2提供Windows一键安装包

Clone Voice: herramienta de clonación de voz multilingüe y sin muestras basada en xtts_v2 para Windows.

Descripción general Clone Voice es una herramienta de clonación de sonido de código abierto que proporciona una interfaz basada en web que permite a los usuarios clonar voces utilizando cualquier sonido o grabación de voz personal. La herramienta es fácil de usar, incluso sin una GPU NVIDIA, y se puede utilizar con una aplicación precompilada...
hace 10 meses
03.5K
StreamingT2V:从文本到长视频的动态且可扩展的生成技术

StreamingT2V: generación dinámica y escalable de texto a vídeo largo

Introducción integral StreamingT2V es un proyecto público desarrollado por el equipo de investigación en IA de Picsart centrado en generar vídeos largos coherentes, dinámicos y escalables basados en descripciones textuales. Esta tecnología utiliza un enfoque autorregresivo avanzado que garantiza la coherencia temporal del vídeo con el texto descriptivo estrechamente...
hace 9 meses
03K
Text2Video-Zero:Picsart AI Research团队发布的文本到视频零样本生成器

Text2Video-Zero: Generador de muestras de texto a vídeo cero lanzado por el equipo de investigación de IA de Picsart

Introducción general Text2Video-Zero es una implementación oficial de un generador de texto a vídeo de muestra cero para GitHub desarrollado por el equipo Picsart AI Research.El proyecto proporciona una forma de utilizar pistas de texto para generar texto con consistencia temporal y...
hace 10 meses
03.3K
Retrieval based Voice Conversion WebUI:基于检索的语音转换框架|模拟真人歌声

Conversión de voz basada en recuperación WebUI: un marco para la conversión de voz basada en recuperación | Simulación de voces cantadas en la vida real

WebUI de conversión de voz basado en VITS es un marco de conversión de voz basado en VITS fácil de usar que permite la conversión de voz entre cualquier altavoz, incluyendo covers de canciones y cambios de voz en tiempo real. Tiene bajo ...
hace 10 meses
03.6K
VoiceCraft:开源零样本语音克隆与文本转语音工具

VoiceCraft: herramienta de código abierto de clonación de voz sin muestras y conversión de texto a voz

Introducción completa VoiceCraft es una herramienta de código abierto para la edición del habla y la síntesis del habla sin muestras basada en el modelo de lenguaje del códec neural. Emplea un innovador método de generación de secuencias codificadas que permite realizar operaciones de inserción, eliminación y sustitución en secuencias de habla existentes para generar un habla editada natural y coherente....
hace 10 meses
03.1K
CoAI.Dev (Chat Nio):AI聚合应用 一站式 B/C 端解决方案,支持弹性计费和订阅计划模式

CoAI.Dev (Chat Nio): solución integral de B/C para aplicaciones de agregación de IA con facturación flexible y compatibilidad con el modelo de suscripción.

Introducción general CoAI.Dev (antes Chat Nio) es una plataforma de chat que integra múltiples modelos de IA y soporta streaming distribuido, generación de imágenes, sincronización y compartición de conversaciones entre dispositivos. Implementa un sistema de facturación por suscripción y Token, servicio de tránsito de claves y múltiples...
hace 9 meses
03.4K
ChatOllama:基于Nuxt 3和Ollama的本地实时聊天应用UI

ChatOllama: aplicación local de chat en tiempo real basada en Nuxt 3 y Ollama

Introducción general ChatOllama es un proyecto de aplicación de chat en línea de código abierto basado en un modelo lingüístico a gran escala (LLM), que admite numerosos modelos lingüísticos y la gestión de la base de conocimientos. Los usuarios pueden utilizar la plataforma para la gestión de modelos ( visualización de listas , descarga , eliminación ) , chatear con los modelos y otras funciones . El proyecto utiliza ...
hace 10 meses
03.3K
MinerU:PDF文档提取转换为多模态Markdown格式,支持电子书OCR扫描

MinerU: extracción de documentos PDF y conversión a formato Markdown multimodal, compatibilidad con escaneado OCR de libros electrónicos

Introducción exhaustiva MinerU es una herramienta de extracción de datos de código abierto desarrollada por el equipo OpenDataLab del Laboratorio de Inteligencia Artificial de Shanghai, centrada en la extracción eficiente de contenido de documentos PDF, páginas web y libros electrónicos complejos. Es capaz de tomar PDF multimodales que contengan imágenes, fórmulas, tablas y otros elementos...
hace 11 meses
04.9K
DCT-Net:照片和视频转绘为动漫风格化的开源工具

DCT-Net: una herramienta de código abierto para transformar fotos y vídeos en anime estilizado

Introducción general DCT-Net es un proyecto de código abierto desarrollado por la Academia DAMO y el Instituto Wang Xuan de Tecnología Informática de la Universidad de Pekín, cuyo objetivo es la transformación anime estilizada de imágenes. El proyecto utiliza técnicas de aprendizaje profundo a través de la Traducción Calibrada por Dominio (Domain-Calibrat...
hace 7 meses
03.2K
Diffusers Image Outpaint:超强开源AI图像扩展工具,图像外绘(image outpainting)

Diffusers Image Outpaint: herramienta de extensión de imagen AI de código abierto súper potente, image outpainting (pintado de imágenes)

Introducción general Diffusers Image Outpaint es una potente herramienta de expansión de imágenes AI creada por fffiloni, miembro de la comunidad Hugging Face. La herramienta utiliza técnicas avanzadas de modelado de difusión para...
hace 11 meses
03.6K
Tap4 AI WebUI:开源轻量级AI工具导航项目

Tap4 AI WebUI: proyecto de código abierto de navegación por herramientas ligeras de IA

Introducción completa Tap4 AI WebUI es un proyecto de sitio web de navegación de herramientas de IA de código abierto, diseñado para ayudar a los usuarios a construir fácilmente su propio catálogo de herramientas de IA. El proyecto utiliza Next.js y la pila de tecnología Supabase , soporte para la optimización SEO multi-idioma para proporcionar AI...
hace 10 meses
03.2K
CodeFormer:图像与视频面部复原,老照片修复,提供一键部署版

CodeFormer: restauración facial de imágenes y vídeos, restauración de fotos antiguas, ofrece una versión de despliegue con un solo clic

CodeFormer Introducción general CodeFormer es un código base para la reparación robusta de rostros ciegos, desarrollado por un equipo de investigadores del S-Lab de la Universidad Tecnológica de Nanyang y presentado en NeurIPS 2022. El proyecto utiliza un transformador de búsqueda de c...
hace 11 meses
03.8K
Moshi:实时语音对话框架,支持多种语言和口音的语音对话基础模型

Moshi: un marco de diálogo vocal en tiempo real compatible con múltiples idiomas y acentos para modelos de base de diálogo vocal

Introducción general Moshi Chat es un asistente de voz de IA en tiempo real de Kyutai, un laboratorio francés de IA sin ánimo de lucro. No solo escucha en tiempo real, sino que también participa en conversaciones naturales y admite interacciones multimodales, incluida la capacidad de ver, oír y hablar.Moshi Ch...
hace 11 meses
03K
QAnything:高度集成RAG处理流程的本地知识库问答系统

QAnything: Sistema de preguntas y respuestas de base de conocimientos local con flujo de procesamiento RAG altamente integrado

QAnything Introducción Completa QAnything (Question and Answer based on Anything) es un sistema de preguntas y respuestas de base de conocimiento local lanzado por NetEase, que admite todo tipo de formatos de archivo y bases de datos, y se puede instalar sin conexión para utilizar...
hace 11 meses
03.1K
StickerBaker:用AI制作个性贴纸图片

StickerBaker: Crea pegatinas personalizadas con IA

Descripción general stickerbaker es un creador de pegatinas de código abierto que utiliza tecnología de inteligencia artificial para crear una gran variedad de pegatinas interesantes. Tanto si quieres una simple pegatina de un gato como si quieres hacer una serie de pegatinas diversas, stickerbaker puede satisfacer tus necesidades....
hace 11 meses
03.3K
ALog:便携AI语音日记应用,支持语音转文字。

ALog: aplicación portátil de diario vocal con inteligencia artificial y conversión de voz a texto.

Introducción general ALog es una aplicación de diario de voz basada en IA diseñada para ayudar a los usuarios a registrar su vida diaria por voz. Está desarrollada por duxins y de código abierto en GitHub. Los usuarios pueden grabar entradas de diario a través de la entrada de voz, y la aplicación convertirá automáticamente la voz en texto ...
hace 7 meses
03.7K
OpenSPG:开源知识图谱引擎

OpenSPG: motor de grafos de conocimiento de código abierto

Introducción OpenSPG es un motor de grafos de conocimiento de código abierto desarrollado por Ant Group en colaboración con OpenKG, basado en el marco SPG (Semantic Augmented Programmable Graph). El motor está diseñado para proporcionar características tales como la representación semántica explícita, la definición de reglas lógicas y el marco operativo para apoyar la construcción y gestión de grafos de conocimiento de dominio...
hace 11 meses
04K
Mem0:为AI助手和代理提供智能记忆层的开源项目

Mem0: proyecto de código abierto que proporciona una capa de memoria inteligente para asistentes y agentes de inteligencia artificial.

Introducción general Mem0 (pronunciado "mem-zero") es un proyecto de código abierto que proporciona una capa de memoria inteligente para asistentes y agentes de IA. Recuerda las preferencias del usuario, se adapta a las necesidades individuales y mejora con el tiempo, por lo que es ideal para chatbots asistidos por el cliente, asistentes de IA y sistemas autónomos....
hace 11 meses
03.9K
Void:基于VSCode的开源Cursor替代品

Void: alternativa de código abierto a Cursor basada en VSCode

Introducción general Void es una alternativa de código abierto a Cursor basada en una rama del repositorio vscode. Proporciona un potente entorno de desarrollo diseñado para proporcionar a los desarrolladores una experiencia de codificación más eficiente.El objetivo de Void es mejorar continuamente su funcionalidad y estabilidad a través de las contribuciones de la comunidad y la rápida iteración....
hace 10 meses
03.7K
GaiaNet node:安装和运行自己的本地模型在线代理服务

Nodo GaiaNet: instale y ejecute su propio modelo local de servicio proxy en línea

Introducción general GaiaNet-AI/gaianet-node es un proyecto de código abierto que permite a los usuarios instalar rápidamente la pila de software de nodos por defecto en Mac, Linux o Windows WSL con un solo comando. Los usuarios pueden inicializar nodos, personalizar configuraciones, descargar...
hace 11 meses
02.8K
GOT-OCR2.0:基于 QWen2 0.5B 端到端的多模态OCR模型

GOT-OCR2.0: basado en el modelo OCR multimodal de extremo a extremo QWen2 0.5B

Introducción exhaustiva GOT-OCR2.0 es un modelo de reconocimiento óptico de caracteres (OCR) de código abierto co-propuesto por StepStar, cuyo objetivo es impulsar la tecnología OCR hacia OCR-2.0 mediante un modelo unificado de extremo a extremo. El modelo soporta una amplia gama de tareas de OCR, incluyendo el reconocimiento de texto normal, gr...
hace 11 meses
02.9K
FiveThirtyNine:基于搜索知识对未来事件发生概率预测

FiveThirtyNine: Predecir la probabilidad de acontecimientos futuros basándose en el conocimiento de las búsquedas

Introducción general Forecast AI es una magnífica plataforma de predicción basada en tecnología avanzada de inteligencia artificial. Utiliza potentes algoritmos de análisis de datos y aprendizaje automático para proporcionar a los usuarios predicciones muy precisas sobre acontecimientos futuros. Ya se trate de elecciones políticas, tendencias económicas o acontecimientos sociales, Forecast ...
hace 11 meses
03.3K
GPT SoVITS:革命性的语音生成与语音克隆工具

GPT SoVITS: revolucionarias herramientas de generación y clonación de voz

Introducción general GPT-SoVITS es una herramienta de conversión y síntesis de voz de código abierto que combina el modelo GPT y la tecnología de cambio de voz SoVITS. La herramienta admite la conversión de texto a voz sobre la marcha con cero y pocas muestras, y la migración de estilo de voz con sólo 5 segundos de muestras de audio. Entre sus funciones se incluyen la ...
hace 11 meses
03.3K
IMS Toucan:快速可控的多语言(支持7000+语言)文本转语音工具

IMS Toucan: herramienta de conversión de texto a voz multilingüe (compatible con más de 7000 idiomas), rápida y controlable.

Introducción general IMS Toucan es un avanzado kit de herramientas de conversión de texto a voz (TTS) desarrollado por el Instituto de Procesamiento del Lenguaje Natural (IMS) de la Universidad de Stuttgart (Alemania). El kit de herramientas es compatible con más de 7000 idiomas y es rápido, controlable y requiere pocos recursos informáticos.IMS...
hace 6 meses
03.2K
PaddleOCR:基于飞桨的多语言OCR工具库,支持80多种语言识别

PaddleOCR: biblioteca de herramientas OCR multilingüe basada en Flying Paddle, que permite el reconocimiento de más de 80 idiomas.

Introducción completa PaddleOCR es un conjunto de herramientas OCR multilingüe basado en PaddlePaddle, diseñado para proporcionar un sistema OCR práctico y ultraligero. Admite el reconocimiento de más de 80 idiomas y proporciona herramientas de anotación y síntesis de datos para...
hace 8 meses
03.7K
Deep Live Cam:开源的实时AI换脸工具,一张照片就能实现实时换脸直播

Deep Live Cam: herramienta de código abierto para el intercambio de rostros en tiempo real con IA, una foto para el intercambio de rostros en tiempo real

Introducción general Deep Live Cam es una herramienta de inteligencia artificial de código abierto diseñada para permitir la sustitución de caras en tiempo real y la generación de vídeos falsos a partir de una sola foto. Utilizando algoritmos avanzados de aprendizaje profundo, la herramienta es capaz de reemplazar caras en tiempo real durante transmisiones en directo o videollamadas, protegiendo la privacidad del usuario y añadiendo diversión...
hace 9 meses
03.5K
NarratoAI:文本生成影视解说与自动化剪辑神器

NarratoAI: herramienta de narración y edición automatizada generada por texto para cine y televisión

Introducción general NarratoAI es una herramienta totalmente automatizada que integra narración de películas y vídeos, edición automatizada, doblaje y generación de subtítulos. Se basa en la tecnología de modelado lingüístico a gran escala (LLM) para generar automáticamente copias y editar automáticamente vídeos con sus correspondientes locuciones y subtítulos, proporcionando a los usuarios un...
hace 11 meses
03.3K
Vector Vein(向量脉络):无代码AI工作流构建平台

Vector Vein: plataforma de creación de flujos de trabajo de IA sin código

Introducción completa Vector Vein es una plataforma de creación de flujos de trabajo de IA sin código diseñada para ayudar a los usuarios a crear fácilmente flujos de trabajo inteligentes y automatizados. Sin necesidad de conocimientos de programación, los usuarios pueden simplemente conectar varios módulos funcionales a través de operaciones de arrastrar y soltar para construir...
hace 8 meses
02.9K
LivePortrait:静态图像、视频生成动态肖像动画工具

LivePortrait: herramienta de animación para generar retratos dinámicos a partir de imágenes fijas y vídeos

Introducción general LivePortrait es una herramienta avanzada de animación dinámica de retratos AI desarrollada por Racer Technology. Utiliza una innovadora tecnología de IA para transformar imágenes fijas en vívidas animaciones de vídeo. Tanto si utiliza fotos reales, estilos de animación o retratos artísticos, LivePo...
hace 9 meses
03.3K
PhiData:构建拥有记忆、知识和工具的AI智能体

PhiData: creación de inteligencias artificiales con memoria, conocimientos y herramientas

Introducción general PhiData es un marco de trabajo diseñado para desarrollar asistentes de IA inteligentes. Permite a los asistentes de IA entablar conversaciones a largo plazo, proporcionar un contexto empresarial preciso y realizar diversas operaciones mediante capacidades mejoradas de memoria, integración de conocimientos e invocación de herramientas.PhiData no solo mejora los asistentes de IA....
hace 5 meses
03.2K
ChatTTS:模仿真人说话声音的语音生成模型(ChatTTS一键加速包)

ChatTTS: un modelo de generación de voz que imita la voz de una persona real hablando (paquete de aceleración ChatTTS one-click)

Introducción general ChatTTS es un modelo generativo del habla diseñado para escenarios de diálogo. Genera un habla natural y expresiva, admite varios idiomas y varios hablantes, y es adecuado para diálogos interactivos. Para ello, el modelo predice y controla con precisión características rítmicas como la risa, las pausas y las interjecciones,...
hace 6 meses
03.2K
MoneyPrinterPlus:一键生成短视频的AI工具,免费批量混剪

MoneyPrinterPlus: herramienta de IA para generar vídeos cortos con un solo clic, mezcla por lotes gratuita

Introducción completa MoneyPrinterPlus es un proyecto de código abierto destinado a generar y mezclar todo tipo de vídeos cortos con un solo clic a través de la tecnología de IA y publicarlos automáticamente en múltiples plataformas de vídeo, como Jieyin, Shutterbugs, Xiaohongshu y Video Number. La herramienta admite modelos de voz locales y basados en la nube,...
hace 11 meses
03.5K
Chatbot UI:模仿ChatGPT界面和功能的开源AI聊天应用程序

Chatbot UI: una aplicación de chat con inteligencia artificial de código abierto que imita la interfaz y las funciones de ChatGPT.

Introducción general Chatbot UI es un proyecto de código abierto diseñado para ayudar a los desarrolladores a crear interfaces conversacionales personalizadas e inteligentes. El proyecto proporciona una serie de componentes de interfaz y funciones interactivas que pueden integrarse fácilmente en el sistema Chatbot existente para ofrecer a los usuarios un cuerpo de diálogo más fluido e inteligente....
hace 11 meses
04.6K
GLIGEN GUI:精确控制图像元素位置,基于ComfyUI的直观图形界面

GLIGEN GUI: control preciso de la posición de los elementos de la imagen, interfaz gráfica intuitiva basada en ComfyUI

Introducción general GLIGEN GUI es una interfaz gráfica intuitiva basada en ComfyUI, diseñada para simplificar el uso del modelo GLIGEN, un novedoso modelo texto-imagen que permite especificar con precisión la posición de los objetos en una imagen. Con GLIGE...
hace 11 meses
02.8K
Easy Voice Toolkit:本地部署的AI语音工具箱

Easy Voice Toolkit: kit de herramientas de voz AI para implantación local

Introducción exhaustiva Easy-Voice-Toolkit es un conjunto de herramientas multifuncionales basado en el Open Source Speech Project, que proporciona una amplia gama de herramientas de audio automatizadas para el reconocimiento del habla, la transcripción del habla, la conversión del habla, la creación de conjuntos de datos y el entrenamiento de modelos. Los usuarios pueden utilizar estas herramientas de forma selectiva según sus necesidades...
hace 11 meses
03.4K
FaceFusion:视频换脸增强工具|语音同步视频嘴型动作

FaceFusion: Video Face Swap Enhancement Tool | Voice Sync Video Mouth Moves

Descripción general FaceFusion es una plataforma en la nube de última generación con intercambio y mejora facial integrados, optimizada para el intercambio de imagen a vídeo e imagen a imagen, con 5 modelos profesionales para garantizar un resultado impecable. Además, realiza la mejora facial con 7 modelos utilizando 3...
hace 6 meses
05.5K
Kotaemon:简单部署的开源多模态文档问答工具

Kotaemon: una herramienta multimodal de código abierto para cuestionarios sobre documentos, fácil de implantar

Introducción general Kotaemon es una herramienta de código abierto de preguntas y respuestas sobre documentos diseñada para proporcionar a los usuarios finales y a los desarrolladores una funcionalidad de preguntas y respuestas basada en la Generación Aumentada de Recuperación (RAG). El proyecto fue desarrollado por Cinnamon y soporta una variedad de proveedores de API LLM (por ejemplo, OpenA...
hace 11 meses
03.5K
HivisionIDPhotos:开源智能AI证件照制作工具

HivisionIDPhotos: herramienta de código abierto para la creación de documentos de identidad inteligentes con IA

Introducción completa HivisionIDPhotos es una herramienta de producción de fotos de documentos AI ligera de código abierto, puede identificar de forma inteligente la escena de la foto del usuario y la clave, para generar una foto de documento estándar en línea con una variedad de especificaciones. La herramienta soporta colores de fondo y tamaños personalizados, y en el futuro también lanzará...
hace 11 meses
03.2K
Marker:快速将PDF转换为Markdown的开源工具

Marker: herramientas de código abierto para convertir rápidamente PDF a Markdown

Introducción general Marker es una herramienta de procesamiento de documentos basada en aprendizaje profundo diseñada para convertir archivos PDF a formato Markdown de forma rápida y precisa. Es compatible con una amplia gama de tipos de documentos y está especialmente optimizado para la conversión de libros y artículos científicos.Marker es capaz de eliminar los encabezados...
hace 5 meses
04.7K
SadTalker:让照片说话|嘴型同步音频|合成口型同步视频|免费数字人

SadTalker: Haz Hablar a las Fotos | Audio Sincronizado con la Boca | Vídeo Sincronizado con la Boca Sintetizado | Gente Digital Gratis

Introducción general SadTalker es una herramienta de código abierto que combina una única foto de retrato estática con un archivo de audio para crear vídeos de avatares parlantes realistas para una amplia gama de escenarios, como mensajes personalizados, contenido educativo y mucho más. Utiliza de forma revolucionaria tecnologías de modelado 3D como ExpNet y PoseVA...
hace 6 meses
03.5K
VideoReTalking:音频驱动的嘴唇同步和视频编辑系统

VideoReTalking: sistema de sincronización labial y edición de vídeo basado en audio

Introducción general VideoReTalking es un sistema innovador que permite al usuario generar vídeos faciales sincronizados con los labios a partir del audio de entrada, produciendo vídeos de salida de alta calidad y sincronizados con los labios incluso con diferentes emociones. El sistema divide este objetivo en tres tareas consecutivas: con expresiones típicas...
hace 8 meses
03.4K
MuseV+Muse Talk:完整数字人视频生成框架|人像转视频|姿态转视频|唇形同步

MuseV+Muse Talk: Marco completo de generación de vídeo humano digital | Retrato a vídeo | Pose a vídeo | Sincronización de labios

Introducción general MuseV es un proyecto público en GitHub cuyo objetivo es la generación de vídeo avatar de longitud ilimitada y alta fidelidad. Se basa en la tecnología de difusión y proporciona Image2Video, Text2Image2Video, Video2Video...
hace 8 meses
05.6K
Unstructured:开源预处理非结构化文档,无结构数据处理的利器

No estructurados: preprocesamiento de documentos no estructurados de código abierto, herramientas de tratamiento de datos no estructurados

Introducción completa Unstructured-IO proporciona un conjunto de componentes de código abierto para el procesamiento y preprocesamiento de imágenes y documentos de texto como PDF, HTML, documentos de Word, etc. Su principal objetivo es simplificar y optimizar los flujos de trabajo de procesamiento de datos, especialmente para grandes modelos de lenguaje (LL...
hace 11 meses
03.5K
magic-html:从HTML网址中提取主体数据,输出纯文本/markdown

magic-html: extrae los datos del cuerpo de una URL HTML, salida texto plano/markdown

Introducción general magic-html es una biblioteca de Python diseñada para simplificar el proceso de extracción del contenido de la región del cuerpo a partir de HTML. Tanto si se trata de estructuras HTML complejas como de páginas web sencillas, esta biblioteca pretende proporcionar una interfaz cómoda y eficiente a los usuarios. Soporta la extracción multimodal...
hace 11 meses
02.8K
WebPilot:智能网页信息处理工具,网页内容抓取免费API

WebPilot: herramienta inteligente de procesamiento de información web, API gratuita para la captura de contenidos web

WebPilot Introducción general Webpilot es un "asistente web" gratuito y de código abierto que le permite comunicarse libremente con cualquier página web o realizar tareas automatizadas. No es necesario cambiar de página o copiar y pegar, basta con seleccionar texto o introducir comandos, webpilot...
hace 12 meses
03.8K
DB-GPT:构建AI原生数据应用开发框架,集成多模型管理与智能数据处理

DB-GPT: Creación de un marco de desarrollo de aplicaciones de datos nativas de IA que integra la gestión multimodelo y el procesamiento inteligente de datos

Introducción general DB-GPT es un marco de desarrollo de aplicaciones de datos nativas de IA de código abierto construido utilizando AWEL (Agentic Workflow Expression Language) y tecnologías de cuerpo inteligente. El proyecto pretende crear una infraestructura en el ámbito de los grandes modelos...
hace 5 meses
03K
DreamTalk:使用一张头像图片即可生成表情丰富的说话视频

DreamTalk: ¡Genera expresivos vídeos parlantes con una sola imagen de avatar!

DreamTalk Introducción DreamTalk es un marco de generación de cabezas parlantes basado en modelos de difusión y expresión desarrollado conjuntamente por la Universidad Tsinghua, Alibaba Group y la Universidad Huazhong de Ciencia y Tecnología. Consta principalmente de tres partes: una red de reducción de ruido, un experto en labios consciente del estilo y un predictor de...
hace 8 meses
03.3K
InstantID:上传一张图片,迁移人像特征来生成不同风格图片

InstantID: cargue una imagen y migre las funciones de retrato para generar diferentes estilos de imágenes

Introducción completa InstantID es una tecnología avanzada centrada en la generación de imágenes con estilos o poses personalizados en cuestión de segundos, al tiempo que garantiza un alto nivel de fidelidad utilizando una única imagen de identificación de referencia. La tecnología utiliza una solución basada en un modelo de difusión mediante la integración de imágenes faciales, mapas de puntos de referencia...
hace 12 meses
02.8K
ComfyUI Portrait Master 中文版:优化肖像生成的提示词工具

ComfyUI Portrait Master versión china: Herramienta de palabras clave para optimizar la generación de retratos

Introducción General ComfyUI Portrait Master versión China es una herramienta de generación de palabras clave para retratos diseñada para creadores de imágenes AI. La herramienta ayuda a los usuarios a generar retratos de alta calidad mediante la optimización de las palabras clave. Los usuarios pueden elegir diferentes lentes según la demanda...
hace 12 meses
03.8K
IOPaint:全能AI图像处理工具,擦除、扩图、替换元素与绘制文本

IOPaint: Herramienta polivalente de tratamiento de imágenes AI, borrado, ampliación, sustitución de elementos y dibujo de texto.

Introducción general IOPaint es una herramienta de procesamiento de imágenes de IA gratuita y de código abierto que permite borrar, reparar y ampliar imágenes. Utiliza modelos de IA de última generación para ayudar a los usuarios a eliminar fácilmente objetos no deseados de las imágenes, reparar defectos, añadir nuevos contenidos e incluso expandir imágenes.IOPa...
hace 10 meses
015.3K