Proyecto AI de código abierto

Total 1020 artículos
TreeGPT:可视化树状对话的AI聊天界面

TreeGPT: interfaz de chat para visualizar conversaciones basadas en árboles

Introducción general TreeGPT es una aplicación de chat de código abierto basada en Next.js, centrada en la visualización de conversaciones con grandes modelos lingüísticos (LLMs, por sus siglas en inglés, p. ej., GPTs) a través de estructuras de grafos en árbol (grafos acíclicos dirigidos, DAGs), sustituyendo a los métodos de chat lineales tradicionales para mejorar la velocidad y...
hace 6 meses
03K
ai-gradio:轻松集成多种AI模型,基于Gradio构建多模态应用

ai-gradio: integra fácilmente múltiples modelos de IA y crea aplicaciones multimodales basadas en Gradio

Introducción general ai-gradio es un conjunto de herramientas Python de código abierto diseñado para ayudar a los desarrolladores a integrar y utilizar fácilmente múltiples modelos de IA. Construido sobre Gradio, el proyecto proporciona una interfaz unificada para soportar múltiples modelos y servicios de IA. Ya sea texto, voz o vídeo...
hace 6 meses
03K
ComfyUI disty Flow:为 ComfyUI 提供友好的用户界面,简化工作流程

ComfyUI disty Flow: Una interfaz fácil de usar para ComfyUI para agilizar el flujo de trabajo

Introducción general ComfyUI-disty-Flow es un nodo personalizado que proporciona una interfaz de usuario amigable para ComfyUI. Está pensado para simplificar la ejecución de flujos de trabajo proporcionando una interfaz de usuario alternativa a la creación de flujos de trabajo.ComfyUI-disty...
hace 7 meses
03K
BrushEdit:腾讯ARC发布的图像修复和编辑的全能工具

BrushEdit: herramienta todo en uno para la restauración y edición de imágenes lanzada por Tencent ARC

Introducción general BrushEdit es una herramienta integral de reparación y edición de imágenes desarrollada por Tencent ARC Labs. La herramienta se basa en la última tecnología de IA y es capaz de identificar y reparar automáticamente los defectos en las imágenes, mientras que el apoyo a la edición interactiva por users.BrushEdit combina una variedad de...
hace 8 meses
03K
Sonic:音频驱动肖像图片生成面部表情生动的数字人口播视频

Sonic: Las imágenes de retratos con audio generan vídeos de demostración digitales con expresiones faciales vivas

Introducción general Sonic es una innovadora plataforma centrada en la percepción global del audio y diseñada para generar vívidas animaciones de retratos controladas por audio. Desarrollada por un equipo de investigadores de Tencent y la Universidad de Zhejiang, la plataforma utiliza información de audio para controlar las expresiones faciales y los movimientos de la cabeza con el fin de generar vídeos animados naturales y fluidos.S...
hace 4 meses
03K
AI2SRT:利用 Gemini模型,一键为长视频创建解说短视频或视频总结

AI2SRT: Creación de vídeos narrados breves o resúmenes de vídeos largos en un solo clic mediante modelos Gemini

Introducción general AI2SRT es un proyecto de código abierto que utiliza el gran modelo GeminiAI para generar vídeos narrados cortos y resúmenes de vídeo para vídeos largos con un solo clic, a la vez que admite subtítulos de transcripción de audio y vídeo. El proyecto pretende simplificar el proceso de creación de contenidos de vídeo y proporcionar funciones eficaces de generación y traducción de subtítulos. Los usuarios pueden pasar...
hace 8 meses
03K
DeepSeek Engineer:基于DeepSeek API的实验性编码助手,附提示词

DeepSeek Engineer: un asistente de codificación experimental basado en la API DeepSeek, con palabras clave.

Descripción general DeepSeek Engineer es una potente herramienta asistente de programación basada en la API DeepSeek, capaz de interactuar con el usuario a través de una intuitiva interfaz de línea de comandos para ayudarle en diversas tareas de desarrollo de software. La herramienta combina la potencia del modelado de lenguajes a gran escala con...
hace 6 meses
02.9K
OpenManus-RL:微调大模型强化智能体推理与决策能力

OpenManus-RL: ajuste de grandes modelos para mejorar el razonamiento corporal inteligente y la toma de decisiones

Introducción general OpenManus-RL es un proyecto de código abierto desarrollado por UIUC-Ulab junto con el equipo OpenManus de la comunidad MetaGPT, alojado en GitHub. El proyecto mejora el modelado lingüístico a gran escala (LLM) mediante técnicas de aprendizaje por refuerzo (RL)....
hace 5 meses
02.9K
Markdown To Poster:将Markdown转换为社交媒体/小红书海报,支持在线编辑和一键部署。

Markdown To Poster: convierta Markdown en pósters para redes sociales/pequeños rojos con edición en línea y soporte de despliegue con un solo clic.

Descripción general Markdown to Image es un componente React para renderizar texto Markdown en imágenes de medios sociales visualmente atractivas. El proyecto también incluye un editor web incorporado que se puede utilizar como un editor en línea de Markdown a póster....
hace 9 meses
02.9K
XRAG:优化检索增强生成系统的可视化评估工具

XRAG: una herramienta de evaluación visual para optimizar los sistemas de generación de mejoras de la recuperación

Introducción completa XRAG (eXamining the Core) es un marco de evaluación comparativa diseñado para evaluar los componentes subyacentes de los sistemas avanzados de generación de aumento de la recuperación (RAG). Mediante el perfilado y análisis de cada módulo central, XRAG proporciona información sobre cómo afectan las distintas configuraciones y componentes a los sistemas RAG....
hace 7 meses
02.9K
OuteTTS:实验性文本转语音模型,使用纯语言建模方法实现的TTS

OuteTTS: modelo experimental de conversión de texto en voz, TTS implementado mediante un enfoque de modelado lingüístico puro.

Introducción general OuteTTS es un modelo experimental de conversión de texto en habla (TTS) que utiliza un enfoque de modelado lingüístico puro para generar habla de alta calidad. A diferencia de los sistemas TTS tradicionales, OuteTTS no requiere adaptadores externos ni arquitecturas complejas. El modelo se basa en la arquitectura LLaMa...
hace 6 meses
02.9K
Supermemory:导入书签和网页内容构建个人知识库

Supermemoria: importar marcadores y contenidos web para crear una base de conocimientos personal

Introducción general Supermemory es un proyecto de código abierto diseñado para ayudar a los usuarios a construir su "segundo cerebro". Con una potente extensión de Chrome y tecnología de IA, permite a los usuarios guardar, organizar y recuperar fácilmente datos de páginas web, marcadores de Twitter...
hace 6 meses
02.9K
VoiceCraft:开源零样本语音克隆与文本转语音工具

VoiceCraft: herramienta de código abierto de clonación de voz sin muestras y conversión de texto a voz

Introducción completa VoiceCraft es una herramienta de código abierto para la edición del habla y la síntesis del habla sin muestras basada en el modelo de lenguaje del códec neural. Emplea un innovador método de generación de secuencias codificadas que permite realizar operaciones de inserción, eliminación y sustitución en secuencias de habla existentes para generar un habla editada natural y coherente....
hace 10 meses
02.9K
VimLM:本地LLM驱动的Vim编程助手,安全离线的智能编程

VimLM: Asistente de programación Vim nativo basado en LLM, programación inteligente segura sin conexión

Introducción General VimLM es un plugin de Vim que proporciona un asistente de código impulsado por el LLM nativo (Large Language Model). Interactuando con el modelo LLM nativo a través de los comandos de Vim, obtiene automáticamente el contexto del código y ayuda a los usuarios a editar código en Vim.VimLM está inspirado en...
hace 6 meses
02.9K
Ichigo(llama3-s):本地实时语音AI助手,开源版Siri

Ichigo (llama3-s): asistente de voz local en tiempo real, versión de código abierto de Siri.

Introducción general Ichigo es un proyecto de IA de voz en tiempo real de código abierto que pretende ampliar los modelos de lenguaje basados en texto con capacidades de "escucha" nativa. El proyecto utiliza técnicas de fusión temprana inspiradas en el documento Chameleon de Meta.El objetivo de Ichigo es convertirse...
hace 7 meses
02.9K
Quanta Quest:端侧大模型与面向个人数据的本地化AI搜索平台(预览版)

Quanta Quest: plataforma de búsqueda de grandes modelos y AI localizada para datos personales (avance)

Introducción Quanta Quest es el primer producto del mundo con "end-side big model + C-side data localisation" como dirección de evolución central. Ayuda a los usuarios a almacenar todos los datos de Gmail, Notion, Dropbox, etc. localmente, y procesarlos a través de la base de datos vectorial para garantizar...
hace 10 meses
02.9K
StreamingT2V:从文本到长视频的动态且可扩展的生成技术

StreamingT2V: generación dinámica y escalable de texto a vídeo largo

Introducción integral StreamingT2V es un proyecto público desarrollado por el equipo de investigación en IA de Picsart centrado en generar vídeos largos coherentes, dinámicos y escalables basados en descripciones textuales. Esta tecnología utiliza un enfoque autorregresivo avanzado que garantiza la coherencia temporal del vídeo con el texto descriptivo estrechamente...
hace 9 meses
02.9K
Orate:集成知名语音生成、语音转录与变声模型的统一API

Orate: una API unificada para integrar la generación de voz bien conocida, la transcripción de voz y el modelado de voz

Introducción general Orate es un conjunto de herramientas de IA centrado en la generación y transcripción de voz. Proporciona una API unificada que se integra a la perfección con los principales proveedores de IA, como OpenAI, ElevenLabs y AssemblyAI, para ayudar a...
hace 6 meses
02.9K
Agentarium: gestión y coordinación de interacciones entre múltiples inteligencias artificiales

Agentarium: gestión y coordinación de interacciones entre múltiples inteligencias artificiales

Introducción General Agentarium es un potente framework Python dedicado a la gestión y orquestación de agentes inteligentes de IA (Agentes). El framework proporciona una forma flexible e intuitiva de crear, gestionar y orquestar interacciones entre múltiples agentes de IA. Utiliza A...
hace 7 meses
02.9K
CR-Mentor:知识库+LLM 驱动的GitHub智能代码审查导师

CR-Mentor: Base de conocimientos + LLM Mentor inteligente de revisión de código para GitHub

Introducción completa CR-Mentor es una herramienta inteligente de revisión de código que combina una base de conocimientos profesional con la potencia de Large Language Modelling (LLM). No sólo admite la revisión de código para todos los lenguajes de programación, sino que también personaliza criterios de revisión exclusivos y áreas de enfoque para los equipos basándose en las mejores prácticas acumuladas en la base de conocimientos. A través de...
hace 9 meses
02.9K
Open-LLM-VTuber:实时语音互动的Live2D动画AI虚拟伴侣

Open-LLM-VTuber: un compañero virtual de IA animada en Live2D para la interacción por voz en tiempo real.

Introducción general Open-LLM-VTuber es un proyecto de código abierto que permite a los usuarios interactuar con Large Language Models (LLMs) a través del habla y el texto, e incorpora la tecnología Live2D para presentar personajes virtuales dinámicos. Es compatible con Windows, macOS y Linux, y puede...
hace 5 meses
02.9K
CogAgent:智谱开源的智能视觉语言模型,实现图形界面自动化操作

CogAgent: modelo de lenguaje visual inteligente de código abierto de Smart Spectrum para la automatización de interfaces gráficas

Introducción CogAgent es un modelo de lenguaje visual de código abierto desarrollado por el Grupo de Investigación de Minería de Datos de la Universidad de Tsinghua (THUDM), cuyo objetivo es automatizar el funcionamiento de la interfaz gráfica de usuario (GUI) en todas las plataformas. El modelo se basa en CogVLM (GLM-4V-9B) y es compatible con el chino y el inglés bilingües....
hace 8 meses
02.9K
FastAPI DocGPT:基于FastAPI的PDF文档处理和问答系统

FastAPI DocGPT: sistema de procesamiento de documentos PDF y preguntas y respuestas basado en FastAPI

Introducción general FastAPI DocGPT es un sistema de cuestionarios sobre documentos basado en FastAPI que permite a los usuarios cargar archivos PDF y realizar cuestionarios basados en el contenido de los documentos. El sistema utiliza la tecnología de incrustación de OpenAI para incrustar el contenido del documento en una base de datos vectorial Q...
hace 9 meses
02.9K
go-stock:AI赋能股票分析工具,自选股行情实时监控并基于AI深度分析

go-stock: herramienta de análisis de valores basada en IA, seguimiento en tiempo real de las cotizaciones de valores elegidos por el usuario y análisis en profundidad basados en IA.

Introducción completa go-stock es una herramienta de análisis de acciones con IA construida sobre Wails y NaiveUI. La herramienta es capaz de monitorizar en tiempo real las cotizaciones de las acciones, proporcionando visualización de costes y beneficios/pérdidas y función de empuje de alarma arriba/abajo. Todos los datos se guardan localmente para...
hace 6 meses
02.9K
llms.txt Generator:快速抓取网站内容并,生成LLM训练文本数据集

Generador llms.txt: Capture rápidamente el contenido del sitio web y genere conjuntos de datos de texto de formación LLM.

Introducción general llmstxt-generator es una herramienta profesional de extracción e integración de contenido web dedicada a la preparación de conjuntos de datos de texto de alta calidad para el entrenamiento y la inferencia en Large Language Models (LLM). La herramienta fue desarrollada por Mendable AI utilizando @firec...
hace 7 meses
02.9K
Charla:基于终端的极简AI聊天工具,本地集成Ollama后端

Charla: una herramienta de chat AI minimalista basada en endpoints con integración nativa en el backend de Ollama.

Descripción general Charla es una aplicación de chat basada en endpoints diseñada para entablar diálogos con modelos lingüísticos nativos. La aplicación se integra con el backend Ollama, admite diálogos contextuales y guarda las sesiones de chat como archivos Markdown. Los usuarios pueden...
hace 7 meses
02.9K
X-Kit:Twitter数据抓取和分析X用户数据与推文的工具

X-Kit: rastreo de datos de Twitter y análisis de datos de usuarios X y tweets

Introducción general X-Kit es una herramienta de código abierto diseñada para rastrear y analizar datos y tweets de usuarios de X (antes Twitter). Desarrollada por el usuario de GitHub xiaoxiunique, la herramienta está diseñada para ayudar a los usuarios a automatizar el proceso de obtención de información básica y tweets sobre un determinado usuario de X y...
hace 8 meses
02.9K
SkyReels V2:生成无限长度视频的开源AI工具

SkyReels V2: una herramienta de IA de código abierto para generar vídeos de duración ilimitada

Introducción completa SkyReels-V2 es un modelo de generación de vídeo de código abierto desarrollado por SkyworkAI. Admite la generación de vídeos de longitud ilimitada mediante la tecnología avanzada Diffusion Forcing, y es apto para la conversión de texto a vídeo (T2V) y graf...
hace 4 meses
02.9K
R1-V:低成本强化学习实现视觉语言模型泛化能力

R1-V: Aprendizaje por refuerzo de bajo coste para la capacidad de generalización de modelos de lenguaje visual

Introducción exhaustiva R1-V es un proyecto de código abierto cuyo objetivo es lograr avances en el modelado del lenguaje visual (VLM) mediante el aprendizaje por refuerzo (RL) de bajo coste. El proyecto utiliza mecanismos de recompensa verificables para motivar a los VLM a aprender habilidades genéricas de conteo. Sorprendentemente, R1-V's 2B ...
hace 6 meses
02.9K
Step-Audio:多模态语音交互框架,识别语音并使用克隆语音交流等功能

Step-Audio: un marco de interacción multimodal por voz que reconoce el habla y se comunica mediante habla clonada, entre otras funciones.

Introducción completa Step-Audio es un marco de interacción del habla inteligente de código abierto diseñado para proporcionar capacidades de comprensión y generación del habla listas para usar en entornos de producción. El marco admite conversaciones en varios idiomas (por ejemplo, chino, inglés, japonés), habla emocional (por ejemplo, feliz, triste), dialectos regionales (por ejemplo, cantonés, szechuan ...
hace 6 meses
02.9K
Laminar:开源AI产品工程化平台,轻松实现数据可视化追踪与评估

Laminar: plataforma de código abierto de ingeniería de productos de IA para facilitar el seguimiento y la evaluación de la visualización de datos

Introducción exhaustiva Laminar es una plataforma de optimización de ingeniería de IA de código abierto centrada en la ingeniería de IA desde los primeros principios. Ayuda a los usuarios a recopilar, comprender y utilizar datos para mejorar la calidad de las aplicaciones LLM (Large Language Modelling).
hace 8 meses
02.9K
Swarm:学习轻量级多智能体系统的实验性教学项目(OpenAI示例)

Swarm: un proyecto pedagógico experimental para el aprendizaje de sistemas corporales ligeros multiinteligentes (ejemplo de OpenAI)

Introducción general Swarm es un marco educativo experimental desarrollado por OpenAI para explorar interfaces ligeras, controladas y fáciles de probar para sistemas multiagente. El marco se utiliza principalmente para demostrar traspasos y patrones rutinarios entre agentes, ayudando a los desarrolladores a comprender e implementar la coordinación y ejecución de sistemas multiagente....
hace 7 meses
02.9K
SHMT:自监督分层化妆转移模型,虚拟化妆,将妆容迁移到新的人像中

SHMT: Modelo de transferencia de maquillaje jerárquico autosupervisado, maquillaje virtual, migración del maquillaje a nuevos retratos.

Introducción exhaustiva SHMT (Self-supervised Hierarchical Makeup Transfer) es un proyecto de migración de maquillaje jerárquico autosupervisado basado en un modelo de difusión latente, cuyo objetivo es lograr una alta calidad de los efectos de maquillaje mediante métodos de aprendizaje no supervisados....
hace 7 meses
02.9K
MultiPost-Extension:将AI生成内容一键同步到自媒体平台的浏览器扩展

MultiPost-Extension: Extensión del navegador para sincronizar contenidos generados por IA con plataformas de autopublicación en un clic

Introducción General MultiPost-Extension es una extensión del navegador de gran alcance diseñado para ayudar a los usuarios publicar contenido en múltiples plataformas de medios sociales en un solo clic. La extensión soporta la publicación simultánea en más de 10 plataformas principales, incluyendo Zhihu, Weibo, Xiaohongshu, TikTok ...
hace 6 meses
02.9K
Diffbot GraphRAG LLM:依赖外部实时知识图谱数据的LLM推理服务

Diffbot GraphRAG LLM: servicio de razonamiento LLM basado en datos externos de grafos de conocimiento en tiempo real.

Introducción exhaustiva Diffbot LLM Reasoning Server es un innovador sistema de modelado lingüístico a gran escala con optimizaciones y mejoras especiales basadas en la arquitectura del modelo LLama. La característica más importante del proyecto es la integración de Knowledge Graph en tiempo real con la generación mejorada de recuperación...
hace 7 meses
02.9K
MiMo:高效数学推理与代码生成的小型开源模型

MiMo: un pequeño modelo de código abierto para el razonamiento matemático eficiente y la generación de código

Introducción general MiMo es un proyecto de modelado de grandes lenguajes de código abierto desarrollado por Xiaomi, centrado en el razonamiento matemático y la generación de código. El producto principal es la familia de modelos MiMo-7B, que contiene un modelo base (Base), un modelo de ajuste fino supervisado (SFT), un químico fuerte entrenado a partir del modelo base....
hace 3 meses
02.9K
ModelBest(面壁智能):全球领先的轻量高性能端侧大模型

ModelBest: el líder mundial en modelos grandes ligeros y de alto rendimiento de extremo a extremo

Introducción general ModelBest es una empresa centrada en el desarrollo de grandes modelos ligeros y de alto rendimiento, y se dedica a aplicar tecnologías avanzadas de IA a la electrónica de consumo convencional y a todo tipo de dispositivos finales de la vida cotidiana. Su serie MiniCPM de modelos finales con extrema potencia aritmética y eficiencia en el uso de la memoria...
hace 10 meses
02.9K
Reactive Resume:支持多语言、多模板的开源免费简历生成器

Reactive Resume: creador de currículos gratuito y de código abierto con soporte multilingüe y multiplantilla

Descripción general Reactive Resume es un creador de currículums gratuito y de código abierto diseñado para simplificar el proceso de crear, actualizar y compartir currículums. La plataforma se centra en la privacidad del usuario, sin seguimiento ni publicidad. Los usuarios pueden autoalojar la aplicación en menos de 30 segundos, tomando el control total de su...
hace 8 meses
02.9K
RF-DETR:实时视觉对象检测开源模型

RF-DETR: un modelo de código abierto para la detección visual de objetos en tiempo real

Introducción general RF-DETR es un modelo de detección de objetos de código abierto desarrollado por el equipo Roboflow. Se basa en la arquitectura Transformer y su característica principal es la eficiencia en tiempo real. Por primera vez, el modelo alcanza más de 60 AP de tiempo real en el conjunto de datos COCO de Microsoft....
hace 5 meses
02.9K
AutoMouser:生成浏览器自动化代码,将鼠标操作通过AI转为Selenium Python脚本

AutoMouser: Generación de código de automatización del navegador para convertir acciones del ratón en scripts Selenium Python mediante IA

Introducción general AutoMouser es una extensión de Chrome que rastrea de forma inteligente las interacciones del usuario y genera automáticamente código de prueba Selenium utilizando los modelos GPT de OpenAI. Para ello, registra las acciones del navegador del usuario y las convierte...
hace 7 meses
02.9K
Morphic:AI驱动的开源搜索引擎,提供智能问答、视频搜索、生成UI代码

Morphic: motor de búsqueda de código abierto impulsado por inteligencia artificial que ofrece preguntas y respuestas inteligentes, búsqueda de vídeos y generación de código de interfaz de usuario.

Introducción general Morphic es un motor de búsqueda basado en tecnología de IA con una interfaz de usuario generativa diseñada para ofrecer preguntas y respuestas inteligentes y una experiencia de búsqueda eficiente. Los usuarios pueden realizar una gran variedad de búsquedas con Morphic, incluyendo texto, vídeo, etc., y pueden guardar el historial de búsqueda y compartir los resultados.Mo...
hace 9 meses
02.9K
Aggregator:一站式代理爬取与聚合平台,免费代理池(请合规使用)

Agregador: plataforma única de rastreo y agregación de agentes, fondo común de agentes gratuitos (utilícelo de forma respetuosa).

Introducción completa Aggregator es un proyecto de código abierto destinado a crear una piscina proxy libre que puede rastrear una variedad de nodos proxy disponibles. La plataforma tiene un sistema flexible de plug-in , los usuarios pueden de acuerdo a las necesidades especiales del sitio de destino , a través de plug-ins para lograr funciones específicas . El proyecto se utiliza principalmente para aprender a rastrear ...
hace 9 meses
02.9K
BotSharp:基于.NET的多智能体AI应开发与管理平台

BotSharp: plataforma de desarrollo y gestión de inteligencia artificial basada en .NET

Introducción completa BotSharp es un proyecto de código abierto basado en .NET Core dedicado a proporcionar una herramienta completa de creación de plataformas de chatbot de IA. Utiliza programación C#, soporta el funcionamiento multiplataforma y tiene como objetivo simplificar la aplicación de algoritmos de aprendizaje automático, permitiendo a los desarrolladores de nivel empresarial...
hace 7 meses
02.9K
Aisuite:统一OpenAI接口风格调用多种大模型,快速切换模型和对比测试

Aisuite: el estilo de interfaz unificado de OpenAI llama a varios modelos grandes, cambio rápido de modelo y pruebas comparativas.

Introducción completa aisuite es una interfaz sencilla y unificada diseñada para permitir a los desarrolladores invocar fácilmente los servicios de múltiples proveedores de IA generativa. Con una interfaz similar a OpenAI, aisuite facilita la interacción con los LLM (Large Language Models) más populares....
hace 9 meses
02.9K
PPTAgent:自动生成和评估PPT演示文稿,文档转PPT

PPTAgent: generación y evaluación automáticas de presentaciones PPT, documentos a PPT

Introducción general PPTAgent es un sistema innovador diseñado para generar automáticamente presentaciones a partir de documentos. El sistema se inspira en el enfoque humano de la creación de presentaciones, utilizando un proceso de dos pasos para garantizar la calidad del contenido y el impacto visual. Además, PPTAgent presenta PPTEval, un completo...
hace 7 meses
02.9K
ComfyUI-Copilot:文字描述生成 ComfyUI 工作流的AI助手

ComfyUI-Copilot: un asistente de IA para la generación de descripciones de texto Flujos de trabajo ComfyUI

Introducción general ComfyUI-Copilot es un nodo personalizado impulsado por IA diseñado para el marco ComfyUI, con el objetivo de mejorar la eficiencia de la depuración y el despliegue de algoritmos de IA a través de la interacción del lenguaje natural. Está desarrollado por el equipo AIDC-AI (Alibaba) y derivado de GitHu...
hace 6 meses
02.9K
Outlines:通过正则表达式、JSON或Pydantic模型生成结构化文本输出

Esquemas: genera salidas de texto estructurado mediante expresiones regulares, JSON o modelos Pydantic.

Introducción general Outlines es una biblioteca de código abierto desarrollada por dottxt-ai para mejorar la aplicación de Large Language Models (LLMs) a través de la generación de texto estructurado. La biblioteca admite diversas integraciones de modelos, como OpenAI, transformadores...
hace 6 meses
02.9K
Chatlog:提取和查询微信聊天记录的开源工具

Chatlog: herramienta de código abierto para extraer y consultar los registros de chat de WeChat

Introducción General Chatlog es una herramienta de código abierto que se centra en la extracción y consulta de registros de chat de la base de datos local de WeChat. Es compatible con las versiones 3.x y 4.0 de WeChat, tanto para sistemas Windows como macOS. Los usuarios pueden utilizar la línea de comandos, la interfaz de terminal o H...
hace 4 meses
02.9K
MemFree:本地知识库与搜索信息混合的AI搜索引擎

MemFree: un motor de búsqueda de inteligencia artificial para mezclar bases de conocimiento local e información de búsqueda

Introducción general MemFree es un avanzado motor de búsqueda híbrido de IA capaz de buscar y hacer preguntas a través de texto, imágenes, documentos y páginas web. Proporciona acceso con un solo clic a los resultados de búsqueda de texto, mapas mentales, imágenes y vídeos.MemFree pretende extraer información de la base de conocimientos del usuario y...
hace 10 meses
02.9K
PocketFlow:100行代码实现AI应用开发的极简框架

PocketFlow: un marco minimalista para el desarrollo de aplicaciones de inteligencia artificial en 100 líneas de código

Introducción completa PocketFlow es un marco de desarrollo de aplicaciones de IA ligero con sólo 100 líneas de código, desarrollado por el equipo de The-Pocket y de código abierto en GitHub. Persigue un diseño minimalista , el núcleo de control de código en 100 líneas , sin dependencias externas ...
hace 5 meses
02.9K
Qwen2.5-Omni:多模态输入和实时语音交互的端测模型

Qwen2.5-Omni: un modelo de medición final para entrada multimodal e interacción verbal en tiempo real

Introducción general Qwen2.5-Omni es un modelo de IA multimodal de código abierto desarrollado por el equipo Qwen de Alibaba Cloud. Puede procesar múltiples entradas, como texto, imágenes, audio y vídeo, y generar respuestas de texto o habla natural en tiempo real. El modelo se lanzó en 2025 el 3 ...
hace 5 meses
02.9K
OneFileLLM:整合多种数据源为单一文本文件

OneFileLLM: Integración de múltiples fuentes de datos en un único archivo de texto

Introducción completa OneFileLLM es una herramienta de línea de comandos de código abierto diseñada para consolidar múltiples fuentes de datos en un único archivo de texto para facilitar la entrada en grandes modelos lingüísticos (LLM). Permite procesar repositorios de GitHub, artículos de ArXiv, transcripciones de vídeos de YouTube,...
hace 4 meses
02.9K
TankWork:通过语音和文字操作电脑,并提供实时语音反馈的智能体

TankWork: un cuerpo inteligente que maneja ordenadores mediante voz y texto y proporciona información de voz en tiempo real.

Introducción general TankWork es un marco de agentes de escritorio de código abierto diseñado para permitir que la IA perciba y controle su ordenador a través de la visión por ordenador y la interacción a nivel de sistema. El marco permite a los agentes controlar directamente los ordenadores mediante comandos de voz y texto, procesar el contenido de la pantalla en tiempo real y proporcionar...
hace 7 meses
02.9K
Tap4 AI WebUI:开源轻量级AI工具导航项目

Tap4 AI WebUI: proyecto de código abierto de navegación por herramientas ligeras de IA

Introducción completa Tap4 AI WebUI es un proyecto de sitio web de navegación de herramientas de IA de código abierto, diseñado para ayudar a los usuarios a construir fácilmente su propio catálogo de herramientas de IA. El proyecto utiliza Next.js y la pila de tecnología Supabase , soporte para la optimización SEO multi-idioma para proporcionar AI...
hace 10 meses
02.9K
OpenVoice(MyShell):多语言少样本即时语音克隆

OpenVoice (MyShell): Clonación instantánea de voz en varios idiomas con menos muestras

Introducción general OpenVoice es un método versátil de clonación instantánea del habla que permite copiar la voz de un locutor de referencia y generar habla multilingüe utilizando sólo breves clips de audio del locutor. Además de copiar tonos, OpenVoice permite controlar con precisión el estilo de la voz,...
hace 10 meses
02.9K
Orama:高性能全文本和向量搜索引擎

Orama: un motor de búsqueda vectorial y de libros a texto completo de alto rendimiento

Introducción general Orama es un motor de búsqueda de código abierto y alto rendimiento , escrito íntegramente en TypeScript , que soporta búsqueda de texto completo , búsqueda vectorial y búsqueda híbrida.Orama está diseñado para funcionar en cualquier entorno de ejecución JavaScript , proporcionando ...
hace 7 meses
02.9K
VideoChat:自定义形象和音色克隆的实时语音交互数字人,支持端到端语音方案和级联方案

VideoChat: persona digital interactiva de voz en tiempo real con clonación personalizada de imágenes y tonos, compatible con soluciones de voz de extremo a extremo y soluciones en cascada.

Introducción general VideoChat es un proyecto de persona digital de interacción de voz en tiempo real basado en tecnología de código abierto, que admite tanto esquemas de voz de extremo a extremo (GLM-4-Voice - THG) como esquemas en cascada (ASR-LLM-TTS-THG). El proyecto permite a los usuarios personalizar la ...
hace 9 meses
02.9K
Languine:使用AI进行应用程序翻译,兼容所有主流 i18n 库

Languine: traducción de aplicaciones mediante IA, compatible con las principales bibliotecas i18n.

Introducción general Languine es una potente herramienta de traducción desarrollada por Midday para ayudar a los desarrolladores a agilizar el proceso de localización de sus aplicaciones. Con Languine, los desarrolladores pueden aprovechar la tecnología de IA para generar rápidamente traducciones precisas y...
hace 8 meses
02.8K
Gemini Balance:Gemini模型API兼容OpenAI格式,解锁区域限制并支持多API Key轮询

Gemini Balance: la API del modelo Gemini es compatible con el formato OpenAI, desbloquea las restricciones regionales y admite el sondeo de claves multiAPI.

Introducción completa Gemini Balance es un servicio proxy de API OpenAI desarrollado sobre la base del marco FastAPI, con el objetivo de proporcionar una gestión eficaz de claves multiAPI y funciones de optimización. El proyecto es compatible con las llamadas al modelo Gemini, y entre sus principales...
hace 4 meses
02.8K
QAnything:高度集成RAG处理流程的本地知识库问答系统

QAnything: Sistema de preguntas y respuestas de base de conocimientos local con flujo de procesamiento RAG altamente integrado

QAnything Introducción Completa QAnything (Question and Answer based on Anything) es un sistema de preguntas y respuestas de base de conocimiento local lanzado por NetEase, que admite todo tipo de formatos de archivo y bases de datos, y se puede instalar sin conexión para utilizar...
hace 11 meses
02.8K
DSPy Examples:展示DSPy功能的实用示例

Ejemplos DSPy: Ejemplos prácticos que demuestran la funcionalidad de DSPy

Introducción general La base de código de ejemplos DSPy es una base de código GitHub mantenida por el equipo de IA de Langtrace que muestra una variedad de programas de IA de ejemplo construidos con DSPy. La base de código está diseñada para demostrar las muchas características de DSPy a través de ejemplos del mundo real para ayudar a los...
hace 6 meses
02.8K
Kheish:多角色智能体,审查、验证和格式化输出以生成高质量结果

Kheish: inteligencias polivalentes que revisan, validan y formatean los resultados para obtener resultados de alta calidad.

Introducción exhaustiva Kheish es un agente multirol de código abierto diseñado para tareas de modelado de grandes lenguajes (LLM) que requieren una colaboración estructurada paso a paso.Kheish es más que un simple coordinador, es un agente inteligente por derecho propio, que solicita módulos bajo demanda, integra...
hace 7 meses
02.8K
Prompt Optimizer:优化主流AI模型提示词的开源工具

Prompt Optimizer: una herramienta de código abierto para optimizar las palabras clave de los modelos de IA convencionales.

Introducción general Prompt Optimizer es una herramienta de código abierto centrada en la optimización de palabras clave, desarrollada por linshenkx en GitHub. Ayuda a los usuarios a optimizar las palabras clave de los modelos de IA mediante algoritmos inteligentes, mejorando así la calidad del contenido generado...
hace 5 meses
02.8K
Executive AI Assistant:AI行政助理,提醒阅读邮件并规划工作日程

Asistente ejecutivo AI: AI asistente ejecutivo, recordatorios para leer correos electrónicos y planificar horarios de trabajo.

Introducción general Executive AI Assistant (EAIA) es una herramienta de asistencia basada en IA diseñada para ayudar a los usuarios a automatizar y gestionar sus tareas diarias. Desarrollada por LangChain, la herramienta es capaz de gestionar correos electrónicos, programar, gestionar tareas y otras...
hace 7 meses
02.8K
TableGPT Agent:专为分析复杂表格数据设计的智能工具

TableGPT Agent: herramienta inteligente diseñada para analizar datos tabulares complejos

Introducción completa TableGPT Agent es una herramienta inteligente basada en el proyecto de código abierto GitHub, diseñada para procesar y analizar datos tabulares. Se basa en el modelo Big Language TableGPT2, que utiliza la interacción con el lenguaje natural para permitir a los usuarios consultar, manipular...
hace 6 meses
02.8K
AnkiAIUtils: Anki Flashcard Learning AI Toolset, un asistente inteligente que optimiza automáticamente las tarjetas de memoria

AnkiAIUtils: Anki Flashcard Learning AI Toolset, un asistente inteligente que optimiza automáticamente las tarjetas de memoria

Descripción General AnkiAIUtils es un conjunto de herramientas mejoradas con IA diseñadas para el sistema de aprendizaje de tarjetas flash Anki. Desarrollado por un estudiante de medicina, la herramienta está diseñada para mejorar automáticamente las tarjetas que los usuarios están luchando con durante el proceso de aprendizaje a través de la tecnología de IA. Proporciona a los usuarios...
hace 7 meses
02.8K
Higress:提供高效的AI网关解决方案,简化微服务管理,增强安全防护

Higress: Ofrecer una solución de puerta de enlace de IA eficiente para simplificar la gestión de microservicios y mejorar la seguridad

Introducción completa Higress es una pasarela de API nativa de la nube desarrollada por Alibaba, construida sobre Istio y Envoy, diseñada para proporcionar soluciones eficientes de programación de tráfico, gobernanza de servicios y seguridad. Admite extensiones de plugin Wasm para múltiples lenguajes de programación para negocios de IA....
hace 9 meses
02.8K
Klee:桌面本地运行AI大模型并管理私人知识库

Klee: ejecución local de macromodelos de IA en el escritorio y gestión de una base de conocimientos privada

Introducción general Klee es una aplicación de escritorio de código abierto diseñada para ayudar a los usuarios a ejecutar localmente grandes modelos lingüísticos (LLM) de código abierto con gestión privada y segura de bases de conocimiento y capacidades de toma de notas Markdown. Se basa en las tecnologías Ollama y LlamaIndex...
hace 5 meses
02.8K
Confident AI:自动化大语言模型评估框架,对比不同大模型提示词输出质量

Confident AI: a framework for automated large language model evaluation, comparing the quality of output of different large model cue words (en inglés)

Introducción completa DeepEval es un marco de evaluación LLM de código abierto fácil de usar para evaluar y probar grandes sistemas de modelado del lenguaje. Es similar a Pytest, pero se centra en las pruebas unitarias de los resultados LLM. DeepEval combina los últimos resultados de la investigación...
hace 6 meses
02.8K
SpeechGPT 2.0-preview:实时交互的端到端拟人语音对话大模型

SpeechGPT 2.0-preview: un macromodelo de diálogo antropomórfico de extremo a extremo para la interacción en tiempo real

SpeechGPT 2.0-preview es el primer sistema antropomórfico de interacción en tiempo real introducido por OpenMOSS, que se entrena basándose en millones de horas de datos de habla. El sistema está equipado con una expresión hablada antropomórfica y una respuesta de baja latencia de 100 ms, lo que...
hace 6 meses
02.8K
ChatTTS:模仿真人说话声音的语音生成模型(ChatTTS一键加速包)

ChatTTS: un modelo de generación de voz que imita la voz de una persona real hablando (paquete de aceleración ChatTTS one-click)

Introducción general ChatTTS es un modelo generativo del habla diseñado para escenarios de diálogo. Genera un habla natural y expresiva, admite varios idiomas y varios hablantes, y es adecuado para diálogos interactivos. Para ello, el modelo predice y controla con precisión características rítmicas como la risa, las pausas y las interjecciones,...
hace 6 meses
02.8K
bilive:B站无人监守直播录制与自动切片、上传工具

bilive: grabación en directo no supervisada y autocorte, herramienta de carga para la estación B

Introducción bilive es una herramienta diseñada para la grabación en directo de estaciones B, que proporciona una grabación en directo extremadamente rápida, corte automático, renderización de ventanas emergentes y generación de subtítulos. La herramienta es compatible con máquinas de configuración ultrabaja, soporta grabación desatendida 7x24 horas, identifica y renderiza automáticamente pop-ups y subtítulos, trocea y...
hace 6 meses
02.8K
SemHash:快速实现语义文本去重,提升数据清理效率

SemHash: implementación rápida de la deduplicación semántica de textos para mejorar la eficacia de la limpieza de datos

Introducción completa SemHash es una herramienta ligera y flexible para desduplicar conjuntos de datos por similitud semántica. Combina la rápida generación de incrustaciones de Model2Vec con la eficaz búsqueda de similitud RNA (vecino más cercano aproximado) de Vicinity.SemHa...
hace 7 meses
02.8K
Ultravox:实时端到端语音对话的音频多模态大模型,GPT-4o语音交互的开源实现

Ultravox: un macromodelo multimodal de audio para el diálogo de voz en tiempo real de extremo a extremo, una implementación de código abierto de la interacción de voz GPT-4o

Introducción general Ultravox es un innovador modelo multimodal de lenguaje amplio (LLM) diseñado para el procesamiento del habla en tiempo real. A diferencia de los sistemas tradicionales de reconocimiento del habla, Ultravox elimina la necesidad de una etapa separada de reconocimiento del habla de audio (ASR), y es capaz de convertir directamente el audio en un espacio de alta dimensión en...
hace 8 meses
02.8K
Pyramid Flow:快手推出的开源版

Pyramid Flow: una versión de código abierto de "Kringle" lanzada por Racer, basada en SD3 y que funciona en GPU de menos de 8 GB (versión de despliegue con un solo clic).

Introducción exhaustiva Pyramid Flow es un eficaz método autorregresivo de generación de vídeo basado en la técnica Flow Matching. El método consigue una mayor eficiencia computacional en la generación y descompresión de contenidos de vídeo interpolando entre diferentes resoluciones y niveles de ruido....
hace 9 meses
02.8K
FlowGram.AI:快速创建节点式工作流的开源引擎

FlowGram.AI: un motor de código abierto para crear rápidamente flujos de trabajo nodales

Introducción completa Flowgram.ai es un motor de construcción de procesos de código abierto desarrollado por ByteDance. Se basa en la edición de nodos , para ayudar a los desarrolladores a crear rápidamente flujos de trabajo , el apoyo a la disposición fija y libre vinculación dos modos . El proyecto está escrito en TypeScript ...
hace 5 meses
02.8K
R1-Onevision:支持多模态推理的开源视觉语言模型

R1-Onevision: un modelo de lenguaje visual de código abierto para el razonamiento multimodal

Introducción exhaustiva R1-Onevision es un modelo de macrolenguaje multimodal de código abierto desarrollado por el equipo Fancy-MLLM, centrado en la combinación profunda de visión y lenguaje, capaz de procesar entradas multimodales como imágenes y texto, y de actuar en los campos del razonamiento visual, la comprensión de imágenes, la resolución matemática, etc. ....
hace 5 meses
02.8K