Proyecto AI de código abierto

Total 1020 artículos
TripoSG:单张图像生成高分辨率3D建模数字资产

TripoSG: generación de activos digitales modelados en 3D de alta resolución a partir de una sola imagen

Introducción general TripoSG es un proyecto de código abierto desarrollado por el equipo de investigación VAST AI para generar modelos 3D de alta calidad a partir de una sola imagen. El proyecto utiliza tecnología de convertidor rectificador-flujo a gran escala, combinada con entrenamiento híbrido supervisado y conjuntos de datos de alta calidad, para permitir que los modelos 3D generados tengan...
hace 5 meses
02.5K
Inbox Zero:轻松实现收件箱零邮件,借助 AI 帮助你对邮件进行归类、过滤、处理。

Inbox Zero: Consigue fácilmente cero correos electrónicos en tu bandeja de entrada, con la ayuda de la IA para ayudarte a categorizar, filtrar y procesar tus correos electrónicos.

Descripción general Inbox Zero es una aplicación de gestión de correo electrónico de código abierto diseñada para ayudar a los usuarios a alcanzar rápidamente la bandeja de entrada cero con un asistente de inteligencia artificial. La aplicación ofrece una gran variedad de funciones, como responder automáticamente, archivar, etiquetar y reenviar correos electrónicos, gestionar y darse de baja de boletines, bloquear correos...
hace 8 meses
02.4K
GraphAgent:构建知识图谱,自动化任务规划与执行

GraphAgent: creación de grafos de conocimiento para automatizar la planificación y ejecución de tareas

Introducción exhaustiva GraphAgent es un sistema automatizado de cuerpo inteligente que integra la generación de grafos, la planificación de tareas y su ejecución. Es capaz de procesar datos estructurados y no estructurados, construir complejos grafos de dependencias semánticas y ejecutar eficientemente tareas de usuario mediante autoplanificación y adaptación de herramientas.Graph...
hace 7 meses
02.4K
RealtimeVoiceChat:低延迟与AI进行自然口语对话

RealtimeVoiceChat: diálogo hablado natural de baja latencia con IA

Introducción general RealtimeVoiceChat es un proyecto de código abierto centrado en conversaciones naturales y en tiempo real con inteligencia artificial a través de la voz. Los usuarios utilizan un micrófono para introducir su voz, y el sistema captura el audio a través de un navegador, lo convierte rápidamente en texto, y un gran modelo de lenguaje (LLM) genera de nuevo...
hace 3 meses
02.4K
Dia:生成超现实多人对话的文本转语音模型

Dia: un modelo texto-voz para generar diálogos multijugador hiperrealistas

Introducción general Dia es un modelo de texto a voz (TTS) de código abierto desarrollado por Nari Labs y centrado en la generación de audio de diálogo hiperrealista. Transforma guiones de texto en diálogos realistas de varios caracteres en un solo proceso, admite el control de emociones y entonación, e incluso genera representaciones no verbales....
hace 4 meses
02.4K
茴香豆:基于LLM(大型语言模型) 的群聊助手

Fennel Bean: Asistente de chat en grupo basado en LLM (Large Language Model)

Introducción general HuixiangDou es un asistente de chat en grupo basado en modelos lingüísticos a gran escala (LLM) diseñado para hacer frente a escenarios de chat en grupo mediante un proceso de preprocesamiento, rechazo y respuesta en tres fases. Es capaz de responder a las preguntas de los usuarios sin provocar una inundación de información. El proyecto proporciona un ...
hace 6 meses
02.4K
TheoremExplainAgent:利用 Manim 生成5分钟以上数学讲解动画视频

TheoremExplainAgent: Genera vídeos explicativos de matemáticas animados de más de 5 minutos con Manim

Introducción general TheoremExplainAgent es un proyecto innovador desarrollado por TIGER AI Lab para transformar complejos teoremas matemáticos y científicos en animaciones de vídeo fáciles de entender utilizando técnicas de inteligencia artificial. La herramienta se basa en el Large Language Model (LLM...
hace 6 meses
02.4K
SongGen:自动生成歌曲的单阶段自回归Transformer

SongGen: un transformador autorregresivo de una etapa para la generación automática de canciones

Introducción SongGen es un modelo autorregresivo de Transformación de una sola etapa, de código abierto, diseñado para tareas de generación de texto a canción. El modelo es capaz de generar canciones que contienen voces y pistas de acompañamiento de entrada de texto.SongGen proporciona un control de grano fino sobre una amplia gama de atributos musicales ...
hace 6 meses
02.4K
Trackers:用于视频对象跟踪的开源工具库

Trackers: biblioteca de herramientas de código abierto para el seguimiento de objetos en vídeo

Introducción general Trackers es una biblioteca de herramientas Python de código abierto centrada en el seguimiento multiobjeto en vídeo. Integra varios algoritmos de seguimiento líderes, como SORT y DeepSORT, y permite a los usuarios combinar diferentes modelos de detección de objetos (como YOLO...
hace 3 meses
02.4K
OmniSQL:将自然语言转化为高质量SQL查询的模型

OmniSQL: un modelo para transformar el lenguaje natural en consultas SQL de alta calidad

Introducción general OmniSQL es un proyecto de código abierto desarrollado por el equipo RUCKBReasoning y alojado en GitHub. Su función principal es transformar las preguntas en lenguaje natural introducidas por el usuario en sentencias de consulta SQL de alta calidad , para ayudar a los usuarios fácilmente con el número de...
hace 4 meses
02.4K
Deep Research:基于AI的深度研究助手,提供高效的研究工具和报告生成功能

Deep Research: un asistente de investigación profunda basado en IA que proporciona herramientas de investigación eficientes y capacidades de generación de informes.

Introducción general Deep Research es un asistente de investigación basado en IA diseñado para realizar investigación profunda iterativa combinando motores de búsqueda, rastreo web y grandes modelos de lenguaje. El proyecto fue lanzado por dzhng en GitHub con el objetivo de proporcionar un generador de investigación profunda fácil de usar....
hace 4 meses
02.4K
Hunyuan3D-2:腾讯开源的高分辨率3D模型生成工具

Hunyuan3D-2: herramienta de código abierto de Tencent para la generación de modelos 3D de alta resolución

Introducción general Hunyuan3D-2 es un proyecto de código abierto desarrollado por Tencent para generar modelos 3D de alta resolución a partir de texto o imágenes. Consta de dos componentes principales: modelo de generación de formas (Hunyuan3D-DiT) y modelo de generación de texturas (Hunyuan3D...
hace 5 meses
02.4K
CoT-Lab:探索人机协作迭代思考的实验性对话工具

CoT-Lab: una herramienta de diálogo experimental para explorar el pensamiento iterativo sobre la colaboración persona-ordenador.

CoT-Lab es una interfaz experimental para explorar nuevos paradigmas en la colaboración entre humanos y ordenadores. Basado en la Teoría de la Carga Cognitiva y los Principios del Aprendizaje Activo, CoT-Lab facilita una profunda alineación cognitiva entre humanos e Inteligencia Artificial (IA) mediante la creación de relaciones de "compañero pensante". El proyecto pretende...
hace 6 meses
02.4K
DeepResearcher:基于强化学习驱动AI研究复杂问题

DeepResearcher: IA motriz basada en el aprendizaje por refuerzo para estudiar problemas complejos

Introducción general DeepResearcher es un proyecto de código abierto desarrollado por el equipo GAIR-NLP de la Universidad Jiao Tong de Shanghai. Se trata de una herramienta de investigación inteligente basada en grandes modelos lingüísticos (LLM), entrenados de principio a fin en entornos web reales mediante aprendizaje por refuerzo (RL). El proyecto ...
hace 4 meses
02.4K
Omni-RGPT:图像和视频区域级理解多模态大模型,提升视觉内容分析能力

Omni-RGPT: un gran modelo multimodal de comprensión regional de imágenes y vídeos para mejorar el análisis del contenido visual

Introducción exhaustiva Omni-RGPT es un modelo de lenguaje multimodal de gran tamaño diseñado para permitir la comprensión a nivel de región de imágenes y vídeos. Mediante la introducción de la técnica Token Mark, Omni-RGPT es capaz de resaltar la región objetivo en el espacio de características visuales e indicar la región objetivo mediante pistas de región (por ejemplo, recuadros o...
hace 7 meses
02.4K
CodeWeaver:将代码结构和内容自动生成Markdown文档

CodeWeaver: Genera automáticamente documentos Markdown a partir de la estructura y el contenido del código.

Introducción general CodeWeaver es una herramienta de línea de comandos diseñada para entretejer bibliotecas de código en documentos Markdown únicos y fáciles de navegar. Genera una representación estructurada de la jerarquía de archivos de un proyecto escaneando recursivamente los directorios e incrustando el contenido de cada archivo en bloques de código. Esta herramienta...
hace 6 meses
02.4K
Grok-Mirror:一键部署可盈利的Grok镜像站

Grok-Mirror: despliegue en un clic de sitios espejo Grok rentables

Introducción completa Grok-Mirror es una estación de espejo doméstica Grok3 de despliegue rápido sin servidor basada en la construcción de una estación de espejo Grok operable. Permite a los usuarios implementar quioscos Grok locales con un solo clic a través de Docker.Grok es una inteligencia artificial de xAI...
hace 5 meses
02.4K
自动解析PDF内容并提取文字与表格的开源服务

Analice automáticamente el contenido del PDF y extraiga el texto y las tablas de los servicios de código abierto

Introducción Completa Analiza automáticamente el diseño de documentos PDF, identifica texto, títulos, imágenes, tablas, fórmulas y otros elementos de la página, y determina su orden correcto. La herramienta es compatible con la funcionalidad OCR y puede convertir PDF escaneados en texto con capacidad de búsqueda. Se ejecuta en Docker y proporciona dos modelos...
hace 4 meses
02.4K
SegAnyMo:从视频中自动分割任意运动物体的开源工具

SegAnyMo: herramienta de código abierto para segmentar automáticamente objetos arbitrarios en movimiento a partir de vídeo

Introducción general SegAnyMo es un proyecto de código abierto desarrollado por un equipo de investigadores de la UC Berkeley y la Universidad de Pekín, entre los que se encuentran miembros como Nan Huang. Esta herramienta se centra en el procesamiento de vídeo y puede identificar y segmentar automáticamente objetos arbitrarios en movimiento en un vídeo, como personas, animales o...
hace 4 meses
02.4K
Local Deep Research:本地运行的生成深度研究报告工具

Local Deep Research: una herramienta de gestión local para generar informes de investigación en profundidad.

Introducción general Local Deep Research es un asistente de investigación de IA de código abierto diseñado para ayudar a los usuarios a realizar investigaciones profundas y generar informes detallados para problemas complejos. Es compatible con la ejecución local, lo que permite a los usuarios completar las tareas de investigación sin depender de los servicios en la nube. La herramienta ...
hace 3 meses
02.4K
Skywork-R1V:昆仑万文开源的图文混合多模态推理模型

Skywork-R1V: un modelo gráfico híbrido de razonamiento multimodal de código abierto por Kunlun Wanwen

Introducción general Skywork-R1V es un modelo de razonamiento multimodal de código abierto desarrollado por el equipo SkyworkAI (Kunlun Wanwei) y publicado en GitHub.Es capaz de procesar imágenes y texto simultáneamente, realizar razonamientos lógicos multipaso, y es particularmente bueno analizando problemas complejos de imágenes. Este...
hace 5 meses
02.4K
AI Logo:AI快速生成定制化品牌Logo

Logotipo AI: la IA genera rápidamente logotipos de marca personalizados

Introducción general AI Logo es un proyecto de aplicación de IA de código abierto con el objetivo de ayudar a los usuarios a generar rápidamente logotipos de marca personalizados mediante inteligencia artificial. Combina potentes técnicas de IA como Stable Diffusion y DeepAI para permitir a los usuarios introducir...
hace 5 meses
02.4K
Zev:用自然语言快速查询终端命令的CLI工具

Zev: una herramienta CLI para consultar rápidamente comandos de terminal en lenguaje natural

Introducción general Zev es una herramienta de interfaz de línea de comandos (CLI) fácil de usar que ayuda a los usuarios a consultar y generar rápidamente comandos de terminal en lenguaje natural. En lugar de tener que recordar complejas sintaxis de comandos, Zev genera comandos de terminal describiendo tus necesidades en lenguaje cotidiano. Basado en Ope...
hace 4 meses
02.4K
OmniParser:用户界面截图解析成结构化元素,便于大模型理解和操作

OmniParser: capturas de pantalla de la interfaz de usuario convertidas en elementos estructurados para facilitar la comprensión y manipulación de modelos de gran tamaño.

Introducción general OmniParser es una herramienta desarrollada por Microsoft para analizar capturas de pantalla de la interfaz de usuario y convertirlas en elementos estructurados y fáciles de entender. Esta herramienta mejora significativamente la capacidad de GPT-4V para generar acciones precisas en el área de interfaz correspondiente.OmniParser no sólo admite...
hace 6 meses
02.4K
CogView4:生成中英双语高清图片的开源文生图模型

CogView4: un modelo gráfico de código abierto para generar imágenes bilingües de alta definición en chino e inglés

Introducción general CogView4 es un modelo de conversión de texto a gráfico de código abierto desarrollado por el KEG Lab (THUDM) de la Universidad de Tsinghua, centrado en la conversión de descripciones de texto en imágenes de alta calidad. Admite la introducción de palabras de referencia bilingües, y es especialmente bueno en la comprensión de pistas chinas y la generación de imágenes con caracteres chinos, no...
hace 5 meses
02.4K
HN中文播客:自动抓取热门科技文章,AI生成中文总结并转换为播客

Podcast en chino de HN: captura automáticamente artículos tecnológicos populares, la IA genera resúmenes en chino y los convierte en podcasts.

Introducción general El proyecto Hacker News Chinese Podcast es una plataforma innovadora basada en tecnología de IA, cuyo objetivo es recopilar automáticamente los artículos más populares de Hacker News cada día y generar resúmenes en chino y contenidos de podcast mediante IA. El proyecto está dirigido por ccbikai ...
hace 6 meses
02.4K
Step1X-Edit:自然语言指令编辑图像的开源工具

Step1X-Edit: una herramienta de código abierto para editar imágenes con instrucciones de lenguaje natural

Introducción general Step1X-Edit es un marco de edición de imágenes de código abierto desarrollado por el equipo Stepfun AI y alojado en GitHub. Combina un modelo de lenguaje multimodal de gran tamaño (Qwen-VL) y un transformador de difusión (DiT) para permitir a los usuarios crear imágenes a través de un...
hace 3 meses
02.4K
OpenSearch-SQL:将自然语言转为SQL查询的开源工具

OpenSearch-SQL: una herramienta de código abierto para convertir el lenguaje natural en consultas SQL

Introducción completa OpenSearch-SQL es un proyecto de código abierto , es una poderosa herramienta Texto-a-SQL que puede transformar las descripciones en lenguaje natural del usuario en sentencias de consulta SQL , para ayudar a las personas que no están familiarizadas con la base de datos para acceder fácilmente a los datos . Este proyecto fue desarrollado por O...
hace 5 meses
02.4K
GPT Researcher:利用本地和网络数据,生成全面、详实的研究报告

GPT Researcher: Genere informes de investigación completos y detallados utilizando datos locales y de Internet.

Introducción exhaustiva GPT Researcher es una herramienta de agente autónomo basada en el Large Language Model (LLM) diseñada para realizar investigaciones locales y en la web y generar informes de investigación detallados. La herramienta proporciona un rendimiento estable y una mayor velocidad al paralelizar el trabajo del agente, garantizando que la información sea precisa...
hace 4 meses
02.4K
Airweave:让应用程序快速集成知识库,实现智能搜索

Airweave: aplicaciones que integran rápidamente bases de conocimiento para búsquedas inteligentes

Introducción general Airweave es una herramienta de código abierto diseñada para facilitar la búsqueda en cualquier aplicación mediante la sincronización de los datos de las aplicaciones, API, bases de datos y sitios web del usuario con bases de datos gráficas y vectoriales.
hace 6 meses
02.4K
Plandex:支持超长上下文的开源AI编码助手

Plandex: un asistente de código abierto para la codificación de IA con soporte para contextos ultralargos

Introducción General Plandex es un código abierto de extremo a extremo AI codificación asistente diseñado para proyectos de software grandes y complejos. Puede planificar y ejecutar tareas de múltiples pasos, manejar contextos de hasta 2 millones de fichas y soportar más de 30 lenguajes de programación.Plandex ofrece...
hace 4 meses
02.3K
Story-Flicks:输入主题自动生成儿童短故事视频

Story-Flicks: introduce temas para generar automáticamente vídeos de cuentos infantiles

Introducción completa Story-Flicks es una herramienta de IA de código abierto centrada en ayudar a los usuarios a generar rápidamente vídeos de historias en alta definición. Los usuarios sólo tienen que introducir un tema de la historia, y el sistema generará el contenido de la historia a través de un modelo de lenguaje grande, y combinar las imágenes generadas por IA, audio y subtítulos para...
hace 5 meses
02.3K
Paper to Podcast:把学术论文转换为多人对话播客

De paper a podcast: cómo convertir trabajos académicos en podcasts de conversación entre varias personas

Introducción general Paper to Podcast es una herramienta de código abierto especializada en transformar trabajos de investigación académica en podcasts animados y entretenidos. Utiliza tecnología de inteligencia artificial para convertir un documento en formato PDF en un diálogo entre tres personajes (el anfitrión, el alumno y el experto) para...
hace 4 meses
02.3K
AgentIQ:灵活连接和管理AI智能体的开源工具

AgentIQ: una herramienta de código abierto para la conexión y gestión flexibles de inteligencias artificiales

Introducción general AgentIQ es una herramienta de código abierto de NVIDIA diseñada para ayudar a los desarrolladores a conectar y gestionar eficientemente las inteligencias de IA. Permite a las inteligencias de diferentes marcos colaborar sin problemas, conectar datos y herramientas empresariales y crear flujos de trabajo como funciones de llamada. Lo más importante de la herramienta...
hace 5 meses
02.3K
UNO:支持单主体和多主体定制化图像生成工具(适合电商配图)

UNO: compatibilidad con herramientas de generación de imágenes personalizadas mono y multisujeto (adecuadas para gráficos de comercio electrónico).

UNO es un marco de generación de imágenes de código abierto desarrollado por el equipo de creación inteligente ByteDance. Se basa en el modelo FLUX.1 y se centra en la generación de imágenes personalizadas de un único sujeto y de varios sujetos mediante un enfoque de generalización de "menos a más".UNO utiliza el transformador de difusión...
hace 4 meses
02.3K
PrimisAI Nexus:构建可扩展AI多智能体系统与任务自动化的轻量框架

PrimisAI Nexus: un marco ligero para construir sistemas de inteligencia múltiple de IA escalables y automatización de tareas

Introducción general PrimisAI Nexus es un marco ligero de código abierto Python alojado en GitHub y desarrollado por el equipo PrimisAI, con el objetivo de ayudar a los usuarios a construir y gestionar sistemas de cuerpos multi-inteligentes de IA escalables a través de Large Language Modelling (LLM), permitiendo...
hace 5 meses
02.3K
SkyPilot:在任何云端高效运行AI与批处理任务的开源框架

SkyPilot: un marco de código abierto para ejecutar eficazmente tareas de IA y por lotes en cualquier nube

Introducción general SkyPilot es un marco de código abierto iniciado por el Sky Computing Lab de la Universidad de California, Berkeley, diseñado para ayudar a los usuarios a ejecutar eficientemente tareas de IA y procesamiento por lotes en cualquier infraestructura de nube. Es compatible con más de 14 servicios en la nube (incluidos ...
hace 6 meses
02.3K
Shandu:多轮收集分析信息的AI研究自动化工具

Shandu: una herramienta de automatización de la investigación con IA para recopilar y analizar información en múltiples rondas

Introducción general Shandu es un sistema de investigación basado en inteligencia artificial de código abierto alojado en GitHub y creado por el desarrollador jolovicdev. Utiliza las tecnologías LangChain y LangGraph, y su objetivo es proporcionar...
hace 4 meses
02.3K
Fast-Agent:声明式语法和MCP集成快速构建多智能体工作流

Fast-Agent: gramática declarativa e integración con MCP para crear rápidamente flujos de trabajo corporales multiinteligentes

Introducción general Fast-Agent es una herramienta de código abierto mantenida por el equipo evalstate en GitHub, diseñada para ayudar a los desarrolladores a definir, probar y construir rápidamente flujos de trabajo multiinteligencia. Se basa en una sintaxis declarativa sencilla y admite el uso de MCP (Modo...
hace 5 meses
02.3K
Onyx:连接企业知识库的智能AI聊天平台

Onyx: una plataforma de chat inteligente que conecta las bases de conocimiento de las empresas

Introducción general Onyx (antes conocido como Danswer) es una plataforma de chat de IA de código abierto desarrollada por el equipo onyx-dot-app para ayudar a las organizaciones a integrar y gestionar documentos, aplicaciones y datos de empleados. Proporciona una rica funcionalidad de chat con soporte para conectar cualquier Large Language Model (LLM...
hace 5 meses
02.3K
文颜:一键美化Markdown文章,适配多个自媒体平台格式(开源本地客户端)

Wenyan: embellece artículos Markdown con un solo clic, se adapta al formato de múltiples plataformas multimedia propias (cliente local de código abierto)

Introducción general WenYan es una herramienta diseñada para la composición tipográfica y el embellecimiento de artículos Markdown, que permite convertir artículos Markdown editados en un formato adecuado para WeChat, Zhihu, Today's headlines y otras plataformas. Los usuarios pueden copiar el artículo directamente con un clic...
hace 7 meses
02.3K
Together Open Deep Research:生成带索引的深度研究报告

Together Open Deep Research: generación de informes indexados de investigación profunda

Introducción general Open Deep Research es una herramienta de investigación en profundidad desarrollada y de código abierto por el equipo Together AI y alojada en GitHub. Simula el proceso de investigación humana mediante un flujo de trabajo de IA multiagente, generando informes de investigación detallados...
hace 4 meses
02.3K
InfiniteYou:保留人脸特征的照片生成与编辑工具

InfiniteYou: una herramienta de generación y edición de fotos que conserva los rasgos faciales

Introducción general InfiniteYou es un proyecto de código abierto desarrollado por el equipo de ByteDance Intelligent Creation. Se basa en la tecnología de Transformadores de Difusión (DiTs), utilizando el modelo FLUX.1-dev, la función principal es permitir a los usuarios subir una foto e introducir una descripción de texto, generando...
hace 5 meses
02.3K
Coding-Tutor:提供个性化编程指导的智能教学助手

Coding-Tutor: un asistente pedagógico inteligente que ofrece orientación personalizada sobre programación

Introducción general Coding-Tutor es un proyecto de código abierto alojado en GitHub y creado por el desarrollador iwangjian para proporcionar a los alumnos una experiencia de enseñanza de programación personalizada. Utiliza tecnología de IA conversacional para aprender basándose en los conocimientos...
hace 6 meses
02.3K
Mad Professor:辅助阅读和分析学术论文的AI工具

Mad Professor: una herramienta de inteligencia artificial que ayuda a leer y analizar trabajos académicos

Introducción general Mad Professor (Grumpy Professor Reads Papers) es una herramienta académica de IA de código abierto diseñada para que investigadores y estudiantes simplifiquen la lectura y el análisis de documentos académicos. Integra procesamiento PDF, traducción IA, recuperación RAG, preguntas IA...
hace 3 meses
02.3K
GAG:利用大模型模拟人类行为生成社交关系图谱

GAG: generación de un gráfico de relaciones sociales mediante un gran modelo para simular el comportamiento humano

Introducción general GraphAgent es un framework de código abierto alojado en GitHub y desarrollado por Ji-Cather. Utiliza el Large Language Model (LLM) para simular el comportamiento humano y generar gráficos sociales dinámicos con atributos textuales. Esta herramienta es adecuada para los...
hace 5 meses
02.3K
FreeAI:基于Pollinations封装的的免费AI工具

FreeAI: herramienta gratuita de IA basada en el paquete Pollinations.

Introducción general FreeAI es una plataforma de aplicaciones de IA de código abierto basada en la API Pollinations.AI, que proporciona servicios gratuitos e ilimitados de asistentes de chat de IA, generación de imágenes y síntesis de voz. El proyecto fue iniciado por el desarrollador Azad-sl en G...
hace 4 meses
02.3K
Deep Searcher:企业私有文档高效检索与智能问答

Deep Searcher: recuperación eficiente de documentos privados de empresas y preguntas y respuestas inteligentes

Descripción general Deep Searcher es una herramienta que combina potentes modelos de big language (como DeepSeek y OpenAI) y bases de datos vectoriales (como Milvus) diseñados para buscar, evaluar y razonar basándose en datos privados, proporcionando respuestas altamente precisas...
hace 6 meses
02.3K
VOP:提取复杂图表与数学公式的OCR工具

VOP: herramienta de OCR para extraer diagramas complejos y fórmulas matemáticas

Introducción completa Versatile OCR Program es una herramienta de reconocimiento óptico de caracteres (OCR) de código abierto diseñada para trabajar con documentos académicos y educativos complejos. Puede extraer texto, tablas, fórmulas matemáticas, diagramas y esquemas de PDF, imágenes y otros documentos y generar...
hace 4 meses
02.3K
HumanOmni:分析人类视频情感和动作的多模态大模型

HumanOmni: un macromodelo multimodal para analizar emociones y acciones humanas en vídeo

Introducción general HumanOmni es un gran modelo multimodal de código abierto desarrollado por el equipo HumanMLLM y alojado en GitHub. Se centra en el análisis de vídeos humanos y puede procesar tanto la imagen como el sonido para ayudar a comprender las emociones, las acciones y el contenido de los diálogos. El proyecto utiliza 2...
hace 5 meses
02.3K
OpenDeepSearch:支持智能推理的开源搜索工具

OpenDeepSearch: una herramienta de búsqueda de código abierto que permite el razonamiento inteligente

Introducción general OpenDeepSearch es una herramienta de búsqueda de código abierto desarrollada por el equipo sentient-agi. Combina Large Language Modelling (LLM) y Agentes de Razonamiento Inteligente para permitir a los usuarios buscar información en páginas web y obtener respuestas precisas de forma sencilla. Esta ...
hace 5 meses
02.3K
Tarsier:生成高质量视频描述的开源视频理解模型

Tarsier: un modelo de comprensión de vídeo de código abierto para generar descripciones de vídeo de alta calidad

Introducción general Tarsier es una familia de modelos de videolenguaje de código abierto desarrollada por ByteDance para generar descripciones de vídeo de alta calidad. Consta de una estructura sencilla: el CLIP-ViT procesa los fotogramas de vídeo, combinado con un Large Language Model (LLM) para analizar...
hace 4 meses
02.3K
TestDriver:使用AI自动测试软件的智能工具

TestDriver: una herramienta inteligente para automatizar las pruebas de software mediante IA

Introducción general TestDriver es un sitio web que utiliza tecnología de inteligencia artificial para ayudar a los desarrolladores a probar software. Automatiza la tarea de probar software simulando acciones humanas, como hacer clic con el ratón o teclear texto. En el corazón del sitio hay un "ordenador que utiliza un agente de IA" que funciona como una persona real...
hace 4 meses
02.3K
GenXD:生成任意3D和4D场景视频的开源框架

GenXD: framework de código abierto para generar vídeos de escenas arbitrarias en 3D y 4D

Introducción general GenXD es un proyecto de código abierto desarrollado por la Universidad Nacional de Singapur (NUS) y el equipo de Microsoft. Se centra en la generación de escenas arbitrarias en 3D y 4D , para resolver la generación en 3D y 4D en el mundo real debido a la insuficiencia de datos y la complejidad del diseño del modelo provocada por el problema . El proyecto fue desarrollado por ...
hace 4 meses
02.3K
Abogen:将多种文本格式转换为有声读物的工具

Abogen: una herramienta para convertir múltiples formatos de texto en audiolibros

Introducción general Abogen es una herramienta de código abierto diseñada para convertir rápidamente archivos ePub, PDF o de texto plano en audio de alta calidad. Utiliza el modelo Kokoro-82M para generar un habla natural y fluida, y admite la generación simultánea de subtítulos, lo que resulta idóneo para producir audiolibros....
hace 3 meses
02.3K
AgentLaboratory:利用智能代理完成科研全流程的开源工具

AgentLaboratory: una herramienta de código abierto para completar todo el proceso de investigación científica con agentes inteligentes

Introducción general AgentLaboratory es una herramienta de código abierto alojada en GitHub y desarrollada por Samuel Schmidgall. Utiliza agentes inteligentes impulsados por Large Language Models (LLMs) para ayudar a los investigadores con todo el proceso de...
hace 5 meses
02.3K
Dify-Plus:为Dify开发的企业内部管理后台

Dify-Plus: un backend de gestión local para Dify

Introducción completa Dify-Plus es una plataforma de desarrollo de aplicaciones de IA basada en el desarrollo secundario del proyecto de código abierto Dify. Añade un nuevo centro de gestión basado en Dify y optimiza la funcionalidad para escenarios empresariales. El proyecto fue inicialmente para uso interno de las empresas , y más tarde se encontró que la comunidad tiene necesidades similares,...
hace 5 meses
02.2K
OneLine:生成热点事件时间轴的AI工具

OneLine: una herramienta de IA para generar cronologías de acontecimientos candentes

Introducción general OneLine es una herramienta de código abierto para generar cronologías de eventos alojada en GitHub y desarrollada por el usuario chengtx809. Genera rápidamente una línea de tiempo de eventos por palabras clave introducidas por el usuario, mostrando la hora, título, descripción y personas relacionadas del evento....
hace 4 meses
02.2K
GraphGen:利用知识图谱生成合成数据微调语言模型

GraphGen: ajuste de modelos lingüísticos mediante grafos de conocimiento para generar datos sintéticos

Introducción general GraphGen es un marco de código abierto desarrollado por OpenScienceLab, un laboratorio de IA de Shanghái, alojado en GitHub, que se centra en optimizar el ajuste fino supervisado de grandes modelos lingüísticos (LLM) guiando la generación de datos sintéticos a través de grafos de conocimiento. Se desarrolló a partir de ...
hace 3 meses
02.2K
Dolphin:面向亚洲语言识别与语音转文本模型

Dolphin: reconocimiento de lenguas asiáticas y modelización de voz a texto para lenguas asiáticas

Introducción general Dolphin es un modelo de código abierto desarrollado por DataoceanAI y la Universidad de Tsinghua, centrado en el reconocimiento del habla y del lenguaje para las lenguas asiáticas. Es compatible con 40 lenguas de Asia Oriental, Asia Meridional, Asia Sudoriental y Oriente Medio, así como con 22 dialectos chinos...
hace 4 meses
02.2K
Company Researcher:公司研究工具,输入公司网址以获取详细研究信息

Company Researcher: Una herramienta de investigación de empresas, introduzca la dirección web de una empresa para obtener información de investigación detallada.

Descripción general Company Researcher (Investigador de empresas) es una herramienta gratuita y de código abierto diseñada para ayudar a los usuarios a obtener una visión rápida y completa de cualquier empresa. Basta con introducir la URL de la empresa y la herramienta recopilará información exhaustiva de la web, presentando información sobre la organización, sus productos...
hace 4 meses
02.2K
ChatAnyone:从照片生成半身数字人肖像视频的工具

ChatAnyone: una herramienta para generar vídeos de retratos humanos digitales de medio cuerpo a partir de fotos

Introducción general ChatAnyone es un proyecto innovador desarrollado por el equipo HumanAIGC. Utiliza técnicas de inteligencia artificial para generar vídeos digitales de retratos humanos con movimientos de la parte superior del cuerpo a partir de una única foto y una entrada de audio. El proyecto se basa en un modelo jerárquico de difusión del movimiento que genera movimientos de la cabeza...
hace 4 meses
02.2K
Orchestra: Creación de equipos inteligentes de IA para un desarrollo colaborativo multiinteligencia más fácil y eficiente

Orchestra: Creación de equipos inteligentes de IA para un desarrollo colaborativo multiinteligencia más fácil y eficiente

Orchestra es un innovador framework ligero de Python que se centra en la construcción de sistemas colaborativos multi-inteligencia basados en el Large Language Model (LLM). Emplea un método único de organización de inteligencias para que múltiples inteligencias IA puedan trabajar en armonía como una orquesta sinfónica. Al modelar ...
hace 7 meses
02.2K
OpenHealthForAll:个人健康数据管理AI助手,上传检查报告定制健康计划

OpenHealthForAll: asistente de IA para la gestión de datos sanitarios personales, carga de informes de exámenes para un plan de salud personalizado.

Introducción general OpenHealthForAll es un proyecto de código abierto diseñado para ayudar a los usuarios a gestionar y comprender sus datos personales de salud. Aprovechando la tecnología de inteligencia artificial, OpenHealthForAll proporciona un asistente de salud de gestión local para ayudar a los usuarios a gestionar mejor...
hace 6 meses
02.2K
AgentGPT:创建并运行自动化AI智能体的开源项目

AgentGPT: un proyecto de código abierto para crear y ejecutar inteligencias artificiales automatizadas

Introducción general AgentGPT es un proyecto de código abierto desarrollado por el equipo Reworkd y alojado en GitHub, diseñado para permitir a los usuarios crear, configurar y desplegar de forma autónoma inteligencias AI a través de un navegador. Los usuarios simplemente establecen un objetivo, y AgentGPT puede...
hace 5 meses
02.2K
Claude生成深度研究报告的MCP服务

Servicio MCP de Claude para generar informes de investigación en profundidad

Introducción general MCP Server Deep Research es una herramienta de código abierto que genera automáticamente informes de investigación estructurados para problemas complejos mediante inteligencia artificial y búsqueda en la web. Los usuarios introducen una pregunta de investigación y la herramienta la desglosa, busca información autorizada, evalúa la credibilidad de las fuentes...
hace 3 meses
02.2K
LitServe:快速部署企业级通用AI模型推理服务

LitServe: despliegue rápido de servicios de inferencia de modelos de IA de uso general para empresas

Introducción completa LitServe es un motor de servicios de modelos de IA de código abierto de Lightning AI, basado en FastAPI, centrado en el despliegue rápido de servicios de inferencia para modelos de IA de propósito general. Admite modelos que van desde grandes modelos de lenguaje (LLM),...
hace 5 meses
02.2K
HunyuanVideoGP:支持低端GPU运行的混元视频生成模型

HunyuanVideoGP: un modelo híbrido de generación de vídeo compatible con GPU de gama baja

Introducción general HunyuanVideoGP es un modelo de generación de vídeo a gran escala desarrollado por DeepBeepMeep y diseñado para usuarios de GPU de gama baja. El modelo es una versión mejorada del modelo Hunyuan Video original, que reduce significativamente los requisitos de memoria y memoria gráfica....
hace 6 meses
02.2K
Thera:任意尺寸图像放大、去锯齿的开源工具

Thera: herramientas de código abierto para la ampliación y el suavizado de imágenes de cualquier tamaño

Introducción general Thera es una herramienta de superresolución de imágenes de código abierto desarrollada por un equipo de la ETH de Zúrich y la Universidad de Zúrich. Puede ampliar imágenes de baja resolución a escalas arbitrarias, como 2x, 3,14x o incluso múltiplos no enteros, y poner...
hace 4 meses
02.2K
混元Turbo S:腾讯推出的快思考大模型(开放申请)

Hybrid Turbo S: el gran modelo de Tencent para pensar rápido (abierto a candidaturas)

Introducción general Tencent Turbo S es una nueva generación del modelo de pensamiento rápido desarrollado por Tencent, que se lanzó en el sitio web oficial de Tencent Cloud el 27 de febrero de 2025. Se diferencia de los modelos tradicionales de pensamiento lento (por ejemplo, Deepseek R1, Hybrid T1) en que puede realizar "segundas respuestas", escupir...
hace 5 meses
02.2K
ColossalAI:提供高效大规模AI模型训练解决方案

ColossalAI: soluciones eficaces de formación de modelos de IA a gran escala

Introducción ColossalAI es una plataforma de código abierto desarrollada por HPC-AI Technologies, con el objetivo de proporcionar una solución eficiente y rentable para el entrenamiento y la inferencia de modelos de IA a gran escala. Al soportar múltiples estrategias paralelas, gestión de memoria heterogénea y entrenamiento de precisión mixta, ColossalAI...
hace 6 meses
02.2K
LangWatch:基于DSPy 框架监控与优化LLM流程的可视化工具

LangWatch: una herramienta de visualización para supervisar y optimizar los procesos de LLM basada en el marco DSPy

Introducción completa LangWatch es una plataforma completa diseñada para las operaciones de grandes modelos lingüísticos (LLM), que proporciona supervisión, análisis, evaluación, gestión de conjuntos de datos y optimización de pistas. La plataforma se basa en el marco DSPy de la Universidad de Stanford y está diseñada para ayudar a los usuarios a gestionar y optimizar mejor...
hace 7 meses
02.2K