Proyecto AI de código abierto

Total 1020 artículos
Open Codex:将自然语言转换为Shell命令的开源AI工具

Open Codex: una herramienta de AI de código abierto para convertir lenguaje natural en comandos de shell

Introducción general Open Codex es una herramienta de AI de línea de comandos de código abierto diseñada para que los desarrolladores conviertan instrucciones de lenguaje natural en comandos de shell precisos. Utiliza un modelo de lenguaje nativo (por ejemplo, phi-4-mini), no requiere redes ni claves API, y todas las operaciones en...
hace 1 año
070.9K
Neural4D:生成高分辨率3D建模数字资产的AI平台

Neural4D: una plataforma de IA para generar activos digitales modelados en 3D de alta resolución

Introducción general Neural4D es una innovadora plataforma basada en IA que se centra en ayudar a los usuarios a generar rápidamente modelos y animaciones 3D de alta calidad con la simple introducción de texto o imágenes. Desarrollada por DreamTech, se basa en la tecnología líder mundial de generación de modelos 3D de gran tamaño de extremo a extremo....
hace 1 año
070.8K
QAnything:高度集成RAG处理流程的本地知识库问答系统

QAnything: Sistema de preguntas y respuestas de base de conocimientos local con flujo de procesamiento RAG altamente integrado

QAnything Introducción Completa QAnything (Question and Answer based on Anything) es un sistema de preguntas y respuestas de base de conocimiento local lanzado por NetEase, que admite todo tipo de formatos de archivo y bases de datos, y se puede instalar sin conexión para utilizar...
hace 2 años
070.6K
ColorFlow:漫画着色,黑白图像自动着色,提升图像色彩一致性和质量

ColorFlow: sombreado de dibujos animados, sombreado automático de imágenes en blanco y negro para mejorar la coherencia y la calidad del color de las imágenes.

Introducción ColorFlow es una herramienta de autocoloreado de secuencias de imágenes desarrollada por el equipo ARC de Tencent para resolver el problema del autocoloreado de secuencias de imágenes en blanco y negro. La herramienta utiliza un proceso de sombreado mejorado para generar con precisión los colores de varios elementos a través de un conjunto de imágenes de referencia, incluidos los colores del pelo de los personajes y los servicios....
hace 1 año
070.5K
OASIS:多智能体模拟数百万用户社交媒体互动,研究复杂社会现象

OASIS: simulación multiinteligente de las interacciones en redes sociales de millones de usuarios para estudiar fenómenos sociales complejos

Introducción general OASIS (Open Agent Social Interaction Simulations) es un simulador de redes sociales de código abierto capaz de simular el comportamiento de hasta un millón de usuarios. La plataforma combina un modelo lingüístico a gran escala con un...
hace 1 año
070.5K
Data Formulator:AI驱动的数据可视化工具

Data Formulator: una herramienta de visualización de datos basada en IA

Introducción general Data Formulator es una herramienta de código abierto de visualización de datos basada en IA desarrollada por Microsoft Research. La herramienta combina una interfaz gráfica de usuario (GUI) y la entrada de lenguaje natural (NL) para permitir a los usuarios crear e iterar rápidamente a través de interacciones y comandos sencillos....
hace 1 año
070.5K
Genesis:开源生成式物理引擎,实现基于真实物理的4D动态世界模拟

Genesis: motor de física generativa de código abierto para la simulación de mundos dinámicos en 4D basados en la física real.

Introducción general Genesis es un mundo de física generativa diseñado para la robótica de propósito general y el aprendizaje de IA personificada. Proporciona una plataforma de simulación unificada que admite la simulación de una amplia gama de materiales y fenómenos físicos.Genesis tiene como objetivo desbloquear la IA generativa y la simulación física mediante la combinación...
hace 1 año
070.4K
闲鱼卖家全天自动值守的AI客服机器人

Bots de atención al cliente con inteligencia artificial que son atendidos automáticamente por los vendedores de Idle Fish a lo largo del día.

Introducción completa XianyuAutoAgent es un sistema robótico de atención al cliente inteligente diseñado para la plataforma Idlefish, de código abierto por el desarrollador shaxiu en GitHub. Utiliza la tecnología de IA para lograr 7×24 horas de servicio automático para ayudar a los vendedores de pescado...
hace 1 año
070.4K
Austen:分析书籍角色关系并生成图表的AI工具

Austen: una herramienta de IA para analizar las relaciones entre los personajes de un libro y generar gráficos

Introducción general Austen es una herramienta de IA de código abierto que utiliza el framework Angular y la inicialización Analogjs, combinados con la tecnología Mermaidjs para generar gráficos que ayudan a los usuarios a analizar las relaciones entre personajes en los libros. Los usuarios pueden...
hace 1 año
070.3K
LlamaEdge:本地运行和微调LLM的最快捷方式

LlamaEdge: ¡la forma más rápida de ejecutar y ajustar LLM localmente!

Introducción general LlamaEdge es un proyecto de código abierto diseñado para simplificar el proceso de ejecución y puesta a punto de grandes modelos lingüísticos (LLM) en dispositivos locales o edge. El proyecto es compatible con la familia de modelos Llama2 y proporciona servicios API compatibles con OpenAI que permiten a los usuarios crear y ejecutar fácilmente...
hace 1 año
070.3K
Fay数字人框架:集成语言模型与3D数字角色,支持多种应用场景

Fay Digital Human Framework: integración de modelos lingüísticos y personajes digitales tridimensionales para dar soporte a diversos escenarios de aplicación.

Introducción general Fay es un marco de trabajo de código abierto para humanos digitales virtuales en 3D que integra modelos lingüísticos y personajes digitales para diversos escenarios de aplicación, como guías de compras virtuales, presentadores virtuales, asistentes, camareros, profesores y asistentes móviles basados en voz o texto.
hace 1 año
070.3K
Auto-Deep-Research:多Agent协作执行文献查询并生成研究报告

Auto-Deep-Research: colaboración multiagente para realizar búsquedas bibliográficas y generar informes de investigación

Introducción general Auto-Deep-Research es una herramienta de IA de código abierto desarrollada por el Laboratorio de Inteligencia de Datos de la Universidad de Hong Kong (HKUDS), cuyo objetivo es ayudar a los usuarios a automatizar tareas de investigación en profundidad. Se basa en el marco AutoAgent y admite múltiples modelos lingüísticos de gran tamaño...
hace 1 año
070.3K
Perplexica:1比1复刻 Perplexity AI 功能和界面的开源AI搜索引擎

Perplexica: un motor de búsqueda de IA de código abierto que reproduce 1 a 1 las características y la interfaz de Perplexity AI.

Introducción general Perplexica es un motor de búsqueda de código abierto basado en IA diseñado para proporcionar respuestas que profundizan en Internet. Utiliza algoritmos avanzados de aprendizaje automático, como la búsqueda por similitud y técnicas de incrustación, para optimizar los resultados de búsqueda y ofrecer respuestas claras con fuentes citadas.Perple...
hace 1 año
070.2K
Moshi:实时语音对话框架,支持多种语言和口音的语音对话基础模型

Moshi: un marco de diálogo vocal en tiempo real compatible con múltiples idiomas y acentos para modelos de base de diálogo vocal

Introducción general Moshi Chat es un asistente de voz de IA en tiempo real de Kyutai, un laboratorio francés de IA sin ánimo de lucro. No solo escucha en tiempo real, sino que también participa en conversaciones naturales y admite interacciones multimodales, incluida la capacidad de ver, oír y hablar.Moshi Ch...
hace 2 años
070.2K
Parler-TTS:根据输入文本生成特定说话人风格的文本转语音模型

Parler-TTS: generación de modelos de conversión de texto en voz específicos para cada hablante a partir de un texto de entrada

Introducción general Parler-TTS es una biblioteca de modelos de texto a voz (TTS) de código abierto desarrollada por Hugging Face, diseñada para generar habla de alta calidad y sonido natural. El modelo es capaz de generar habla a partir de un texto de entrada con un estilo de locutor específico (por ejemplo, género, tono, estilo de habla...
hace 1 año
070.2K
VoiceCraft:开源零样本语音克隆与文本转语音工具

VoiceCraft: herramienta de código abierto de clonación de voz sin muestras y conversión de texto a voz

Introducción completa VoiceCraft es una herramienta de código abierto para la edición del habla y la síntesis del habla sin muestras basada en el modelo de lenguaje del códec neural. Emplea un innovador método de generación de secuencias codificadas que permite realizar operaciones de inserción, eliminación y sustitución en secuencias de habla existentes para generar un habla editada natural y coherente....
hace 2 años
070.2K
飞桨 PP-TableMagic:复杂表格结构化信息提取神器

Flying Paddle PP-TableMagic: extracción de información estructurada para tablas complejas

El objetivo del reconocimiento de tablas es analizar tablas en imágenes, identificar con precisión las estructuras de las tablas y la ubicación de las celdas, y reducirlas a formatos de tabla estructurados (por ejemplo, HTML). En la actual era de la información, una gran cantidad de datos tabulares importantes sigue existiendo en estado no estructurado (por ejemplo, documentos escaneados con imágenes de tablas estadísticas...).
hace 1 año
070.2K
UltraRAG:一站式RAG系统解决方案,简化数据构建与模型微调

UltraRAG: una solución integral del sistema RAG para simplificar la construcción de datos y el ajuste de modelos

Introducción exhaustiva UltraRAG es una solución de sistema RAG (Retrieval Augmented Generation) propuesta conjuntamente por el grupo THUNLP de la Universidad de Tsinghua, el grupo NEUIR de la Universidad Northeastern, Modelbest.Inc y el equipo 9#AISoft. El marco se basa en el despliegue ágil y la construcción modular...
hace 1 año
070.1K
MedRAX: 利用多模态大模型进行胸部X光片分析的智能体

MedRAX: un organismo inteligente para el análisis de radiografías de tórax mediante macromodelos multimodales

Introducción completa MedRAX es una inteligencia artificial de última generación diseñada para el análisis de radiografías de tórax (CXR). Integra herramientas de análisis CXR de última generación y grandes modelos de lenguaje multimodal para procesar dinámicamente consultas médicas complejas sin formación adicional.MedRAX, a través de su diseño modular...
hace 1 año
070.1K
uni-api:轻量大模型API转换为OpenAI接口,YAML文件配置API渠道

uni-api: big model API ligera convertida en interfaz OpenAI, archivo YAML para configurar el canal API

Introducción completa No front-end , pura configuración de archivos de configuración del canal API . Sólo tienes que escribir un archivo puede ejecutar una estación de API de su propia , el documento tiene una guía de configuración detallada , blanco amigable. uni-api es una gestión unificada de gran proyecto API modelo , lo que permite una ...
hace 1 año
070K
HyperChat:利用 MCP 智能执行复杂任务的AI对话客户端

HyperChat: un cliente de diálogo con IA que utiliza la inteligencia MCP para realizar tareas complejas.

Introducción general HyperChat es un cliente de chat de código abierto desarrollado por BigSweetPotatoStudio y alojado en GitHub, diseñado para proporcionar una visión global del modelo lingüístico de BigSweetPotatoStudio mediante la integración de API de varios grandes modelos lingüísticos (LLM) como OpenAI, Cla...
hace 1 año
069.7K
Sana:快速生成高分辨率图像,0.6B超小尺寸模型,低配笔记本GPU运行

Sana: generación rápida de imágenes de alta resolución, modelo de tamaño ultrapequeño de 0,6B, funcionamiento con GPU de portátil de bajo perfil

Introducción general Sana es un eficiente marco de generación de imágenes de alta resolución desarrollado por NVIDIA Labs, capaz de generar imágenes de hasta 4096 × 4096 de resolución en cuestión de segundos.Sana emplea un transformador de difusión lineal y tecnología de autocodificación de compresión profunda para...
hace 1 año
069.7K
MiMo:高效数学推理与代码生成的小型开源模型

MiMo: un pequeño modelo de código abierto para el razonamiento matemático eficiente y la generación de código

Introducción general MiMo es un proyecto de modelado de grandes lenguajes de código abierto desarrollado por Xiaomi, centrado en el razonamiento matemático y la generación de código. El producto principal es la familia de modelos MiMo-7B, que contiene un modelo base (Base), un modelo de ajuste fino supervisado (SFT), un químico fuerte entrenado a partir del modelo base....
hace 12 meses
069.7K
Flock:低代码工作流编排快速构建聊天机器人

Flock: orquestación de flujos de trabajo de bajo código para la creación rápida de chatbots

Introducción general Flock es una plataforma de código abierto para flujos de trabajo, alojada en GitHub y desarrollada por el equipo Onelevenvy. Se basa en las tecnologías LangChain y LangGraph y se centra en ayudar a los usuarios a construir rápidamente máquinas de chat....
hace 1 año
069.7K
Yutu:YouTube 命令行管理工具,接入AI全自动运营 YouTube 频道

Yutu: herramienta de gestión de línea de comandos de YouTube, acceso a la IA para automatizar completamente los canales de YouTube

Introducción general Yutu es una potente herramienta de línea de comandos de código abierto diseñada para usuarios de YouTube, alojada en GitHub y desarrollada por el equipo eat-pray-ai. Funciona a través de la terminal para lograr los vídeos de YouTube, listas de reproducción, frecuencia...
hace 1 año
069.6K
Fragments:类似于 Anthropic 的 Claude Artifacts、Vercel v0 或 GPT Engineer 等应用程序的开源版本

Fragmentos: versiones de código abierto de aplicaciones como Claude Artifacts de Anthropic, Vercel v0 o GPT Engineer.

Introducción general Fragments by E2B es un proyecto de código abierto que proporciona una plantilla basada en Next.js para construir aplicaciones generadas íntegramente por IA. Desarrollado por E2B, el proyecto pretende simplificar y acelerar el proceso de desarrollo de aplicaciones de IA. Integra una variedad de ...
hace 1 año
069.6K
Fast GraphRAG:高准确率且低成本的图形化检索增强生成工具

Fast GraphRAG: una herramienta de generación de mejoras de búsqueda gráfica de gran precisión y bajo coste

Introducción completa Fast GraphRAG es una herramienta de código abierto desarrollada por Circlemind AI para permitir una generación de aumento de recuperación (RAG) eficiente y precisa mediante algoritmos de grafos de conocimiento y PageRank. La herramienta se adapta de forma inteligente al uso que el usuario...
hace 1 año
069.5K
Retrieval based Voice Conversion WebUI:基于检索的语音转换框架|模拟真人歌声

Conversión de voz basada en recuperación WebUI: un marco para la conversión de voz basada en recuperación | Simulación de voces cantadas en la vida real

WebUI de conversión de voz basado en VITS es un marco de conversión de voz basado en VITS fácil de usar que permite la conversión de voz entre cualquier altavoz, incluyendo covers de canciones y cambios de voz en tiempo real. Tiene bajo ...
hace 2 años
069.2K
Ant Design X:快速构建AI聊天界面的工具包,支持模型集成和数据流管理。

Ant Design X: un conjunto de herramientas para construir rápidamente interfaces de chat de IA con soporte para la integración de modelos y la gestión del flujo de datos.

Introducción Ant Design X es un conjunto de herramientas de código abierto de Ant Group, diseñado para ayudar a los desarrolladores a crear rápidamente interfaces de diálogo basadas en IA. Proporciona un amplio conjunto de componentes y plantillas, soporta la integración de modelos compatibles con los estándares OpenAI, y es adecuado para una variedad de aplicaciones tales como servicio al cliente inteligente, asistentes de IA, y otros...
hace 1 año
069K
Hibiki:实时语音翻译模型,保留原声特点的流式翻译

Hibiki: un modelo de traducción de voz en tiempo real, traducción en flujo continuo que conserva las características de la voz original

Introducción general Hibiki es un modelo de traducción de voz en tiempo real de alta fidelidad desarrollado por Kyutai Labs. A diferencia de los traductores offline tradicionales, Hibiki es capaz de generar traducciones de voz naturales en el idioma de destino en tiempo real mientras el usuario habla, así como proporcionar traducciones de texto. El modelo...
hace 1 año
069K
DH live:在30/40系显卡流畅实时交互的AI数字人

DH live: AI digital people con interacción fluida en tiempo real en tarjetas gráficas de la serie 30/40

Introducción general DH_live es un proyecto de humano digital en tiempo real basado en el aprendizaje sin muestras, cuyo objetivo es proporcionar a los usuarios una experiencia de transmisión en directo fluida e interactiva. El proyecto es compatible con las tarjetas gráficas NVIDIA de las series 30 y 40 y es capaz de funcionar en tiempo real a más de 25 fps. Los usuarios pueden...
hace 1 año
068.9K
Flow(Laminar):构建智能体的轻量级任务引擎,简化并灵活管理任务

Flow (Laminar): un motor de tareas ligero para construir inteligencias que simplifica y gestiona con flexibilidad las tareas.

Introducción general Flow es un motor de tareas ligero diseñado para construir agentes de IA con un énfasis en la simplicidad y la flexibilidad. A diferencia de los flujos de trabajo tradicionales basados en nodos y bordes, Flow utiliza un sistema dinámico de colas de tareas que admite la ejecución paralela, la programación dinámica y la gestión inteligente de dependencias. Su concepto central es ...
hace 1 año
068.9K
X-Kit:Twitter数据抓取和分析X用户数据与推文的工具

X-Kit: rastreo de datos de Twitter y análisis de datos de usuarios X y tweets

Introducción general X-Kit es una herramienta de código abierto diseñada para rastrear y analizar datos y tweets de usuarios de X (antes Twitter). Desarrollada por el usuario de GitHub xiaoxiunique, la herramienta está diseñada para ayudar a los usuarios a automatizar el proceso de obtención de información básica y tweets sobre un determinado usuario de X y...
hace 1 año
068.8K
E2B Open Computer Use:E2B沙盒中安全的运行AI操作系统

Uso de ordenadores abiertos E2B: ejecución segura de un sistema operativo de inteligencia artificial en el espacio aislado E2B

Introducción general E2B Open Computer Use es un proyecto de código abierto cuyo objetivo es proporcionar una experiencia segura de uso de ordenadores Linux basada en la nube a través de E2B Desktop Sandbox.E2B Sandbox proporciona un entorno gráfico de escritorio que los usuarios...
hace 1 año
068.8K
Fast-Agent:声明式语法和MCP集成快速构建多智能体工作流

Fast-Agent: gramática declarativa e integración con MCP para crear rápidamente flujos de trabajo corporales multiinteligentes

Introducción general Fast-Agent es una herramienta de código abierto mantenida por el equipo evalstate en GitHub, diseñada para ayudar a los desarrolladores a definir, probar y construir rápidamente flujos de trabajo multiinteligencia. Se basa en una sintaxis declarativa sencilla y admite el uso de MCP (Modo...
hace 1 año
068.8K
RoomGPT:上传房间照片,使用AI重新设计

RoomGPT: ¡Sube una foto de una habitación y rediseña su diseño con IA!

Introducción general RoomGPT es un proyecto de código abierto desarrollado por el usuario de GitHub Nutlope que permite a los usuarios subir fotos de habitaciones y generar versiones rediseñadas de las mismas utilizando tecnología de inteligencia artificial. El objetivo del proyecto es ofrecer a los usuarios acceso a un diseño de interiores profesional sin tener que pagar...
hace 1 año
068.8K
NodeRAG:基于异构图的精准信息检索与生成工具

NodeRAG: una herramienta basada en grafos heterogéneos para la recuperación y generación de información precisa

Una introducción completa NodeRAG es un sistema de código abierto de Generación Aumentada de Recuperación (RAG) alojado en GitHub y desarrollado por Terry-Xu-666. Optimiza la recuperación y generación de información a través de estructuras de grafos heterogéneos, mejorando significativamente la precisión de la recuperación y la relevancia contextual.Nod...
hace 1 año
068.7K
LogoCreator:开源Logo生成器,使用AI智能生成专业品牌Logo

LogoCreator: generador de logotipos de código abierto que utiliza inteligencia artificial para generar logotipos de marca profesionales.

Introducción general LogoCreator es un generador de logotipos de código abierto basado en el modelo Together AI y Flux, centrado en proporcionar servicios de diseño de logotipos rápidos y profesionales para empresas y particulares. El proyecto es desarrollado y de código abierto por el desarrollador Nutlope en Git...
hace 1 año
068.7K
Quadratic:集成AI对话和代码执行的在线数据分析表格

Quadratic: formularios de análisis de datos en línea que integran el diálogo con la IA y la ejecución de código

Descripción general Quadratic es una herramienta de hoja de cálculo inteligente de código abierto que combina características de IA, código y conectividad de datos diseñadas para proporcionar a los usuarios potentes capacidades de procesamiento y análisis de datos. Al soportar lenguajes de programación como Python, SQL y Rust, Quadratic...
hace 1 año
068.7K
Copilot后端代理服务:用其他模型接管GitHub Copilot插件服务端

Copilot backend proxy service: hacerse cargo del servidor de plugins de GitHub Copilot con otros modelos

Introducción general El Copilot Backend Agent Service es un proyecto de código abierto diseñado para gestionar el servidor de plugins de GitHub Copilot aprovechando otros modelos FIM como DeepSeek, a la vez que soporta que varias personas compartan cuentas oficiales. El servicio soporta una variedad de IDEs, incluyendo V...
hace 1 año
068.7K
TxAgent:帮医生分析药物作用和治疗方案的AI工具

TxAgent: una herramienta de IA para ayudar a los médicos a analizar los efectos de los medicamentos y las opciones de tratamiento

Introducción completa TxAgent es una herramienta de IA de código abierto desarrollada por el Equipo de Inteligencia Artificial Médica y Científica (MIMS) de la Universidad de Harvard para ayudar a los médicos a analizar las interacciones entre medicamentos y elaborar planes de tratamiento personalizados. Combina situaciones específicas de cada paciente mediante el razonamiento en varios pasos y la recuperación en tiempo real de conocimientos biomédicos...
hace 1 año
068.5K
GOT-OCR2.0:基于 QWen2 0.5B 端到端的多模态OCR模型

GOT-OCR2.0: basado en el modelo OCR multimodal de extremo a extremo QWen2 0.5B

Introducción exhaustiva GOT-OCR2.0 es un modelo de reconocimiento óptico de caracteres (OCR) de código abierto co-propuesto por StepStar, cuyo objetivo es impulsar la tecnología OCR hacia OCR-2.0 mediante un modelo unificado de extremo a extremo. El modelo soporta una amplia gama de tareas de OCR, incluyendo el reconocimiento de texto normal, gr...
hace 2 años
068.5K
Gemini Cursor:基于Gemini构建的AI桌面智能助手,能看、能听、能说

Gemini Cursor: un asistente inteligente de sobremesa basado en Gemini que puede ver, oír y hablar.

Introducción general Gemini Cursor es un asistente inteligente de escritorio basado en el modelo Gemini 2.0 Flash (experimental) de Google. Permite interacciones visuales, auditivas y de voz a través de una API multimodal, proporcionando un uso en tiempo real de baja latencia....
hace 1 año
068.5K
Ultravox:实时端到端语音对话的音频多模态大模型,GPT-4o语音交互的开源实现

Ultravox: un macromodelo multimodal de audio para el diálogo de voz en tiempo real de extremo a extremo, una implementación de código abierto de la interacción de voz GPT-4o

Introducción general Ultravox es un innovador modelo multimodal de lenguaje amplio (LLM) diseñado para el procesamiento del habla en tiempo real. A diferencia de los sistemas tradicionales de reconocimiento del habla, Ultravox elimina la necesidad de una etapa separada de reconocimiento del habla de audio (ASR), y es capaz de convertir directamente el audio en un espacio de alta dimensión en...
hace 1 año
068.4K
AI2SRT:利用 Gemini模型,一键为长视频创建解说短视频或视频总结

AI2SRT: Creación de vídeos narrados breves o resúmenes de vídeos largos en un solo clic mediante modelos Gemini

Introducción general AI2SRT es un proyecto de código abierto que utiliza el gran modelo GeminiAI para generar vídeos narrados cortos y resúmenes de vídeo para vídeos largos con un solo clic, a la vez que admite subtítulos de transcripción de audio y vídeo. El proyecto pretende simplificar el proceso de creación de contenidos de vídeo y proporcionar funciones eficaces de generación y traducción de subtítulos. Los usuarios pueden pasar...
hace 1 año
068.3K
MMAudio:为视频画面生成同步音效与配乐,视频到音频的多模态联合训练工具

MMAudio: generación de efectos sonoros sincronizados y bandas sonoras para secuencias de vídeo, herramienta de coformación multimodal vídeo-audio.

Introducción general MMAudio es un proyecto de código abierto cuyo objetivo es generar audio sincronizado de alta calidad mediante el entrenamiento multimodal conjunto. Desarrollado por Ho Kei Cheng et al. en la Universidad China de Hong Kong, la función principal del proyecto es generar audio sincronizado a partir de la entrada de vídeo y/o texto.MM...
hace 1 año
068.3K
ModelBest(面壁智能):全球领先的轻量高性能端侧大模型

ModelBest: el líder mundial en modelos grandes ligeros y de alto rendimiento de extremo a extremo

Introducción general ModelBest es una empresa centrada en el desarrollo de grandes modelos ligeros y de alto rendimiento, y se dedica a aplicar tecnologías avanzadas de IA a la electrónica de consumo convencional y a todo tipo de dispositivos finales de la vida cotidiana. Su serie MiniCPM de modelos finales con extrema potencia aritmética y eficiencia en el uso de la memoria...
hace 2 años
068.3K
Tarsier:生成高质量视频描述的开源视频理解模型

Tarsier: un modelo de comprensión de vídeo de código abierto para generar descripciones de vídeo de alta calidad

Introducción general Tarsier es una familia de modelos de videolenguaje de código abierto desarrollada por ByteDance para generar descripciones de vídeo de alta calidad. Consta de una estructura sencilla: el CLIP-ViT procesa los fotogramas de vídeo, combinado con un Large Language Model (LLM) para analizar...
hace 1 año
068.2K
Diffusers Image Outpaint:超强开源AI图像扩展工具,图像外绘(image outpainting)

Diffusers Image Outpaint: herramienta de extensión de imagen AI de código abierto súper potente, image outpainting (pintado de imágenes)

Introducción general Diffusers Image Outpaint es una potente herramienta de expansión de imágenes AI creada por fffiloni, miembro de la comunidad Hugging Face. La herramienta utiliza técnicas avanzadas de modelado de difusión para...
hace 2 años
068.1K
Ai2 OLMoE:基于 OLMoE 模型离线运行的开源iOS AI应用

Ai2 OLMoE: una aplicación de IA para iOS de código abierto basada en modelos OLMoE que funcionan sin conexión.

Introducción general Ai2 OLMoE es una aplicación iOS de código abierto desarrollada por el Allen Institute for AI (Ai2, Instituto Allen de Inteligencia Artificial) para proporcionar modelos de IA que se ejecutan íntegramente en dispositivos. La aplicación aprovecha el código abie...
hace 1 año
068.1K
CogAgent:智谱开源的智能视觉语言模型,实现图形界面自动化操作

CogAgent: modelo de lenguaje visual inteligente de código abierto de Smart Spectrum para la automatización de interfaces gráficas

Introducción CogAgent es un modelo de lenguaje visual de código abierto desarrollado por el Grupo de Investigación de Minería de Datos de la Universidad de Tsinghua (THUDM), cuyo objetivo es automatizar el funcionamiento de la interfaz gráfica de usuario (GUI) en todas las plataformas. El modelo se basa en CogVLM (GLM-4V-9B) y es compatible con el chino y el inglés bilingües....
hace 1 año
068.1K
Gemini Playground:无服务器部署Gemini多模态对话网站

Gemini Playground: despliegue sin servidor de un sitio de diálogo multimodal Gemini

Introducción General Gemini Playground es un proyecto de código abierto diseñado para ayudar a los usuarios a implementar rápidamente un sitio de diálogo multimodal . El proyecto es desarrollado por el camarón de rastreo técnico , apoyar el uso de Gemini API Key en 10 segundos para completar el despliegue . Si el usuario es ...
hace 1 año
068K
Aide:强化VSCode开发体验的AI助手扩展,一键注释、转换、UI生成代码

Aide: extensión de ayuda de IA que mejora la experiencia de desarrollo de VSCode, la anotación con un solo clic, la conversión y la generación de interfaz de usuario de código.

Introducción general AIDE (AI-assisted Development Extension) es una potente extensión de desarrollo asistido por IA para VSCode, centrada en proporcionar una asistencia de programación de IA única y útil. Es diferente de GitHu...
hace 1 año
067.9K
MarkItDown:微软文档智能转换工具,转换各种文件为Markdown格式

MarkItDown: Herramienta de conversión inteligente de documentos de Microsoft para convertir varios archivos al formato Markdown

Introducción general MarkItDown es una herramienta Python desarrollada por Microsoft diseñada para convertir diversos archivos y documentos ofimáticos al formato Markdown. La herramienta admite una amplia gama de tipos de archivo, como PDF, PowerPoint, Word, Excel, diagramas...
hace 1 año
067.8K
LazyLLM:商汤开源构建多智能体应用的低代码开发工具

LazyLLM: herramienta de desarrollo de código abierto de Shangtang para crear aplicaciones corporales multiinteligentes

Introducción exhaustiva LazyLLM es una herramienta de código abierto desarrollada por el equipo LazyAGI, centrada en simplificar el proceso de desarrollo de aplicaciones de grandes modelos de inteligencia múltiple. Ayuda a los desarrolladores a construir rápidamente aplicaciones complejas de IA a través de la implementación con un solo clic y mecanismos de puerta de enlace ligeros, ahorrando la tediosa configuración de ingeniería....
hace 1 año
067.8K
Ruyi-Models:生成图像到视频开源模型,支持镜头控制与运动幅度控制

Ruyi-Models: Genera modelos de código abierto de imagen a vídeo que admiten el control de la lente y el control de la amplitud de movimiento.

Introducción general Ruyi-Models es un proyecto de código abierto diseñado para generar vídeos de alta calidad a partir de imágenes. Desarrollado por el equipo IamCreateAI, el proyecto soporta la generación de vídeo cinemático a 768 de resolución, 24 fotogramas por segundo, 120 fotogramas en 5 segundos...
hace 1 año
067.7K
Infinity:生成高分辨率图像的比特自回归建模,实现无限制高分辨率图像生成

Infinity: modelización autorregresiva por bits de la generación de imágenes de alta resolución para una generación ilimitada de imágenes de alta resolución

Introducción general Infinity es un innovador marco de generación de imágenes de alta resolución desarrollado por el equipo de FoundationVision. El proyecto rompe con las limitaciones de los modelos tradicionales de generación de imágenes a través de un innovador enfoque de modelado autorregresivo visual a nivel de bits.Las principales características de Infinity...
hace 1 año
067.7K
Shandu:多轮收集分析信息的AI研究自动化工具

Shandu: una herramienta de automatización de la investigación con IA para recopilar y analizar información en múltiples rondas

Introducción general Shandu es un sistema de investigación basado en inteligencia artificial de código abierto alojado en GitHub y creado por el desarrollador jolovicdev. Utiliza las tecnologías LangChain y LangGraph, y su objetivo es proporcionar...
hace 1 año
067.7K
VideoRAG:理解超长视频的RAG框架,支持多模态检索和知识图谱构建

VideoRAG: un marco RAG para la comprensión de vídeos ultralargos con soporte para la recuperación multimodal y la construcción de grafos de conocimiento

Introducción VideoRAG es un marco generativo de recuperación mejorado diseñado para procesar y comprender vídeos contextuales muy largos. La herramienta combina una base de conocimiento textual basada en grafos con la codificación jerárquica multimodal del contexto para procesar eficientemente en una sola GPU NVIDIA RTX 3090....
hace 1 año
067.6K
Text generation web UI:基于 Gradio 大语言模型聊天界面,支持多种后端服务

Interfaz web de generación de texto: interfaz de chat basada en modelos lingüísticos de gran tamaño de Gradio y compatible con varios servicios backend.

Introducción general La interfaz web de generación de texto es una interfaz web basada en Gradio diseñada para el Large Language Model (LLM). Soporta una variedad de backends de generación de texto, incluyendo Transformers, llama.cp...
hace 1 año
067.6K
SegAnyMo:从视频中自动分割任意运动物体的开源工具

SegAnyMo: herramienta de código abierto para segmentar automáticamente objetos arbitrarios en movimiento a partir de vídeo

Introducción general SegAnyMo es un proyecto de código abierto desarrollado por un equipo de investigadores de la UC Berkeley y la Universidad de Pekín, entre los que se encuentran miembros como Nan Huang. Esta herramienta se centra en el procesamiento de vídeo y puede identificar y segmentar automáticamente objetos arbitrarios en movimiento en un vídeo, como personas, animales o...
hace 1 año
067.5K
Bilingual Book Maker:使用AI翻译制作双语电子书,全书自动化翻译工具

Bilingual Book Maker: Utiliza la traducción automática para crear libros electrónicos bilingües.

Introducción general Bilingual Book Maker es un proyecto de código abierto diseñado para ayudar a los usuarios a crear versiones multilingües de libros electrónicos utilizando tecnología de IA. La herramienta utiliza principalmente ChatGPT para la traducción y soporta múltiples formatos de archivo, incluyendo epub, txt y srt....
hace 1 año
067.4K
BrushEdit:腾讯ARC发布的图像修复和编辑的全能工具

BrushEdit: herramienta todo en uno para la restauración y edición de imágenes lanzada por Tencent ARC

Introducción general BrushEdit es una herramienta integral de reparación y edición de imágenes desarrollada por Tencent ARC Labs. La herramienta se basa en la última tecnología de IA y es capaz de identificar y reparar automáticamente los defectos en las imágenes, mientras que el apoyo a la edición interactiva por users.BrushEdit combina una variedad de...
hace 1 año
067.4K
YuE:将歌词转化为完整歌曲的基础模型,支持多种音乐风格

YuE: transforma la letra en un modelo base de una canción completa, compatible con una amplia gama de estilos musicales.

Introducción general YuE es un modelo base de generación de canciones completas de código abierto que se centra en transformar letras de canciones en canciones completas. A diferencia de otros modelos que sólo generan fragmentos cortos de música no vocal, YuE es capaz de generar canciones completas con voz principal y coros de hasta varios minutos de duración. El modelo aborda la generación de música en...
hace 1 año
067.3K
xyks:小猿口算逆向笔记,逆向工程与解密算法

xyks: pequeño simio cálculo oral notas inversas, ingeniería inversa y algoritmos de descifrado

Introducción completa Ape Mouth Calculator Reverse Notes es un proyecto de código abierto que tiene como objetivo documentar y compartir el proceso y los métodos de ingeniería inversa de la aplicación Ape Mouth Calculator. El proyecto contiene una variedad de herramientas y técnicas inversas para usar las instrucciones , como Frida, dexdump , etc., para ayudar a los usuarios a entender y descifrar la suma aritmética oral del pequeño simio....
hace 2 años
067.3K
Amurex:开源AI会议记录助手,自动记录会议内容生成总结

Amurex: asistente AI de código abierto para la grabación de reuniones, grabación automática del contenido de las reuniones para generar resúmenes.

Introducción general Amurex es un asistente de reuniones con inteligencia artificial de código abierto desarrollado por The Personal AI Company, diseñado para mejorar la eficacia de las reuniones mediante funciones inteligentes.
hace 1 año
067.2K
Eko:自然语言构建智能体工作流,实现桌面与浏览器自动化

Eko: flujos de trabajo corporales inteligentes basados en lenguaje natural para la automatización de escritorios y navegadores

Introducción general Eko es un marco JavaScript de nivel de producción diseñado para construir flujos de trabajo de agentes inteligentes eficientes mediante descripciones en lenguaje natural. Está diseñado para permitir a los desarrolladores automatizar tareas cotidianas utilizando tecnologías de IA sin necesidad de programac...
hace 1 año
067.1K
RolmOCR:识别手写和倾斜字符的文档OCR模型

RolmOCR: modelo de reconocimiento óptico de caracteres (OCR) de documentos para reconocer caracteres manuscritos e inclinados

Introducción general RolmOCR es una herramienta de reconocimiento óptico de caracteres (OCR) de código abierto desarrollada por el equipo Reducto AI, basada en el modelo de lenguaje visual Qwen2.5-VL-7B. Puede extraer texto de imágenes y archivos PDF más rápidamente que otras herramientas similares...
hace 1 año
067K
AI no jimaku gumi:借助AI实现视频多语言字幕自动生成和翻译

AI no jimaku gumi: generación y traducción automática de subtítulos multilingües para vídeos con ayuda de la IA.

Introducción general AI no jimaku gumi (AI no subtitle group) es una potente herramienta de procesamiento de subtítulos de vídeo de línea de comandos centrada en permitir funciones automatizadas de extracción, transcripción y traducción de subtítulos de vídeo. La herramienta integra tecnologías avanzadas de inteligencia artificial, como...
hace 1 año
066.9K
Deep Recall:为大模型提供企业级记忆框架的开源工具

Deep Recall: una herramienta de código abierto que proporciona un marco de memoria de clase empresarial para modelos de gran tamaño.

Introducción Deep Recall es un marco de memoria empresarial de código abierto diseñado para grandes modelos lingüísticos (LLM). Proporciona una capacidad de respuesta hiperpersonalizada a través de una recuperación y una integración contextuales eficaces. El marco utiliza una arquitectura de tres niveles, que incluye un servicio de memoria, un servicio de razonamiento y un...
hace 12 meses
066.8K
AnimeGamer:用语言指令生成动漫视频和角色互动的开源工具

AnimeGamer: una herramienta de código abierto para generar vídeos de anime e interacciones de personajes con comandos lingüísticos

AnimeGamer es una herramienta de código abierto del ARC Lab de Tencent. Los usuarios pueden generar vídeos de anime con comandos lingüísticos sencillos, como "Sousuke conduce en un coche morado", así como permitir que diferentes personajes de anime interactúen entre sí, como Kiki de Magical Girl's Adventure y Sky City....
hace 1 año
066.8K
OpenAI Agents SDK:搭建多智能体协作工作流的Python框架

OpenAI Agents SDK: un marco de trabajo en Python para crear flujos de trabajo colaborativos multiinteligencia

Introducción general OpenAI Agents SDK es una herramienta de desarrollo ligera de OpenAI diseñada para construir flujos de trabajo multi-inteligentsia. Está basado en Python y es fácil de usar, permitiendo a los desarrolladores configurar Agentes, cortar tareas...
hace 1 año
066.8K
NV Ingest:解析复杂格式文档,提取多模态数据为元数据和文本

NV Ingest: análisis sintáctico de documentos de formato complejo y extracción de datos multimodales en metadatos y texto

Introducción completa NV Ingest (NVIDIA Ingest) es un conjunto de microservicios de acceso temprano diseñados para analizar cientos de miles de PDF complejos y desordenados sin estructurar y otros documentos empresariales. Puede convertir estos documentos en metadatos y texto para incrustarlos en...
hace 1 año
066.8K
DeepRant:实时翻译游戏聊天内容的开源客户端

DeepRant: un cliente de código abierto para traducir en tiempo real el contenido del chat de un juego

Introducción general DeepRant es una herramienta de traducción de código abierto para jugadores, diseñada para resolver el problema de las barreras lingüísticas en los servidores internacionales. Permite la traducción instantánea del texto del juego mediante atajos de teclado, admite que varios idiomas se traduzcan entre sí y permite a los jugadores entender y responder rápidamente a los mensajes del chat sin salir del juego....
hace 1 año
066.7K