Proyecto AI de código abierto

Total 1020 artículos
Melty:体验AI驱动的代码编辑器 ,让每一次对话都成为Git提交

Melty: Experimenta un editor de código basado en IA, ¡haz de cada conversación un commit Git!

Introducción general Melty es un revolucionario editor de código de IA que combina conversaciones de chat con el control de versiones Git. Desarrollado por Charlie y Jackson de Replicate, esta herramienta pretende resolver los puntos débiles de las herramientas tradicionales de codificación de IA. Su mayor ...
hace 1 año
074K
Fay数字人框架:集成语言模型与3D数字角色,支持多种应用场景

Fay Digital Human Framework: integración de modelos lingüísticos y personajes digitales tridimensionales para dar soporte a diversos escenarios de aplicación.

Introducción general Fay es un marco de trabajo de código abierto para humanos digitales virtuales en 3D que integra modelos lingüísticos y personajes digitales para diversos escenarios de aplicación, como guías de compras virtuales, presentadores virtuales, asistentes, camareros, profesores y asistentes móviles basados en voz o texto.
hace 1 año
074K
飞桨 PP-TableMagic:复杂表格结构化信息提取神器

Flying Paddle PP-TableMagic: extracción de información estructurada para tablas complejas

El objetivo del reconocimiento de tablas es analizar tablas en imágenes, identificar con precisión las estructuras de las tablas y la ubicación de las celdas, y reducirlas a formatos de tabla estructurados (por ejemplo, HTML). En la actual era de la información, una gran cantidad de datos tabulares importantes sigue existiendo en estado no estructurado (por ejemplo, documentos escaneados con imágenes de tablas estadísticas...).
hace 1 año
073.9K
Auto-Deep-Research:多Agent协作执行文献查询并生成研究报告

Auto-Deep-Research: colaboración multiagente para realizar búsquedas bibliográficas y generar informes de investigación

Introducción general Auto-Deep-Research es una herramienta de IA de código abierto desarrollada por el Laboratorio de Inteligencia de Datos de la Universidad de Hong Kong (HKUDS), cuyo objetivo es ayudar a los usuarios a automatizar tareas de investigación en profundidad. Se basa en el marco AutoAgent y admite múltiples modelos lingüísticos de gran tamaño...
hace 1 año
073.8K
QAnything:高度集成RAG处理流程的本地知识库问答系统

QAnything: Sistema de preguntas y respuestas de base de conocimientos local con flujo de procesamiento RAG altamente integrado

QAnything Introducción Completa QAnything (Question and Answer based on Anything) es un sistema de preguntas y respuestas de base de conocimiento local lanzado por NetEase, que admite todo tipo de formatos de archivo y bases de datos, y se puede instalar sin conexión para utilizar...
hace 2 años
073.7K
AutoGen:微软开发的多智能体对话框架

AutoGen: un marco de diálogo corporal multiinteligente desarrollado por Microsoft

Introducción general AutoGen es un marco de código abierto desarrollado por un equipo de investigadores de Microsoft centrado en simplificar la creación de grandes aplicaciones de modelos de lenguaje (LLM) mediante el diálogo entre cuerpos multiinteligentes. Permite a los desarrolladores crear agentes de IA que pueden dialogar entre sí y colaborar para resolver tareas. Este enfoque no sólo mejora el rendimiento de los LLM...
hace 1 año
073.6K
VoiceCraft:开源零样本语音克隆与文本转语音工具

VoiceCraft: herramienta de código abierto de clonación de voz sin muestras y conversión de texto a voz

Introducción completa VoiceCraft es una herramienta de código abierto para la edición del habla y la síntesis del habla sin muestras basada en el modelo de lenguaje del códec neural. Emplea un innovador método de generación de secuencias codificadas que permite realizar operaciones de inserción, eliminación y sustitución en secuencias de habla existentes para generar un habla editada natural y coherente....
hace 2 años
073.5K
Fast GraphRAG:高准确率且低成本的图形化检索增强生成工具

Fast GraphRAG: una herramienta de generación de mejoras de búsqueda gráfica de gran precisión y bajo coste

Introducción completa Fast GraphRAG es una herramienta de código abierto desarrollada por Circlemind AI para permitir una generación de aumento de recuperación (RAG) eficiente y precisa mediante algoritmos de grafos de conocimiento y PageRank. La herramienta se adapta de forma inteligente al uso que el usuario...
hace 1 año
073.4K
Austen:分析书籍角色关系并生成图表的AI工具

Austen: una herramienta de IA para analizar las relaciones entre los personajes de un libro y generar gráficos

Introducción general Austen es una herramienta de IA de código abierto que utiliza el framework Angular y la inicialización Analogjs, combinados con la tecnología Mermaidjs para generar gráficos que ayudan a los usuarios a analizar las relaciones entre personajes en los libros. Los usuarios pueden...
hace 1 año
073.4K
Data Formulator:AI驱动的数据可视化工具

Data Formulator: una herramienta de visualización de datos basada en IA

Introducción general Data Formulator es una herramienta de código abierto de visualización de datos basada en IA desarrollada por Microsoft Research. La herramienta combina una interfaz gráfica de usuario (GUI) y la entrada de lenguaje natural (NL) para permitir a los usuarios crear e iterar rápidamente a través de interacciones y comandos sencillos....
hace 1 año
073.4K
Perplexica:1比1复刻 Perplexity AI 功能和界面的开源AI搜索引擎

Perplexica: un motor de búsqueda de IA de código abierto que reproduce 1 a 1 las características y la interfaz de Perplexity AI.

Introducción general Perplexica es un motor de búsqueda de código abierto basado en IA diseñado para proporcionar respuestas que profundizan en Internet. Utiliza algoritmos avanzados de aprendizaje automático, como la búsqueda por similitud y técnicas de incrustación, para optimizar los resultados de búsqueda y ofrecer respuestas claras con fuentes citadas.Perple...
hace 2 años
073.4K
NodeRAG:基于异构图的精准信息检索与生成工具

NodeRAG: una herramienta basada en grafos heterogéneos para la recuperación y generación de información precisa

Una introducción completa NodeRAG es un sistema de código abierto de Generación Aumentada de Recuperación (RAG) alojado en GitHub y desarrollado por Terry-Xu-666. Optimiza la recuperación y generación de información a través de estructuras de grafos heterogéneos, mejorando significativamente la precisión de la recuperación y la relevancia contextual.Nod...
hace 1 año
073.3K
MyCoder:自动修复代码、生成测试用例的命令行AI工具

MyCoder: Herramienta de IA de línea de comandos para corregir código y generar casos de prueba automáticamente

Introducción general MyCoder es un proyecto de código abierto desarrollado por el equipo drivecore y alojado en GitHub, cuyo objetivo es proporcionar a los desarrolladores asistencia de programación inteligente a través de una interfaz de línea de comandos. Se basa en la tecnología Claude AP...
hace 1 año
073.3K
Yutu:YouTube 命令行管理工具,接入AI全自动运营 YouTube 频道

Yutu: herramienta de gestión de línea de comandos de YouTube, acceso a la IA para automatizar completamente los canales de YouTube

Introducción general Yutu es una potente herramienta de línea de comandos de código abierto diseñada para usuarios de YouTube, alojada en GitHub y desarrollada por el equipo eat-pray-ai. Funciona a través de la terminal para lograr los vídeos de YouTube, listas de reproducción, frecuencia...
hace 1 año
073.3K
LlamaEdge:本地运行和微调LLM的最快捷方式

LlamaEdge: ¡la forma más rápida de ejecutar y ajustar LLM localmente!

Introducción general LlamaEdge es un proyecto de código abierto diseñado para simplificar el proceso de ejecución y puesta a punto de grandes modelos lingüísticos (LLM) en dispositivos locales o edge. El proyecto es compatible con la familia de modelos Llama2 y proporciona servicios API compatibles con OpenAI que permiten a los usuarios crear y ejecutar fácilmente...
hace 1 año
073.1K
TxAgent:帮医生分析药物作用和治疗方案的AI工具

TxAgent: una herramienta de IA para ayudar a los médicos a analizar los efectos de los medicamentos y las opciones de tratamiento

Introducción completa TxAgent es una herramienta de IA de código abierto desarrollada por el Equipo de Inteligencia Artificial Médica y Científica (MIMS) de la Universidad de Harvard para ayudar a los médicos a analizar las interacciones entre medicamentos y elaborar planes de tratamiento personalizados. Combina situaciones específicas de cada paciente mediante el razonamiento en varios pasos y la recuperación en tiempo real de conocimientos biomédicos...
hace 1 año
073.1K
UltraRAG:一站式RAG系统解决方案,简化数据构建与模型微调

UltraRAG: una solución integral del sistema RAG para simplificar la construcción de datos y el ajuste de modelos

Introducción exhaustiva UltraRAG es una solución de sistema RAG (Retrieval Augmented Generation) propuesta conjuntamente por el grupo THUNLP de la Universidad de Tsinghua, el grupo NEUIR de la Universidad Northeastern, Modelbest.Inc y el equipo 9#AISoft. El marco se basa en el despliegue ágil y la construcción modular...
hace 1 año
073K
HyperChat:利用 MCP 智能执行复杂任务的AI对话客户端

HyperChat: un cliente de diálogo con IA que utiliza la inteligencia MCP para realizar tareas complejas.

Introducción general HyperChat es un cliente de chat de código abierto desarrollado por BigSweetPotatoStudio y alojado en GitHub, diseñado para proporcionar una visión global del modelo lingüístico de BigSweetPotatoStudio mediante la integración de API de varios grandes modelos lingüísticos (LLM) como OpenAI, Cla...
hace 1 año
072.9K
Moshi:实时语音对话框架,支持多种语言和口音的语音对话基础模型

Moshi: un marco de diálogo vocal en tiempo real compatible con múltiples idiomas y acentos para modelos de base de diálogo vocal

Introducción general Moshi Chat es un asistente de voz de IA en tiempo real de Kyutai, un laboratorio francés de IA sin ánimo de lucro. No solo escucha en tiempo real, sino que también participa en conversaciones naturales y admite interacciones multimodales, incluida la capacidad de ver, oír y hablar.Moshi Ch...
hace 2 años
072.8K
Fast-Agent:声明式语法和MCP集成快速构建多智能体工作流

Fast-Agent: gramática declarativa e integración con MCP para crear rápidamente flujos de trabajo corporales multiinteligentes

Introducción general Fast-Agent es una herramienta de código abierto mantenida por el equipo evalstate en GitHub, diseñada para ayudar a los desarrolladores a definir, probar y construir rápidamente flujos de trabajo multiinteligencia. Se basa en una sintaxis declarativa sencilla y admite el uso de MCP (Modo...
hace 1 año
072.8K
Flock:低代码工作流编排快速构建聊天机器人

Flock: orquestación de flujos de trabajo de bajo código para la creación rápida de chatbots

Introducción general Flock es una plataforma de código abierto para flujos de trabajo, alojada en GitHub y desarrollada por el equipo Onelevenvy. Se basa en las tecnologías LangChain y LangGraph y se centra en ayudar a los usuarios a construir rápidamente máquinas de chat....
hace 1 año
072.7K
OASIS:多智能体模拟数百万用户社交媒体互动,研究复杂社会现象

OASIS: simulación multiinteligente de las interacciones en redes sociales de millones de usuarios para estudiar fenómenos sociales complejos

Introducción general OASIS (Open Agent Social Interaction Simulations) es un simulador de redes sociales de código abierto capaz de simular el comportamiento de hasta un millón de usuarios. La plataforma combina un modelo lingüístico a gran escala con un...
hace 1 año
072.7K
Fragments:类似于 Anthropic 的 Claude Artifacts、Vercel v0 或 GPT Engineer 等应用程序的开源版本

Fragmentos: versiones de código abierto de aplicaciones como Claude Artifacts de Anthropic, Vercel v0 o GPT Engineer.

Introducción general Fragments by E2B es un proyecto de código abierto que proporciona una plantilla basada en Next.js para construir aplicaciones generadas íntegramente por IA. Desarrollado por E2B, el proyecto pretende simplificar y acelerar el proceso de desarrollo de aplicaciones de IA. Integra una variedad de ...
hace 2 años
072.7K
RoomGPT:上传房间照片,使用AI重新设计

RoomGPT: ¡Sube una foto de una habitación y rediseña su diseño con IA!

Introducción general RoomGPT es un proyecto de código abierto desarrollado por el usuario de GitHub Nutlope que permite a los usuarios subir fotos de habitaciones y generar versiones rediseñadas de las mismas utilizando tecnología de inteligencia artificial. El objetivo del proyecto es ofrecer a los usuarios acceso a un diseño de interiores profesional sin tener que pagar...
hace 2 años
072.6K
CogAgent:智谱开源的智能视觉语言模型,实现图形界面自动化操作

CogAgent: modelo de lenguaje visual inteligente de código abierto de Smart Spectrum para la automatización de interfaces gráficas

Introducción CogAgent es un modelo de lenguaje visual de código abierto desarrollado por el Grupo de Investigación de Minería de Datos de la Universidad de Tsinghua (THUDM), cuyo objetivo es automatizar el funcionamiento de la interfaz gráfica de usuario (GUI) en todas las plataformas. El modelo se basa en CogVLM (GLM-4V-9B) y es compatible con el chino y el inglés bilingües....
hace 1 año
072.5K
Gemini Playground:无服务器部署Gemini多模态对话网站

Gemini Playground: despliegue sin servidor de un sitio de diálogo multimodal Gemini

Introducción General Gemini Playground es un proyecto de código abierto diseñado para ayudar a los usuarios a implementar rápidamente un sitio de diálogo multimodal . El proyecto es desarrollado por el camarón de rastreo técnico , apoyar el uso de Gemini API Key en 10 segundos para completar el despliegue . Si el usuario es ...
hace 1 año
072.5K
Sana:快速生成高分辨率图像,0.6B超小尺寸模型,低配笔记本GPU运行

Sana: generación rápida de imágenes de alta resolución, modelo de tamaño ultrapequeño de 0,6B, funcionamiento con GPU de portátil de bajo perfil

Introducción general Sana es un eficiente marco de generación de imágenes de alta resolución desarrollado por NVIDIA Labs, capaz de generar imágenes de hasta 4096 × 4096 de resolución en cuestión de segundos.Sana emplea un transformador de difusión lineal y tecnología de autocodificación de compresión profunda para...
hace 2 años
072.3K
Retrieval based Voice Conversion WebUI:基于检索的语音转换框架|模拟真人歌声

Conversión de voz basada en recuperación WebUI: un marco para la conversión de voz basada en recuperación | Simulación de voces cantadas en la vida real

WebUI de conversión de voz basado en VITS es un marco de conversión de voz basado en VITS fácil de usar que permite la conversión de voz entre cualquier altavoz, incluyendo covers de canciones y cambios de voz en tiempo real. Tiene bajo ...
hace 2 años
072.3K
DCT-Net:照片和视频转绘为动漫风格化的开源工具

DCT-Net: una herramienta de código abierto para transformar fotos y vídeos en anime estilizado

Introducción general DCT-Net es un proyecto de código abierto desarrollado por la Academia DAMO y el Instituto Wang Xuan de Tecnología Informática de la Universidad de Pekín, cuyo objetivo es la transformación anime estilizada de imágenes. El proyecto utiliza técnicas de aprendizaje profundo a través de la Traducción Calibrada por Dominio (Domain-Calibrat...
hace 1 año
072.2K
ColorFlow:漫画着色,黑白图像自动着色,提升图像色彩一致性和质量

ColorFlow: sombreado de dibujos animados, sombreado automático de imágenes en blanco y negro para mejorar la coherencia y la calidad del color de las imágenes.

Introducción ColorFlow es una herramienta de autocoloreado de secuencias de imágenes desarrollada por el equipo ARC de Tencent para resolver el problema del autocoloreado de secuencias de imágenes en blanco y negro. La herramienta utiliza un proceso de sombreado mejorado para generar con precisión los colores de varios elementos a través de un conjunto de imágenes de referencia, incluidos los colores del pelo de los personajes y los servicios....
hace 1 año
072.2K
X-Kit:Twitter数据抓取和分析X用户数据与推文的工具

X-Kit: rastreo de datos de Twitter y análisis de datos de usuarios X y tweets

Introducción general X-Kit es una herramienta de código abierto diseñada para rastrear y analizar datos y tweets de usuarios de X (antes Twitter). Desarrollada por el usuario de GitHub xiaoxiunique, la herramienta está diseñada para ayudar a los usuarios a automatizar el proceso de obtención de información básica y tweets sobre un determinado usuario de X y...
hace 1 año
072.1K
Hibiki:实时语音翻译模型,保留原声特点的流式翻译

Hibiki: un modelo de traducción de voz en tiempo real, traducción en flujo continuo que conserva las características de la voz original

Introducción general Hibiki es un modelo de traducción de voz en tiempo real de alta fidelidad desarrollado por Kyutai Labs. A diferencia de los traductores offline tradicionales, Hibiki es capaz de generar traducciones de voz naturales en el idioma de destino en tiempo real mientras el usuario habla, así como proporcionar traducciones de texto. El modelo...
hace 1 año
072.1K
Flow(Laminar):构建智能体的轻量级任务引擎,简化并灵活管理任务

Flow (Laminar): un motor de tareas ligero para construir inteligencias que simplifica y gestiona con flexibilidad las tareas.

Introducción general Flow es un motor de tareas ligero diseñado para construir agentes de IA con un énfasis en la simplicidad y la flexibilidad. A diferencia de los flujos de trabajo tradicionales basados en nodos y bordes, Flow utiliza un sistema dinámico de colas de tareas que admite la ejecución paralela, la programación dinámica y la gestión inteligente de dependencias. Su concepto central es ...
hace 2 años
072.1K
AutoAgent:通过自然语言快速创建并部署AI智能体的框架

AutoAgent: un marco para crear y desplegar rápidamente inteligencias de IA a través del lenguaje natural

Introducción general AutoAgent es un marco de inteligencias de IA de código abierto desarrollado por el Laboratorio de Inteligencia de Datos de la Universidad de Hong Kong (HKUDS) y alojado en GitHub.Permite a los usuarios crear y desplegar rápidamente inteligencias de IA personalizadas describiendo sus requisitos en lenguaje puramente natural, sin ninguna base de programación....
hace 12 meses
072.1K
LogoCreator:开源Logo生成器,使用AI智能生成专业品牌Logo

LogoCreator: generador de logotipos de código abierto que utiliza inteligencia artificial para generar logotipos de marca profesionales.

Introducción general LogoCreator es un generador de logotipos de código abierto basado en el modelo Together AI y Flux, centrado en proporcionar servicios de diseño de logotipos rápidos y profesionales para empresas y particulares. El proyecto es desarrollado y de código abierto por el desarrollador Nutlope en Git...
hace 1 año
071.9K
AI2SRT:利用 Gemini模型,一键为长视频创建解说短视频或视频总结

AI2SRT: Creación de vídeos narrados breves o resúmenes de vídeos largos en un solo clic mediante modelos Gemini

Introducción general AI2SRT es un proyecto de código abierto que utiliza el gran modelo GeminiAI para generar vídeos narrados cortos y resúmenes de vídeo para vídeos largos con un solo clic, a la vez que admite subtítulos de transcripción de audio y vídeo. El proyecto pretende simplificar el proceso de creación de contenidos de vídeo y proporcionar funciones eficaces de generación y traducción de subtítulos. Los usuarios pueden pasar...
hace 1 año
071.9K
LazyLLM:商汤开源构建多智能体应用的低代码开发工具

LazyLLM: herramienta de desarrollo de código abierto de Shangtang para crear aplicaciones corporales multiinteligentes

Introducción exhaustiva LazyLLM es una herramienta de código abierto desarrollada por el equipo LazyAGI, centrada en simplificar el proceso de desarrollo de aplicaciones de grandes modelos de inteligencia múltiple. Ayuda a los desarrolladores a construir rápidamente aplicaciones complejas de IA a través de la implementación con un solo clic y mecanismos de puerta de enlace ligeros, ahorrando la tediosa configuración de ingeniería....
hace 1 año
071.9K
Bilingual Book Maker:使用AI翻译制作双语电子书,全书自动化翻译工具

Bilingual Book Maker: Utiliza la traducción automática para crear libros electrónicos bilingües.

Introducción general Bilingual Book Maker es un proyecto de código abierto diseñado para ayudar a los usuarios a crear versiones multilingües de libros electrónicos utilizando tecnología de IA. La herramienta utiliza principalmente ChatGPT para la traducción y soporta múltiples formatos de archivo, incluyendo epub, txt y srt....
hace 1 año
071.9K
E2B Open Computer Use:E2B沙盒中安全的运行AI操作系统

Uso de ordenadores abiertos E2B: ejecución segura de un sistema operativo de inteligencia artificial en el espacio aislado E2B

Introducción general E2B Open Computer Use es un proyecto de código abierto cuyo objetivo es proporcionar una experiencia segura de uso de ordenadores Linux basada en la nube a través de E2B Desktop Sandbox.E2B Sandbox proporciona un entorno gráfico de escritorio que los usuarios...
hace 1 año
071.8K
Copilot后端代理服务:用其他模型接管GitHub Copilot插件服务端

Copilot backend proxy service: hacerse cargo del servidor de plugins de GitHub Copilot con otros modelos

Introducción general El Copilot Backend Agent Service es un proyecto de código abierto diseñado para gestionar el servidor de plugins de GitHub Copilot aprovechando otros modelos FIM como DeepSeek, a la vez que soporta que varias personas compartan cuentas oficiales. El servicio soporta una variedad de IDEs, incluyendo V...
hace 1 año
071.8K
MedRAX: 利用多模态大模型进行胸部X光片分析的智能体

MedRAX: un organismo inteligente para el análisis de radiografías de tórax mediante macromodelos multimodales

Introducción completa MedRAX es una inteligencia artificial de última generación diseñada para el análisis de radiografías de tórax (CXR). Integra herramientas de análisis CXR de última generación y grandes modelos de lenguaje multimodal para procesar dinámicamente consultas médicas complejas sin formación adicional.MedRAX, a través de su diseño modular...
hace 1 año
071.8K
ModelBest(面壁智能):全球领先的轻量高性能端侧大模型

ModelBest: el líder mundial en modelos grandes ligeros y de alto rendimiento de extremo a extremo

Introducción general ModelBest es una empresa centrada en el desarrollo de grandes modelos ligeros y de alto rendimiento, y se dedica a aplicar tecnologías avanzadas de IA a la electrónica de consumo convencional y a todo tipo de dispositivos finales de la vida cotidiana. Su serie MiniCPM de modelos finales con extrema potencia aritmética y eficiencia en el uso de la memoria...
hace 2 años
071.7K
VideoRAG:理解超长视频的RAG框架,支持多模态检索和知识图谱构建

VideoRAG: un marco RAG para la comprensión de vídeos ultralargos con soporte para la recuperación multimodal y la construcción de grafos de conocimiento

Introducción VideoRAG es un marco generativo de recuperación mejorado diseñado para procesar y comprender vídeos contextuales muy largos. La herramienta combina una base de conocimiento textual basada en grafos con la codificación jerárquica multimodal del contexto para procesar eficientemente en una sola GPU NVIDIA RTX 3090....
hace 1 año
071.6K
Aide:强化VSCode开发体验的AI助手扩展,一键注释、转换、UI生成代码

Aide: extensión de ayuda de IA que mejora la experiencia de desarrollo de VSCode, la anotación con un solo clic, la conversión y la generación de interfaz de usuario de código.

Introducción general AIDE (AI-assisted Development Extension) es una potente extensión de desarrollo asistido por IA para VSCode, centrada en proporcionar una asistencia de programación de IA única y útil. Es diferente de GitHu...
hace 1 año
071.4K
Parler-TTS:根据输入文本生成特定说话人风格的文本转语音模型

Parler-TTS: generación de modelos de conversión de texto en voz específicos para cada hablante a partir de un texto de entrada

Introducción general Parler-TTS es una biblioteca de modelos de texto a voz (TTS) de código abierto desarrollada por Hugging Face, diseñada para generar habla de alta calidad y sonido natural. El modelo es capaz de generar habla a partir de un texto de entrada con un estilo de locutor específico (por ejemplo, género, tono, estilo de habla...
hace 1 año
071.3K
Tarsier:生成高质量视频描述的开源视频理解模型

Tarsier: un modelo de comprensión de vídeo de código abierto para generar descripciones de vídeo de alta calidad

Introducción general Tarsier es una familia de modelos de videolenguaje de código abierto desarrollada por ByteDance para generar descripciones de vídeo de alta calidad. Consta de una estructura sencilla: el CLIP-ViT procesa los fotogramas de vídeo, combinado con un Large Language Model (LLM) para analizar...
hace 1 año
071.2K
Gemini Cursor:基于Gemini构建的AI桌面智能助手,能看、能听、能说

Gemini Cursor: un asistente inteligente de sobremesa basado en Gemini que puede ver, oír y hablar.

Introducción general Gemini Cursor es un asistente inteligente de escritorio basado en el modelo Gemini 2.0 Flash (experimental) de Google. Permite interacciones visuales, auditivas y de voz a través de una API multimodal, proporcionando un uso en tiempo real de baja latencia....
hace 1 año
071.2K
Ultravox:实时端到端语音对话的音频多模态大模型,GPT-4o语音交互的开源实现

Ultravox: un macromodelo multimodal de audio para el diálogo de voz en tiempo real de extremo a extremo, una implementación de código abierto de la interacción de voz GPT-4o

Introducción general Ultravox es un innovador modelo multimodal de lenguaje amplio (LLM) diseñado para el procesamiento del habla en tiempo real. A diferencia de los sistemas tradicionales de reconocimiento del habla, Ultravox elimina la necesidad de una etapa separada de reconocimiento del habla de audio (ASR), y es capaz de convertir directamente el audio en un espacio de alta dimensión en...
hace 1 año
071.1K
Diffusers Image Outpaint:超强开源AI图像扩展工具,图像外绘(image outpainting)

Diffusers Image Outpaint: herramienta de extensión de imagen AI de código abierto súper potente, image outpainting (pintado de imágenes)

Introducción general Diffusers Image Outpaint es una potente herramienta de expansión de imágenes AI creada por fffiloni, miembro de la comunidad Hugging Face. La herramienta utiliza técnicas avanzadas de modelado de difusión para...
hace 2 años
071.1K
Quadratic:集成AI对话和代码执行的在线数据分析表格

Quadratic: formularios de análisis de datos en línea que integran el diálogo con la IA y la ejecución de código

Descripción general Quadratic es una herramienta de hoja de cálculo inteligente de código abierto que combina características de IA, código y conectividad de datos diseñadas para proporcionar a los usuarios potentes capacidades de procesamiento y análisis de datos. Al soportar lenguajes de programación como Python, SQL y Rust, Quadratic...
hace 1 año
071K
DH live:在30/40系显卡流畅实时交互的AI数字人

DH live: AI digital people con interacción fluida en tiempo real en tarjetas gráficas de la serie 30/40

Introducción general DH_live es un proyecto de humano digital en tiempo real basado en el aprendizaje sin muestras, cuyo objetivo es proporcionar a los usuarios una experiencia de transmisión en directo fluida e interactiva. El proyecto es compatible con las tarjetas gráficas NVIDIA de las series 30 y 40 y es capaz de funcionar en tiempo real a más de 25 fps. Los usuarios pueden...
hace 2 años
070.9K
MMAudio:为视频画面生成同步音效与配乐,视频到音频的多模态联合训练工具

MMAudio: generación de efectos sonoros sincronizados y bandas sonoras para secuencias de vídeo, herramienta de coformación multimodal vídeo-audio.

Introducción general MMAudio es un proyecto de código abierto cuyo objetivo es generar audio sincronizado de alta calidad mediante el entrenamiento multimodal conjunto. Desarrollado por Ho Kei Cheng et al. en la Universidad China de Hong Kong, la función principal del proyecto es generar audio sincronizado a partir de la entrada de vídeo y/o texto.MM...
hace 1 año
070.9K
BrushEdit:腾讯ARC发布的图像修复和编辑的全能工具

BrushEdit: herramienta todo en uno para la restauración y edición de imágenes lanzada por Tencent ARC

Introducción general BrushEdit es una herramienta integral de reparación y edición de imágenes desarrollada por Tencent ARC Labs. La herramienta se basa en la última tecnología de IA y es capaz de identificar y reparar automáticamente los defectos en las imágenes, mientras que el apoyo a la edición interactiva por users.BrushEdit combina una variedad de...
hace 1 año
070.7K
DeepRant:实时翻译游戏聊天内容的开源客户端

DeepRant: un cliente de código abierto para traducir en tiempo real el contenido del chat de un juego

Introducción general DeepRant es una herramienta de traducción de código abierto para jugadores, diseñada para resolver el problema de las barreras lingüísticas en los servidores internacionales. Permite la traducción instantánea del texto del juego mediante atajos de teclado, admite que varios idiomas se traduzcan entre sí y permite a los jugadores entender y responder rápidamente a los mensajes del chat sin salir del juego....
hace 1 año
070.6K
Amurex:开源AI会议记录助手,自动记录会议内容生成总结

Amurex: asistente AI de código abierto para la grabación de reuniones, grabación automática del contenido de las reuniones para generar resúmenes.

Introducción general Amurex es un asistente de reuniones con inteligencia artificial de código abierto desarrollado por The Personal AI Company, diseñado para mejorar la eficacia de las reuniones mediante funciones inteligentes.
hace 1 año
070.6K
Eko:自然语言构建智能体工作流,实现桌面与浏览器自动化

Eko: flujos de trabajo corporales inteligentes basados en lenguaje natural para la automatización de escritorios y navegadores

Introducción general Eko es un marco JavaScript de nivel de producción diseñado para construir flujos de trabajo de agentes inteligentes eficientes mediante descripciones en lenguaje natural. Está diseñado para permitir a los desarrolladores automatizar tareas cotidianas utilizando tecnologías de IA sin necesidad de programac...
hace 1 año
070.6K
CogVLM2:开源多模态模型,支持视频理解与多轮对话

CogVLM2: modelo multimodal de código abierto para la comprensión de vídeos y rondas múltiples de diálogo

Introducción CogVLM2 es un modelo multimodal de código abierto desarrollado por el Grupo de Investigación de Minería de Datos de la Universidad de Tsinghua (THUDM), basado en la arquitectura Llama3-8B, y cuyo objetivo es proporcionar un rendimiento comparable o incluso mejor que GPT-4V. El modelo permite la comprensión de imágenes, el diálogo...
hace 1 año
070.5K
SegAnyMo:从视频中自动分割任意运动物体的开源工具

SegAnyMo: herramienta de código abierto para segmentar automáticamente objetos arbitrarios en movimiento a partir de vídeo

Introducción general SegAnyMo es un proyecto de código abierto desarrollado por un equipo de investigadores de la UC Berkeley y la Universidad de Pekín, entre los que se encuentran miembros como Nan Huang. Esta herramienta se centra en el procesamiento de vídeo y puede identificar y segmentar automáticamente objetos arbitrarios en movimiento en un vídeo, como personas, animales o...
hace 1 año
070.5K
xyks:小猿口算逆向笔记,逆向工程与解密算法

xyks: pequeño simio cálculo oral notas inversas, ingeniería inversa y algoritmos de descifrado

Introducción completa Ape Mouth Calculator Reverse Notes es un proyecto de código abierto que tiene como objetivo documentar y compartir el proceso y los métodos de ingeniería inversa de la aplicación Ape Mouth Calculator. El proyecto contiene una variedad de herramientas y técnicas inversas para usar las instrucciones , como Frida, dexdump , etc., para ayudar a los usuarios a entender y descifrar la suma aritmética oral del pequeño simio....
hace 2 años
070.3K
YuE:将歌词转化为完整歌曲的基础模型,支持多种音乐风格

YuE: transforma la letra en un modelo base de una canción completa, compatible con una amplia gama de estilos musicales.

Introducción general YuE es un modelo base de generación de canciones completas de código abierto que se centra en transformar letras de canciones en canciones completas. A diferencia de otros modelos que sólo generan fragmentos cortos de música no vocal, YuE es capaz de generar canciones completas con voz principal y coros de hasta varios minutos de duración. El modelo aborda la generación de música en...
hace 1 año
070.2K
R1-V:低成本强化学习实现视觉语言模型泛化能力

R1-V: Aprendizaje por refuerzo de bajo coste para la capacidad de generalización de modelos de lenguaje visual

Introducción exhaustiva R1-V es un proyecto de código abierto cuyo objetivo es lograr avances en el modelado del lenguaje visual (VLM) mediante el aprendizaje por refuerzo (RL) de bajo coste. El proyecto utiliza mecanismos de recompensa verificables para motivar a los VLM a aprender habilidades genéricas de conteo. Sorprendentemente, R1-V's 2B ...
hace 1 año
070.2K
Ruyi-Models:生成图像到视频开源模型,支持镜头控制与运动幅度控制

Ruyi-Models: Genera modelos de código abierto de imagen a vídeo que admiten el control de la lente y el control de la amplitud de movimiento.

Introducción general Ruyi-Models es un proyecto de código abierto diseñado para generar vídeos de alta calidad a partir de imágenes. Desarrollado por el equipo IamCreateAI, el proyecto soporta la generación de vídeo cinemático a 768 de resolución, 24 fotogramas por segundo, 120 fotogramas en 5 segundos...
hace 1 año
070.2K
RolmOCR:识别手写和倾斜字符的文档OCR模型

RolmOCR: modelo de reconocimiento óptico de caracteres (OCR) de documentos para reconocer caracteres manuscritos e inclinados

Introducción general RolmOCR es una herramienta de reconocimiento óptico de caracteres (OCR) de código abierto desarrollada por el equipo Reducto AI, basada en el modelo de lenguaje visual Qwen2.5-VL-7B. Puede extraer texto de imágenes y archivos PDF más rápidamente que otras herramientas similares...
hace 1 año
070.1K
AgentGPT:创建并运行自动化AI智能体的开源项目

AgentGPT: un proyecto de código abierto para crear y ejecutar inteligencias artificiales automatizadas

Introducción general AgentGPT es un proyecto de código abierto desarrollado por el equipo Reworkd y alojado en GitHub, diseñado para permitir a los usuarios crear, configurar y desplegar de forma autónoma inteligencias AI a través de un navegador. Los usuarios simplemente establecen un objetivo, y AgentGPT puede...
hace 1 año
070K
Easegen:开源数字人课程制作平台,PPT一键生成克隆数字人讲解视频

Easegen: plataforma de producción de cursos humanos digitales de código abierto, clonación de vídeos de conferencias humanas digitales de generación PPT con un solo clic

Introducción exhaustiva Easegen es una plataforma de creación de cursos humanos digitales de código abierto que tiene como objetivo mejorar la eficiencia de la producción y gestión de contenidos de enseñanza a través de la tecnología de IA. La plataforma proporciona una solución integral desde la producción de cursos, la gestión de vídeo hasta el interrogatorio inteligente, que permite a los usuarios crear cursos digitales de vídeo explicados por humanos....
hace 2 años
070K
Ant Design X:快速构建AI聊天界面的工具包,支持模型集成和数据流管理。

Ant Design X: un conjunto de herramientas para construir rápidamente interfaces de chat de IA con soporte para la integración de modelos y la gestión del flujo de datos.

Introducción Ant Design X es un conjunto de herramientas de código abierto de Ant Group, diseñado para ayudar a los desarrolladores a crear rápidamente interfaces de diálogo basadas en IA. Proporciona un amplio conjunto de componentes y plantillas, soporta la integración de modelos compatibles con los estándares OpenAI, y es adecuado para una variedad de aplicaciones tales como servicio al cliente inteligente, asistentes de IA, y otros...
hace 2 años
070K
OpenManus-RL:微调大模型强化智能体推理与决策能力

OpenManus-RL: ajuste de grandes modelos para mejorar el razonamiento corporal inteligente y la toma de decisiones

Introducción general OpenManus-RL es un proyecto de código abierto desarrollado por UIUC-Ulab junto con el equipo OpenManus de la comunidad MetaGPT, alojado en GitHub. El proyecto mejora el modelado lingüístico a gran escala (LLM) mediante técnicas de aprendizaje por refuerzo (RL)....
hace 1 año
069.9K
Orate:集成知名语音生成、语音转录与变声模型的统一API

Orate: una API unificada para integrar la generación de voz bien conocida, la transcripción de voz y el modelado de voz

Introducción general Orate es un conjunto de herramientas de IA centrado en la generación y transcripción de voz. Proporciona una API unificada que se integra a la perfección con los principales proveedores de IA, como OpenAI, ElevenLabs y AssemblyAI, para ayudar a...
hace 1 año
069.9K
VBDeepSeek:使用DeepSeek生成四级单词学习资料的开源工具

VBDeepSeek: una herramienta de código abierto para generar materiales de estudio de palabras de 4º curso utilizando DeepSeek.

Introducción completa "Vocabulary Book by DeepSeek" es un proyecto de código abierto desarrollado sobre la base del gran modelo de DeepSeek, con el objetivo de ayudar a los estudiantes de inglés a dominar el vocabulario del nivel 4 de inglés universitario (CET-4) de manera eficiente. El proyecto está alojado en GitHub...
hace 1 año
069.9K
TripoSG:单张图像生成高分辨率3D建模数字资产

TripoSG: generación de activos digitales modelados en 3D de alta resolución a partir de una sola imagen

Introducción general TripoSG es un proyecto de código abierto desarrollado por el equipo de investigación VAST AI para generar modelos 3D de alta calidad a partir de una sola imagen. El proyecto utiliza tecnología de convertidor rectificador-flujo a gran escala, combinada con entrenamiento híbrido supervisado y conjuntos de datos de alta calidad, para permitir que los modelos 3D generados tengan...
hace 1 año
069.8K
Infinity:生成高分辨率图像的比特自回归建模,实现无限制高分辨率图像生成

Infinity: modelización autorregresiva por bits de la generación de imágenes de alta resolución para una generación ilimitada de imágenes de alta resolución

Introducción general Infinity es un innovador marco de generación de imágenes de alta resolución desarrollado por el equipo de FoundationVision. El proyecto rompe con las limitaciones de los modelos tradicionales de generación de imágenes a través de un innovador enfoque de modelado autorregresivo visual a nivel de bits.Las principales características de Infinity...
hace 1 año
069.8K
MiniRAG:简化检索增强生成框架,实体图索引召回相关文本块

MiniRAG: Marco de Generación Mejorada de Recuperación Simplificada, Índice de Grafos de Entidades Recupera Bloques de Texto Relevantes

Una introducción exhaustiva MiniRAG es un marco de trabajo de Generación Aumentada de Recuperación (RAG) extremadamente sencillo que pretende permitir un buen rendimiento de la RAG incluso para modelos pequeños mediante la indexación de grafos heterogéneos y la recuperación mejorada por topología ligera. Ha sido desarrollado por el Laboratorio de Ciencia de Datos de la Universidad de Hong Kong (HKUDS) para ...
hace 1 año
069.7K
MarkItDown:微软文档智能转换工具,转换各种文件为Markdown格式

MarkItDown: Herramienta de conversión inteligente de documentos de Microsoft para convertir varios archivos al formato Markdown

Introducción general MarkItDown es una herramienta Python desarrollada por Microsoft diseñada para convertir diversos archivos y documentos ofimáticos al formato Markdown. La herramienta admite una amplia gama de tipos de archivo, como PDF, PowerPoint, Word, Excel, diagramas...
hace 1 año
069.6K
RapBank:根据歌词和伴奏直接生成说唱(Rap)人声的模型(目前开放了数据集)

RapBank: modelo de generación directa de voces de rap a partir de letras y pistas de acompañamiento (conjunto de datos abierto actualmente).

Introducción general RapBank es un conjunto de datos y herramientas diseñado para la generación de letras de rap. El proyecto fue creado por NZqian para proporcionar a investigadores y desarrolladores datos de alta calidad sobre letras de rap mediante la recopilación y el procesamiento de...
hace 1 año
069.6K