Proyecto AI de código abierto

Total 1020 artículos
AutoMouser:生成浏览器自动化代码,将鼠标操作通过AI转为Selenium Python脚本

AutoMouser: Generación de código de automatización del navegador para convertir acciones del ratón en scripts Selenium Python mediante IA

Introducción general AutoMouser es una extensión de Chrome que rastrea de forma inteligente las interacciones del usuario y genera automáticamente código de prueba Selenium utilizando los modelos GPT de OpenAI. Para ello, registra las acciones del navegador del usuario y las convierte...
hace 1 año
059K
AutoFlow:基于GraphRAG的对话式知识库/网页深度搜索工具,对话框可集成到其他网站

AutoFlow: base de conocimientos conversacional basada en GraphRAG/herramienta de búsqueda profunda en la web con diálogos que pueden integrarse en otros sitios web.

Introducción general AutoFlow es una herramienta de código abierto desarrollada por PingCAP para construir bases de conocimiento basadas en grafos con almacenamiento vectorial sin servidor TiDB. Integra los frameworks LlamaIndex y DSPy para soportar búsquedas complejas de diálogos y grafos de conocimiento....
hace 1 año
059K
TransRouter:基于Gemini多模态模型,实时中英互译的音频转换工具

TransRouter: una herramienta de conversión de audio en tiempo real para la traducción del chino al inglés basada en el modelo multimodal Gemini.

TransRouter es una herramienta de traducción de voz en tiempo real basada en el modelo Gemini de Google, diseñada específicamente para la traducción de voz en tiempo real entre inglés y chino. La herramienta se integra perfectamente en software de videoconferencia como Zoom, proporcionando una potente herramienta para la traducción...
hace 1 año
058.9K
Gemini Next Chat:一键免费部署您的私人多模态Gemini应用

Gemini Next Chat: ¡Despliegue gratis su aplicación privada multimodal Gemini con un solo clic!

Introducción general Gemini Next Chat es un proyecto de código abierto diseñado para ayudar a los usuarios a desplegar fácilmente aplicaciones Gemini privadas. El proyecto soporta los modelos multimodales Gemini 1.5 y Gemini 2.0 , los usuarios pueden desplegar con un click en Vercel...
hace 1 año
058.9K
GenXD:生成任意3D和4D场景视频的开源框架

GenXD: framework de código abierto para generar vídeos de escenas arbitrarias en 3D y 4D

Introducción general GenXD es un proyecto de código abierto desarrollado por la Universidad Nacional de Singapur (NUS) y el equipo de Microsoft. Se centra en la generación de escenas arbitrarias en 3D y 4D , para resolver la generación en 3D y 4D en el mundo real debido a la insuficiencia de datos y la complejidad del diseño del modelo provocada por el problema . El proyecto fue desarrollado por ...
hace 1 año
058.9K
VoAPI:高颜值的AI模型转发接口管理系统,官网每日提供免费API额度

VoAPI: Sistema de gestión de interfaz de reenvío de modelos de IA de alto valor, el sitio web oficial ofrece cuota API gratuita diaria.

Introducción general VoAPI es un nuevo sistema de gestión y distribución de interfaces de modelos de IA de alto perfil y alto rendimiento, que se utiliza principalmente para la gestión interna y los canales de distribución personales o empresariales. Desarrollado sobre la base de NewAPI, el sistema proporciona módulos funcionales ricos e interfaz de usuario optimizada, con el objetivo de mejorar...
hace 1 año
058.9K
Ovis:视觉与文本对齐模型,精准反推图像提示词

Ovis: un modelo de alineación visual y textual para la retropropagación precisa de palabras clave de imágenes

Introducción general Ovis (Open VISion) es un modelo de lenguaje multimodal (MLLM) de código abierto desarrollado por el equipo AIDC-AI del Grupo de Comercio Digital Internacional de Alibaba y alojado en GitHub.El modelo utiliza una innovadora técnica de alineación de estructura...
hace 1 año
058.9K
Atomic Agents:构建轻量级模块化AI智能体框架

Agentes atómicos: un marco para construir inteligencias de IA modulares y ligeras

Introducción general Atomic Agents es un framework extremadamente ligero y modular diseñado en torno al concepto de atomicidad para construir pipelines y aplicaciones de IA con agentes. El marco proporciona un conjunto de herramientas y agentes que pueden combinarse para crear potentes aplicaciones. Se basa en Instruc...
hace 1 año
058.9K
Lux:几乎支持所有视频平台的命令行视频下载器

Lux: descargador de vídeo por línea de comandos compatible con casi todas las plataformas de vídeo

Introducción general Lux es una biblioteca de descarga de vídeo rápida y sencilla y una herramienta de línea de comandos escrita en Go. Soporta la descarga de vídeos de múltiples sitios web, incluyendo YouTube, Bilibili, Youku, etc. Lux ofrece una variedad de opciones de descarga y características, tales como la descarga multi-hilo....
hace 1 año
058.8K
Micro Agent:AI编程智能体,自动生成代码并测试、修复代码

Microagente: inteligencia artificial de programación que genera código automáticamente y lo prueba y corrige.

Introducción general Micro-Agent es un asistente de codificación de IA de código abierto desarrollado por Builder.io, diseñado para proporcionar a los desarrolladores la capacidad de generar y probar código automáticamente. Genera casos de prueba mediante la comprensión de descripciones en lenguaje natural e itera el código hasta que todas las pruebas pasan, reduciendo...
hace 1 año
058.8K
集成多种先进语音合成服务的开源运营项目

Proyecto operativo de código abierto que integra múltiples servicios avanzados de síntesis de voz

Introducción general Open-VoiceCanvas es una plataforma de síntesis de voz de código abierto desarrollada por el equipo ItusiAI. Soporta más de 50 idiomas, y puede convertir texto en habla natural, así como clonar voces personalizadas subiendo audio. El proyecto integra Ope...
hace 1 año
058.8K
HealthGPT:支持医学图像分析与诊断问答的医疗大模型

HealthGPT: un gran modelo médico de apoyo al análisis de imágenes médicas y a las preguntas y respuestas diagnósticas

Introducción exhaustiva HealthGPT es un modelo avanzado de gran lenguaje visual médico que pretende lograr capacidades unificadas de comprensión y generación visual médica mediante la adaptación de conocimientos heterogéneos. El objetivo del proyecto es integrar la comprensión visual médica y las capacidades de generación en un marco autorregresivo unificado que mejore significativamente la...
hace 1 año
058.8K
Social Media Agent:社交媒体智能助手,自动生成和管理社交媒体内容

Social Media Agent: un asistente inteligente para las redes sociales que genera y gestiona automáticamente los contenidos de las mismas.

Introducción general Social Media Agent (Agente de Medios Sociales) es un proyecto de código abierto que gestiona la información de interacción mediante el nuevo Agent Inbox, diseñado para ayudar a los usuarios a automatizar la generación y gestión de contenidos de medios sociales. El proyecto está desarrollado por el equipo LangChain...
hace 1 año
058.7K
OpenDeepSearch:支持智能推理的开源搜索工具

OpenDeepSearch: una herramienta de búsqueda de código abierto que permite el razonamiento inteligente

Introducción general OpenDeepSearch es una herramienta de búsqueda de código abierto desarrollada por el equipo sentient-agi. Combina Large Language Modelling (LLM) y Agentes de Razonamiento Inteligente para permitir a los usuarios buscar información en páginas web y obtener respuestas precisas de forma sencilla. Esta ...
hace 1 año
058.6K
LivePortrait:静态图像、视频生成动态肖像动画工具

LivePortrait: herramienta de animación para generar retratos dinámicos a partir de imágenes fijas y vídeos

Introducción general LivePortrait es una herramienta avanzada de animación dinámica de retratos AI desarrollada por Racer Technology. Utiliza una innovadora tecnología de IA para transformar imágenes fijas en vívidas animaciones de vídeo. Tanto si utiliza fotos reales, estilos de animación o retratos artísticos, LivePo...
hace 1 año
058.6K
HunyuanVideoGP:支持低端GPU运行的混元视频生成模型

HunyuanVideoGP: un modelo híbrido de generación de vídeo compatible con GPU de gama baja

Introducción general HunyuanVideoGP es un modelo de generación de vídeo a gran escala desarrollado por DeepBeepMeep y diseñado para usuarios de GPU de gama baja. El modelo es una versión mejorada del modelo Hunyuan Video original, que reduce significativamente los requisitos de memoria y memoria gráfica....
hace 1 año
058.6K
元界AI:开源版AI数字人克隆与短视频生成工具

Metaverse AI: versión de código abierto de una herramienta de clonación humana digital y generación de vídeos cortos con IA

Introducción completa Metaverse AI (versión de código abierto) es un proyecto alojado en GitHub, desarrollado por el equipo libn-net. Puede clonar imágenes y voces humanas digitales mediante tecnología de IA para generar vídeos cortos, y también admite doblaje y subtitulación. Esta herramienta proporciona...
hace 1 año
058.5K
Yek:读取git仓库文本文件并快速分块,以供大模型使用

Yek: lectura de archivos de texto de repositorios git y fragmentación rápida de modelos de gran tamaño

Introducción general Yek es una herramienta rápida basada en Rust para leer archivos de texto de repositorios o directorios, trocearlos y serializarlos para su uso en grandes modelos lingüísticos (LLM). La herramienta utiliza la regla .gitignore por defecto para omitir archivos innecesarios, y utiliza...
hace 1 año
058.5K
Knowledge Table:高效提取与探索结构化数据的开源工具

Knowledge Table: una herramienta de código abierto para la extracción y exploración eficientes de datos estructurados

Introducción exhaustiva Knowledge Table (Tabla de conocimientos) es un proyecto de código abierto diseñado para simplificar el proceso de extracción y exploración de datos estructurados a partir de documentos no estructurados. Los usuarios pueden crear representaciones estructuradas del conocimiento, como tablas y gráficos, mediante una interfaz de consulta en lenguaje natural. La herramienta permite personalizar la extracción ...
hace 1 año
058.5K
Diffbot GraphRAG LLM:依赖外部实时知识图谱数据的LLM推理服务

Diffbot GraphRAG LLM: servicio de razonamiento LLM basado en datos externos de grafos de conocimiento en tiempo real.

Introducción exhaustiva Diffbot LLM Reasoning Server es un innovador sistema de modelado lingüístico a gran escala con optimizaciones y mejoras especiales basadas en la arquitectura del modelo LLama. La característica más importante del proyecto es la integración de Knowledge Graph en tiempo real con la generación mejorada de recuperación...
hace 1 año
058.5K
Mini LLM Flow:使用100行代码构建“有向图结构”的LLM微型智能体

Mini LLM Flow: Creación de mini-inteligencias LLM con "estructura de grafo dirigido" en 100 líneas de código

Introducción general miniLLMFlow es un marco de desarrollo minimalista de Large Language Model (LLM) que contiene sólo 100 líneas de código central, demostrando la filosofía de diseño de "mantenerlo simple". El marco está diseñado específicamente para permitir a los asistentes de IA (por ejemplo, ChatGPT, Claude, etc.)...
hace 1 año
058.4K
DevDocs:快速抓取并整理技术文档的MCP服务

DevDocs: un servicio MCP para rastrear y organizar rápidamente la documentación técnica

Introducción general DevDocs es una herramienta de código abierto completamente gratuita desarrollada por el equipo CyberAGI y alojada en GitHub. Diseñada para programadores y desarrolladores de software, parte de la URL de un documento técnico, rastrea automáticamente las páginas relevantes y las organiza en un conciso ma...
hace 1 año
058.4K
StreamingT2V:从文本到长视频的动态且可扩展的生成技术

StreamingT2V: generación dinámica y escalable de texto a vídeo largo

Introducción integral StreamingT2V es un proyecto público desarrollado por el equipo de investigación en IA de Picsart centrado en generar vídeos largos coherentes, dinámicos y escalables basados en descripciones textuales. Esta tecnología utiliza un enfoque autorregresivo avanzado que garantiza la coherencia temporal del vídeo con el texto descriptivo estrechamente...
hace 1 año
058.4K
VideoMind:视频按时间戳定位内容与问答的开源项目

VideoMind: proyecto de código abierto de posicionamiento de vídeos por marcas de tiempo y preguntas y respuestas

Introducción general VideoMind es una herramienta de IA multimodal de código abierto centrada en la inferencia, las preguntas y respuestas y la generación de resúmenes para vídeos largos. Fue desarrollada por Ye Liu, de la Universidad Politécnica de Hong Kong, y un equipo del Show Lab de la Universidad Nacional de Singapur. La herramienta imita la comprensión humana del vídeo...
hace 10 meses
058.3K
R1-Omni:通过视频和音频分析情感的开源模型

R1-Omni: un modelo de código abierto para analizar emociones a través de vídeo y audio

Introducción general R1-Omni es un proyecto de código abierto lanzado en GitHub por el equipo HumanMLLM. Es la primera aplicación de técnicas de Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) a un gran modelo de lenguaje multimodal, centrado en el reconocimiento de sentimientos. El proyecto analiza datos de vídeo y audio...
hace 1 año
058.3K
Confident AI:自动化大语言模型评估框架,对比不同大模型提示词输出质量

Confident AI: a framework for automated large language model evaluation, comparing the quality of output of different large model cue words (en inglés)

Introducción completa DeepEval es un marco de evaluación LLM de código abierto fácil de usar para evaluar y probar grandes sistemas de modelado del lenguaje. Es similar a Pytest, pero se centra en las pruebas unitarias de los resultados LLM. DeepEval combina los últimos resultados de la investigación...
hace 1 año
058.3K
SuperCoder:命令行终端运行的智能代码助手

SuperCoder: Asistente de código inteligente para la ejecución de terminales de línea de comandos

Introducción general SuperCoder es una herramienta inteligente que se ejecuta en el terminal y está diseñada para programadores. Utiliza tecnología de IA para ayudar a los usuarios a buscar código, ver la estructura del proyecto, editar archivos y corregir errores.El proyecto es de código abierto por huytd en GitHub y soporta...
hace 1 año
058.3K
ScrapeGraphAI:一个提示词搞定网页抓取,无需编写规则智能网页内容提取工具

ScrapeGraphAI: Una palabra rápida para el rastreo web, sin necesidad de escribir reglas herramienta inteligente de extracción de contenido web.

Introducción completa ScrapeGraphAI es una innovadora biblioteca de raspado web Python que combina inteligentemente Large Language Modelling (LLM) y Direct Graph Logic para crear tuberías de raspado para sitios web y documentos locales. Lo que hace única a esta herramienta es su perfecto nivel de simplicidad y potencia...
hace 1 año
058.3K
AI Podcast Generator:自动抓取新闻生成音频播客

AI Podcast Generator: Captura automática de noticias para generar podcasts de audio

Introducción general AI Podcast Generator es una herramienta inteligente de generación de podcasts que utiliza tecnología avanzada de IA para crear automáticamente contenidos de audio atractivos a partir de fuentes web. El sistema genera narraciones de flujo natural capturando contenidos de noticias y convirtiéndolos en podcasts de audio. El proyecto se basa en la...
hace 1 año
058.3K
Cloud Document Converter:飞书文档下载插件,飞书云文档转换为本地Markdown格式文档

Conversor de documentos en la nube: complemento de descarga de documentos Flying Book, conversión de documentos Flying Book en la nube a documentos locales en formato Markdown.

Introducción general Cloud Document Converter es una extensión de Chrome diseñada para convertir documentos en la nube de Flying Book al formato Markdown. Los usuarios pueden descargar o copiar fácilmente documentos en la nube de Flying Book en formato Markdo...
hace 1 año
058.2K
JoyGen:音频驱动的3D深度感知人像说话视频编辑工具

JoyGen: herramienta de edición de vídeo sonoro 3D con profundidad de campo para retratos hablados

Introducción general JoyGen es un innovador marco de generación de vídeo en dos fases para rostros parlantes, centrado en resolver el problema de la generación de expresiones faciales basada en audio. Desarrollado por un equipo de Jingdong Technology, utiliza técnicas avanzadas de reconstrucción 3D y métodos de extracción de características de audio para capturar con precisión las características de identidad del hablante y la expresión...
hace 1 año
058.1K
AIEvo:创建多智能体协作应用的高效框架

AIEvo: un marco eficiente para crear aplicaciones colaborativas multiinteligentes

Introducción general AIEvo es el marco multiagente de código abierto de Ant Group diseñado para crear aplicaciones multiagente de forma eficiente. El framework sigue estrictamente el grafo de tareas SOP para mejorar la tasa de éxito en la ejecución de tareas complejas, y garantiza una alta flexibilidad y escalabilidad mediante mecanismos de retroalimentación y monitorización.AIEvo ha sido producido dentro de Ant Group...
hace 1 año
058.1K
LAMBDA:本地化AI邮件自动化系统,快速生成邮件(Gmail)回复草稿

LAMBDA: Sistema de automatización de correo electrónico con IA localizada para la generación rápida de respuestas a borradores de correo electrónico (Gmail)

Introducción general LAMBDA (Local Auto MailBox Draft Assistant) es un sistema de automatización de correo electrónico con IA localizada diseñado para aprender del estilo de correo electrónico de un usuario y generar un borrador para cada correo no leído en la bandeja de entrada de Gmail....
hace 1 año
058.1K
AI-Infra-Guard:检测AI系统潜在安全风险的开源工具

AI-Infra-Guard: una herramienta de código abierto para detectar posibles riesgos de seguridad en los sistemas de IA

Introducción completa AI-Infra-Guard es una herramienta de evaluación de la seguridad de la infraestructura de IA de código abierto desarrollada por el equipo de seguridad híbrida de Tencent, Zhuqiao Labs, que está diseñada para ayudar a los usuarios a descubrir y detectar rápidamente posibles riesgos de seguridad en los sistemas de IA. La herramienta es compatible con más de 30 marcos y componentes de IA para...
hace 1 año
058K
CR-Mentor:知识库+LLM 驱动的GitHub智能代码审查导师

CR-Mentor: Base de conocimientos + LLM Mentor inteligente de revisión de código para GitHub

Introducción completa CR-Mentor es una herramienta inteligente de revisión de código que combina una base de conocimientos profesional con la potencia de Large Language Modelling (LLM). No sólo admite la revisión de código para todos los lenguajes de programación, sino que también personaliza criterios de revisión exclusivos y áreas de enfoque para los equipos basándose en las mejores prácticas acumuladas en la base de conocimientos. A través de...
hace 1 año
058K
TankWork:通过语音和文字操作电脑,并提供实时语音反馈的智能体

TankWork: un cuerpo inteligente que maneja ordenadores mediante voz y texto y proporciona información de voz en tiempo real.

Introducción general TankWork es un marco de agentes de escritorio de código abierto diseñado para permitir que la IA perciba y controle su ordenador a través de la visión por ordenador y la interacción a nivel de sistema. El marco permite a los agentes controlar directamente los ordenadores mediante comandos de voz y texto, procesar el contenido de la pantalla en tiempo real y proporcionar...
hace 1 año
058K
Mini-Cover:在线封面制作,专为博客、短视频、社交媒体等生成个性化封面

Mini-Cover: un creador de portadas en línea diseñado para generar portadas personalizadas para blogs, vídeos cortos, redes sociales y mucho más.

Introducción general Mini-Cover es una herramienta de generación de portadas en línea de código abierto diseñada para generar portadas personalizadas para plataformas como blogs, vídeos cortos y redes sociales. Desarrollada por JLinMr, la herramienta pretende ofrecer una solución sencilla y eficaz para ayudar a los usuarios a generar rápidamente portadas que se ajusten a sus necesidades....
hace 1 año
058K
Swarm:学习轻量级多智能体系统的实验性教学项目(OpenAI示例)

Swarm: un proyecto pedagógico experimental para el aprendizaje de sistemas corporales ligeros multiinteligentes (ejemplo de OpenAI)

Introducción general Swarm es un marco educativo experimental desarrollado por OpenAI para explorar interfaces ligeras, controladas y fáciles de probar para sistemas multiagente. El marco se utiliza principalmente para demostrar traspasos y patrones rutinarios entre agentes, ayudando a los desarrolladores a comprender e implementar la coordinación y ejecución de sistemas multiagente....
hace 1 año
058K
Browse AI:无代码提取和监控结构化数据

Explorar la IA: extraer y supervisar datos estructurados sin código

Presentación de Browse Browse AI es un software de automatización web sin codificación basado en la nube diseñado para ayudar a los usuarios a extraer y supervisar datos de cualquier sitio web sin necesidad de programación. Puede entrenar a un bot para que realice tareas de extracción, supervisión y automatización de datos con solo...
hace 2 años
058K
WhoDB:支持自然语言交互的轻量数据库可视化管理软件

WhoDB: software ligero de gestión de visualización de bases de datos con interacción en lenguaje natural

Introducción general WhoDB es una herramienta de gestión de bases de datos ligera (~20MB), potente y fácil de usar, diseñada para simplificar las tareas de administración de bases de datos. Combina la simplicidad de Adminer con la experiencia del usuario y mejoras en el rendimiento.WhoDB utiliza Go...
hace 1 año
057.9K
TryOffAnyone:从人物身上提取服装为平铺服装展示图的AI工具

TryOffAnyone: herramienta de IA para extraer prendas de vestir de una persona como imagen de visualización de prendas en mosaico.

Introducción general TryOffAnyone es una innovadora herramienta de procesamiento de imágenes AI diseñada para resolver los desafíos de la exhibición de ropa en el sector del comercio electrónico. Es capaz de convertir de forma inteligente fotos de personas reales vistiendo ropa en imágenes de efecto de pantalla plana, esta tecnología se basa en la última...
hace 1 año
057.9K
Autiobooks:将epub电子书转换为m4b有声书

Autiobooks: convertir ebooks epub en audiolibros m4b

Introducción general Autiobooks es una herramienta de código abierto diseñada para ayudar a los usuarios a convertir rápidamente libros electrónicos en formato .epub a audiolibros en formato .m4b. Utiliza tecnología de síntesis de voz de alta calidad proporcionada por Kokoro para generar un audio natural y fluido. Esta herramienta fue desarrollada por...
hace 1 año
057.8K
LLM API Engine:通过自然语言快速生成和部署API

LLM API Engine: generación y despliegue rápidos de API mediante lenguaje natural

Introducción general LLM API Engine es un proyecto de código abierto diseñado para ayudar a los desarrolladores a crear y desplegar rápidamente API impulsadas por IA.El proyecto aprovecha el Large Language Model (LLM) y las tecnologías de rastreo web inteligente para permitir a los usuarios crear API personalizadas a través de descripciones en lenguaje natural.Su principal...
hace 1 año
057.8K
MM-EUREKA:探索视觉推理的多模态强化学习工具

MM-EUREKA: una herramienta multimodal de aprendizaje por refuerzo para explorar el razonamiento visual

Introducción general MM-EUREKA es un proyecto de código abierto desarrollado por el Laboratorio de Inteligencia Artificial de Shanghai, la Universidad Jiao Tong de Shanghai y otras partes. Amplía las capacidades de razonamiento textual a escenarios multimodales mediante técnicas de aprendizaje por refuerzo basadas en reglas para ayudar a los modelos a procesar información de imágenes y texto. El núcleo de esta herramienta...
hace 1 año
057.8K
PrivateGPT:完全本地化RAG处理流程的文档问答系统

PrivateGPT: un sistema de preguntas y respuestas sobre documentos con un flujo de procesamiento RAG totalmente localizado

Introducción general PrivateGPT es un proyecto de IA disponible para entornos de producción que permite a los usuarios cuestionar documentos utilizando modelos lingüísticos a gran escala (LLM) sin conexión a Internet. El proyecto garantiza la privacidad de los datos para 100%, con todos los datos dispuestos en el entorno de ejecución del usuario....
hace 1 año
057.7K
Bambo:轻量灵活的智能体框架,简单配置角色和工具,处理多种负载任务

Bambo: un marco ligero y flexible para organismos inteligentes, con una sencilla configuración de roles y herramientas para gestionar múltiples cargas de tareas.

Introducción general Bambo es un nuevo tipo de framework proxy, que es más ligero y flexible que los frameworks convencionales y puede manejar una gran variedad de tareas de carga.Bambo consigue una funcionalidad proxy eficiente definiendo todas las herramientas del catálogo de herramientas y utilizando funciones personalizadas asíncronas. Los usuarios pueden...
hace 1 año
057.7K
GPTme:在命令行终端中运行的智能编程助手,ChatGPT代码解释器的本地化替代方案

GPTme: Asistente de programación inteligente que se ejecuta en un terminal de línea de comandos, alternativa localizada al intérprete de código ChatGPT.

Introducción GPTMe es un revolucionario asistente de IA para terminales diseñado para mejorar la eficiencia del trabajo de los desarrolladores. Combina a la perfección potentes capacidades de IA con el entorno del terminal, soportando diversas funciones como ejecución de código, edición de archivos, navegación web y reconocimiento visual. Como solucionador de código ChatGPT...
hace 1 año
057.6K
ChatGPT Box:让 ChatGPT 在其他网页工作的浏览器插件

ChatGPT Box: Complemento del navegador para que ChatGPT funcione en otras páginas web

Introducción general ChatGPT Box es una extensión de navegador de código abierto diseñada para integrar profundamente ChatGPT en el navegador de un usuario. Desarrollada por josStorer, la herramienta soporta múltiples idiomas y proporciona una variedad de características tales como llamar a pares de chat en cualquier página...
hace 1 año
057.6K
Thin-Plate-Spline-Motion-Model:静态人像图参考视频人像动作生成视频

Thin-Plate-Spline-Motion-Model: Vídeo de referencia del mapa de retratos estáticos Vídeo de generación de movimiento de retratos

Introducción general Thin-Plate-Spline-Motion-Model es un innovador proyecto de generación de animación de imágenes presentado en CVPR 2022. El proyecto se basa en la teoría de las transformadas spline de placa delgada y es capaz de lograr movimiento de alta calidad a partir de imágenes fijas basadas en la conducción de vídeo....
hace 1 año
057.6K
InspireMusic:阿里开源的统一音乐、歌曲和音频生成框架

InspireMusic: marco unificado de generación de música, canciones y audio de código abierto de Ali.

Introducción general InspireMusic es un conjunto de herramientas de código abierto basado en PyTorch centrado en la generación de música, canciones y audio. Proporciona un marco unificado para generar audio de alta calidad con controles para pistas de texto, estructura musical y estilo musical.Inspire...
hace 1 año
057.5K
Podcastfy:多源内容转多语言音频对话工具,NotebookLM 播客功能的开源替代方案

Podcastfy: Herramienta de conversión de contenidos de múltiples fuentes a audio multilingüe, una alternativa de código abierto a las funciones de podcasting de NotebookLM.

Introducción general Podcastfy es un paquete Python de código abierto que utiliza la tecnología de Inteligencia Artificial Generativa (GenAI) para convertir contenidos web, archivos PDF, texto, imágenes, vídeos de youtube y muchas otras fuentes en...
hace 1 año
057.5K
Agent Laboratory:为研究人员提供自动化代码及研究报告撰写助手

Laboratorio de agentes: asistente automatizado de codificación y redacción de estudios para investigadores

Introducción completa Agent Laboratory es un flujo de trabajo de investigación autónomo de extremo a extremo diseñado para ayudar a los investigadores a hacer realidad sus ideas de investigación. El sistema se compone de agentes dedicados controlados por modelos lingüísticos a gran escala que dan soporte a todo el flujo de trabajo de investigación, desde la realización de...
hace 1 año
057.5K
UltraPixel:革新超高分辨率图像生成技术,图像细节丰富

UltraPixel: revolucionaria tecnología de generación de imágenes de altísima resolución con gran riqueza de detalles

Introducción general UltraPixel es una tecnología avanzada de generación de imágenes de ultra alta resolución diseñada para crear imágenes de altísima calidad y ricas en detalles. Fue desarrollada por el usuario de GitHub catcathh y presentada en NeurIPS 2024.U...
hace 1 año
057.5K
HivisionIDPhotos:开源智能AI证件照制作工具

HivisionIDPhotos: herramienta de código abierto para la creación de documentos de identidad inteligentes con IA

Introducción completa HivisionIDPhotos es una herramienta de producción de fotos de documentos AI ligera de código abierto, puede identificar de forma inteligente la escena de la foto del usuario y la clave, para generar una foto de documento estándar en línea con una variedad de especificaciones. La herramienta soporta colores de fondo y tamaños personalizados, y en el futuro también lanzará...
hace 2 años
057.5K
OneLine:生成热点事件时间轴的AI工具

OneLine: una herramienta de IA para generar cronologías de acontecimientos candentes

Introducción general OneLine es una herramienta de código abierto para generar cronologías de eventos alojada en GitHub y desarrollada por el usuario chengtx809. Genera rápidamente una línea de tiempo de eventos por palabras clave introducidas por el usuario, mostrando la hora, título, descripción y personas relacionadas del evento....
hace 12 meses
057.5K
文本提取API(text-extract-api):视觉提取文本信息,匿名化的PDF提取工具

API de extracción de texto (text-extract-api): extracción visual de información textual, herramienta de extracción anónima de PDF

Introducción general La API de extracción de texto (text-extract-api) es una potente herramienta diseñada para extraer y analizar el contenido de diversos formatos de documento (por ejemplo, PDF, Word, PPTX, etc.). La API utiliza tecnología punta de reconocimiento óptico de caracteres (OCR) y Ol...
hace 1 año
057.5K
IMS Toucan:快速可控的多语言(支持7000+语言)文本转语音工具

IMS Toucan: herramienta de conversión de texto a voz multilingüe (compatible con más de 7000 idiomas), rápida y controlable.

Introducción general IMS Toucan es un avanzado kit de herramientas de conversión de texto a voz (TTS) desarrollado por el Instituto de Procesamiento del Lenguaje Natural (IMS) de la Universidad de Stuttgart (Alemania). El kit de herramientas es compatible con más de 7000 idiomas y es rápido, controlable y requiere pocos recursos informáticos.IMS...
hace 1 año
057.5K
OmAgent:构建多模态智能设备的智能体框架

OmAgent: un marco corporal inteligente para construir dispositivos inteligentes multimodales

Introducción general OmAgent es un marco de cuerpo inteligente multimodal desarrollado por Om AI Lab, con el objetivo de proporcionar potentes funciones impulsadas por IA para dispositivos inteligentes. Mediante la integración de modelos base multimodales de última generación y algoritmos de cuerpo inteligente, el proyecto permite a los desarrolladores crear dispositivos inteligentes eficientes en una variedad de...
hace 1 año
057.3K
Crawl4LLM:为LLM预训练提供的高效网页爬取工具

Crawl4LLM: una herramienta eficaz de rastreo web para el preentrenamiento de LLM

Introducción exhaustiva Crawl4LLM es un proyecto de código abierto desarrollado conjuntamente por la Universidad de Tsinghua y la Universidad Carnegie Mellon, centrado en optimizar la eficiencia del rastreo web para el preentrenamiento de grandes modelos (LLM). Reduce significativamente el rastreo ineficaz mediante la selección inteligente de datos web de alta calidad, afirmando ser capaz de rastrear originalmente 1...
hace 1 año
057.3K
TripoSF:快速生成高分辨率3D模型的实用工具

TripoSF: una herramienta práctica para la generación rápida de modelos 3D de alta resolución

Introducción general TripoSF es un proyecto de código abierto construido por el equipo VAST-AI-Research, diseñado específicamente para generar rápidamente modelos 3D de alta resolución a partir de una sola imagen. Utiliza una tecnología llamada SparseFlex, alta eficiencia de procesamiento, puede ser en el general...
hace 1 año
057.3K
GaiaNet node:安装和运行自己的本地模型在线代理服务

Nodo GaiaNet: instale y ejecute su propio modelo local de servicio proxy en línea

Introducción general GaiaNet-AI/gaianet-node es un proyecto de código abierto que permite a los usuarios instalar rápidamente la pila de software de nodos por defecto en Mac, Linux o Windows WSL con un solo comando. Los usuarios pueden inicializar nodos, personalizar configuraciones, descargar...
hace 2 años
057.3K
3FS:提升数据访问效率的并行文件系统(DeepSeek 开源周第五天)

3FS: Un sistema de archivos paralelo para mejorar la eficiencia del acceso a los datos (DeepSeek Open Source Week Day 5)

Introducción general 3FS (Fire-Flyer File System) es un sistema de archivos paralelo de código abierto desarrollado por el equipo DeepSeek, diseñado para SSDs modernos y redes RDMA, con el objetivo de mejorar drásticamente la eficiencia de acceso a los datos. Está implementado en un clúster de 180 nodos...
hace 1 año
057.2K
Higress:提供高效的AI网关解决方案,简化微服务管理,增强安全防护

Higress: Ofrecer una solución de puerta de enlace de IA eficiente para simplificar la gestión de microservicios y mejorar la seguridad

Introducción completa Higress es una pasarela de API nativa de la nube desarrollada por Alibaba, construida sobre Istio y Envoy, diseñada para proporcionar soluciones eficientes de programación de tráfico, gobernanza de servicios y seguridad. Admite extensiones de plugin Wasm para múltiples lenguajes de programación para negocios de IA....
hace 1 año
057.2K
BotSharp:基于.NET的多智能体AI应开发与管理平台

BotSharp: plataforma de desarrollo y gestión de inteligencia artificial basada en .NET

Introducción completa BotSharp es un proyecto de código abierto basado en .NET Core dedicado a proporcionar una herramienta completa de creación de plataformas de chatbot de IA. Utiliza programación C#, soporta el funcionamiento multiplataforma y tiene como objetivo simplificar la aplicación de algoritmos de aprendizaje automático, permitiendo a los desarrolladores de nivel empresarial...
hace 1 año
057.2K
OpenHealthForAll:个人健康数据管理AI助手,上传检查报告定制健康计划

OpenHealthForAll: asistente de IA para la gestión de datos sanitarios personales, carga de informes de exámenes para un plan de salud personalizado.

Introducción general OpenHealthForAll es un proyecto de código abierto diseñado para ayudar a los usuarios a gestionar y comprender sus datos personales de salud. Aprovechando la tecnología de inteligencia artificial, OpenHealthForAll proporciona un asistente de salud de gestión local para ayudar a los usuarios a gestionar mejor...
hace 1 año
057.1K
Docs:开源的协作笔记和文档管理工具

Docs: herramientas de código abierto para la gestión colaborativa de notas y documentos

Introducción general Docs es una plataforma colaborativa de código abierto para la toma de notas y la gestión de documentos desarrollada por el equipo de suitenumerique. Está construida usando tecnologías Django y React con el objetivo de proporcionar una herramienta fácil de usar para ayudar a los usuarios a tomar notas, gestionar...
hace 1 año
057.1K
DragGAN:交互式图像编辑工具,点选和拖拽控制图像位置

DragGAN: herramienta interactiva de edición de imágenes, control de la posición de las imágenes mediante apuntar y hacer clic y arrastrar y soltar.

Introducción general DragGAN es una herramienta interactiva de edición de imágenes basada en Redes Generativas Adversariales (GAN). Fue lanzada por Xingang Pan et al. en SIGGRAPH 2023 y tiene como objetivo permitir a los usuarios manipular intuitivamente a través de simples operaciones de apuntar y hacer clic y arrastrar y soltar....
hace 1 año
057.1K
LangManus:支持多智能体协作的开源AI自动化框架

LangManus: un marco de automatización de IA de código abierto que admite la colaboración multiinteligencia

Introducción general LangManus es un marco de automatización de IA de código abierto alojado en GitHub. Desarrollado por un grupo de antiguos compañeros en su tiempo libre, se trata de un proyecto de orientación académica con el objetivo de combinar modelos lingüísticos y herramientas especializadas para la búsqueda web, el rastreo de datos y la ejecución de código....
hace 1 año
057.1K
Vibe Draw:将手绘草图转化为3D模型的创意工具

Vibe Draw: una herramienta creativa para convertir bocetos a mano en modelos 3D

Introducción general Vibe Draw es un proyecto de código abierto, desarrollado por Martin Sit, que permite a los usuarios convertir bocetos dibujados a mano en bonitos modelos 3D. El objetivo de esta herramienta es sencillo: facilitar a cualquiera el modelado en 3D, sin necesidad de grandes dotes artísticas ni re...
hace 1 año
057.1K
NoneBot DeepSeek 插件:基于 NoneBot&DeepSeek 实现客服智能对话

Plugin NoneBot DeepSeek: Diálogo inteligente para el servicio de atención al cliente basado en NoneBot y DeepSeek.

Introducción General El plugin DeepSeek de NoneBot es un plugin de NoneBot que integra el modelo DeepSeek y está diseñado para proporcionar diálogo inteligente y funcionalidad de preguntas y respuestas. Al acceder al modelo DeepSeek, los usuarios pueden utilizar el plugin NoneBot...
hace 1 año
057K
Reactive Resume:支持多语言、多模板的开源免费简历生成器

Reactive Resume: creador de currículos gratuito y de código abierto con soporte multilingüe y multiplantilla

Descripción general Reactive Resume es un creador de currículums gratuito y de código abierto diseñado para simplificar el proceso de crear, actualizar y compartir currículums. La plataforma se centra en la privacidad del usuario, sin seguimiento ni publicidad. Los usuarios pueden autoalojar la aplicación en menos de 30 segundos, tomando el control total de su...
hace 1 año
057K
Lecca:无代码构建AI智能体与AI工作流构建平台

Lecca: Creación de plataformas de inteligencia artificial y flujo de trabajo de inteligencia artificial sin código

Introducción exhaustiva Lecca es una potente plataforma de IA que permite a los usuarios configurar y desplegar grandes modelos lingüísticos (LLM) con múltiples herramientas y flujos de trabajo. Los usuarios pueden construir, personalizar y automatizar fácilmente sus agentes de IA.Lecca ofrece una amplia selección de proveedores de IA y modelos...
hace 1 año
056.9K
BrownChat:开源实时语音聊天的AI助手

BrownChat: asistente de IA para chat de voz en tiempo real de código abierto

Introducción general BrownChat es una aplicación de chat de audio en tiempo real basada en la tecnología LLM (Large Language Modelling). Desarrollado por el usuario de GitHub sugarforever, el proyecto pretende mejorar la experiencia de comunicación del usuario mediante tecnología avanzada de procesamiento del lenguaje natural.B...
hace 1 año
056.8K
WikiChat:使用维基百科数据检索知识的聊天工具

WikiChat: una herramienta de chat para recuperar conocimientos a partir de datos de Wikipedia

Introducción general WikiChat es un chatbot experimental desarrollado en la Universidad de Stanford que pretende mejorar la factualidad de los grandes modelos lingüísticos recuperando datos de Wikipedia. Los grandes modelos lingüísticos (como ChatGPT y GPT-4) tienden a procesar información actualizada o temas menos populares cuando...
hace 1 año
056.8K
FantasyTalking:生成真实感说话肖像的开源工具

FantasyTalking: una herramienta de código abierto para generar retratos hablados realistas

Introducción general FantasyTalking es un proyecto de código abierto desarrollado por el equipo Fantasy-AMAP, centrado en la generación de realismo hablando videos retrato a través de la unidad de audio. El proyecto se basa en el modelo avanzado de difusión de vídeo Wan2.1 , combinado con el codificador de audio Wa...
hace 11 meses
056.7K
OmniParser:用户界面截图解析成结构化元素,便于大模型理解和操作

OmniParser: capturas de pantalla de la interfaz de usuario convertidas en elementos estructurados para facilitar la comprensión y manipulación de modelos de gran tamaño.

Introducción general OmniParser es una herramienta desarrollada por Microsoft para analizar capturas de pantalla de la interfaz de usuario y convertirlas en elementos estructurados y fáciles de entender. Esta herramienta mejora significativamente la capacidad de GPT-4V para generar acciones precisas en el área de interfaz correspondiente.OmniParser no sólo admite...
hace 1 año
056.7K
Morphic:AI驱动的开源搜索引擎,提供智能问答、视频搜索、生成UI代码

Morphic: motor de búsqueda de código abierto impulsado por inteligencia artificial que ofrece preguntas y respuestas inteligentes, búsqueda de vídeos y generación de código de interfaz de usuario.

Introducción general Morphic es un motor de búsqueda basado en tecnología de IA con una interfaz de usuario generativa diseñada para ofrecer preguntas y respuestas inteligentes y una experiencia de búsqueda eficiente. Los usuarios pueden realizar una gran variedad de búsquedas con Morphic, incluyendo texto, vídeo, etc., y pueden guardar el historial de búsqueda y compartir los resultados.Mo...
hace 1 año
056.7K
Vision Parse: conversión inteligente de documentos PDF al formato Markdown mediante modelos de lenguaje visual

Vision Parse: conversión inteligente de documentos PDF al formato Markdown mediante modelos de lenguaje visual

Introducción completa Vision Parse es una revolucionaria herramienta de procesamiento de documentos, que combina inteligentemente la tecnología más avanzada de modelos de lenguaje visual (Vision Language Models), la capacidad de convertir inteligentemente documentos PDF a formato Markdown de alta calidad...
hace 1 año
056.6K