AI de voz a texto

Total 56 artículos
Abogen:将多种文本格式转换为有声读物的工具

Abogen: una herramienta para convertir múltiples formatos de texto en audiolibros

Introducción general Abogen es una herramienta de código abierto diseñada para convertir rápidamente archivos ePub, PDF o de texto plano en audio de alta calidad. Utiliza el modelo Kokoro-82M para generar un habla natural y fluida, y admite la generación simultánea de subtítulos, lo que resulta idóneo para producir audiolibros....
hace 3 meses
0977
Kimi-Audio:开源音频处理与对话基础模型

Kimi-Audio: modelo base de procesamiento de audio y diálogo de código abierto

Introducción general Kimi-Audio es un modelo de base de audio de código abierto desarrollado por Moonshot AI, centrado en la comprensión, generación y diálogo de audio. Es compatible con una amplia gama de tareas de procesamiento de audio, como el reconocimiento del habla, el Q&A de audio y el reconocimiento de las emociones del habla. El modelo se ha probado en más de 130...
hace 3 meses
01.1K
On Device AI:iPhone本地运行的AI语音转录与聊天工具

On Device AI: Herramienta de transcripción de voz y chat para iPhone Native Running

Introducción general On-Device AI es una aplicación de IA que se ejecuta completamente sin conexión, diseñada para dispositivos Apple, compatible con iOS, macOS y visionOS.Proporciona ejecución local de modelos lingüísticos a gran escala (LLM), transcripción de voz en tiempo real, análisis de documentos, etc., sin necesidad de...
hace 3 meses
01.1K
Vexa:实时会议转录与智能知识提取工具

Vexa: una herramienta inteligente de transcripción de reuniones y extracción de conocimientos en tiempo real

Introducción completa Vexa es una plataforma de código abierto para la transcripción de reuniones en tiempo real y la gestión del conocimiento diseñada para proporcionar servicios eficientes de grabación de reuniones y extracción inteligente del conocimiento para empresas y particulares. Se une automáticamente a plataformas como Google Meet, Zoom, etc. mediante robots de reuniones basados en API....
hace 4 meses
01.2K
Transkriptor:将音频和视频转为文字的AI智能转录工具

Transkriptor: la herramienta de transcripción inteligente que convierte audio y vídeo en texto

Introducción general Transkriptor es una herramienta de transcripción basada en IA que se centra en convertir audio y vídeo en texto rápidamente. Es compatible con más de 100 idiomas con una tasa de precisión de hasta 99% y es adecuado para una amplia gama de escenarios, tales como reuniones, entrevistas, notas de clase y más. Los usuarios pueden cargar archivos,...
hace 4 meses
01.3K
Otter.ai:智能会议助手与实时语音转录工具

Otter.ai: asistente inteligente para reuniones con herramienta de transcripción de voz en tiempo real

Descripción general Otter.ai es una herramienta de gestión de reuniones y transcripción de voz impulsada por IA con funciones básicas para convertir la voz en texto en tiempo real y generar automáticamente notas de reuniones, resúmenes y elementos de acción. Cuenta con el apoyo inteligente de un agente de reuniones...
hace 4 meses
01.1K
TurboScribe:快速将音频和视频转为文字的在线工具

TurboScribe: la herramienta en línea para convertir rápidamente audio y vídeo en texto

Descripción general TurboScribe es una herramienta de transcripción basada en IA que se centra en convertir audio y vídeo a texto rápidamente. Es compatible con más de 98 idiomas con una tasa de precisión de 99,8% para los usuarios que necesitan procesar contenido de voz de manera eficiente. Los usuarios pueden cargar archivos, generar notas de texto...
hace 4 meses
01.2K
Dolphin:面向亚洲语言识别与语音转文本模型

Dolphin: reconocimiento de lenguas asiáticas y modelización de voz a texto para lenguas asiáticas

Introducción general Dolphin es un modelo de código abierto desarrollado por DataoceanAI y la Universidad de Tsinghua, centrado en el reconocimiento del habla y del lenguaje para las lenguas asiáticas. Es compatible con 40 lenguas de Asia Oriental, Asia Meridional, Asia Sudoriental y Oriente Medio, así como con 22 dialectos chinos...
hace 4 meses
01.1K
Local-NotebookLM:本地PDF生成语音播客的开源工具

Local-NotebookLM: PDF local para generar podcasts de voz de herramientas de código abierto

Introducción completa Local-NotebookLM es un proyecto de código abierto que tiene como objetivo proporcionar localmente ejecutar herramientas inteligentes de procesamiento de documentos y generación de contenidos. Está inspirado en Google NotebookLM , centrándose en ayudar a los usuarios a PDF y otros documentos en una variedad de ...
hace 5 meses
01.1K
FireRedASR:多语言高精度语音识别开源模型

FireRedASR: un modelo de código abierto para el reconocimiento multilingüe de voz de alta precisión

Introducción general FireRedASR es un modelo de reconocimiento del habla desarrollado y de código abierto por el equipo de Little Red Book FireRed, centrado en proporcionar soluciones de reconocimiento automático del habla (ASR) de alta precisión y compatibles con varios idiomas. El proyecto está alojado en GitHub para desarrolladores e investigadores, y ofrece...
hace 5 meses
01.4K
LLPlayer:生成实时字幕并双语翻译的视频播放器

LLPlayer: un reproductor de vídeo que genera subtítulos en tiempo real con traducción bilingüe

Introducción general LLPlayer es un reproductor multimedia de código abierto para estudiantes de idiomas, alojado en GitHub y creado por el desarrollador umlx5h. Integra una variedad de características útiles como la visualización de subtítulos bilingües, subtítulos autogenerados por IA, traducción en tiempo real y búsqueda de palabras....
hace 2 meses
02.4K
LiberSonora:有声书字幕提取与多语言翻译,有声小说转录为多语言

LiberSonora: Extracción de subtítulos de audiolibros y traducción multilingüe, transcripción de audiolibros a varios idiomas

Introducción LiberSonora, que significa "sonido libre", es un potente conjunto de herramientas de código abierto para audiolibros. Es compatible con la extracción inteligente de subtítulos, la generación de títulos AI, traducción multi-idioma, etc., y es capaz de procesamiento por lotes fuera de línea bajo GPU acceleration.LiberSo...
hace 6 meses
01.4K
Orate:集成知名语音生成、语音转录与变声模型的统一API

Orate: una API unificada para integrar la generación de voz bien conocida, la transcripción de voz y el modelado de voz

Introducción general Orate es un conjunto de herramientas de IA centrado en la generación y transcripción de voz. Proporciona una API unificada que se integra a la perfección con los principales proveedores de IA, como OpenAI, ElevenLabs y AssemblyAI, para ayudar a...
hace 6 meses
01.8K
PengChengStarling:对比Whisper-Large v3更小、更快的多语言语音转文字工具

PengChengStarling: herramienta multilingüe de conversión de voz a texto más pequeña y rápida que Whisper-Large v3

Introducción completa PengChengStarling (PengCheng Labs) es una herramienta multilingüe de reconocimiento automático del habla (ASR) capaz de convertir el habla en distintos idiomas en el texto correspondiente. Este conjunto de herramientas se ha desarrollado a partir del proyecto icefall y proporciona un proceso completo de reconocimiento del habla...
hace 6 meses
01.4K
RealtimeSTT:实时语音转文字工具,基于Whisper实现低延迟流式语音识别

RealtimeSTT: herramienta de conversión de voz a texto en tiempo real para el reconocimiento del habla en streaming de baja latencia basada en Whisper.

Introducción general RealtimeSTT es una eficaz biblioteca de conversión de voz a texto en tiempo real de baja latencia con detección avanzada de la actividad del habla y activación de la palabra de despertador. Ha sido desarrollada por Kolja Beigel para dar soporte a aplicaciones que requieren una conversión de voz a texto...
hace 7 meses
01.8K
Acoust:在线AI语音生成和文本转语音(TTS)服务平台

Acoust: plataformas de servicios en línea de generación de voz con inteligencia artificial y texto a voz (TTS)

Introducción general Acoust es una plataforma de servicios de generación de voz y texto a voz (TTS) de IA en línea que utiliza la última tecnología de IA para generar voz realista. La plataforma también proporciona potentes herramientas de edición de vídeo que permiten a los usuarios completar la producción de vídeo sin...
hace 7 meses
01.5K
Notta:AI会议记录与音频转录工具,自动转录会议、采访或录音

Notta: herramienta de transcripción de audio y grabación de reuniones para transcribir automáticamente reuniones, entrevistas o grabaciones.

Descripción general Notta es una potente herramienta de transcripción de audio y grabación de reuniones diseñada para ayudar a los usuarios a convertir automáticamente reuniones, entrevistas o grabaciones en texto con capacidad de búsqueda. Con Notta, los usuarios pueden transcribir, editar, resumir y colaborar fácilmente para aumentar la productividad.Notta admite...
hace 7 meses
02.1K
AI no jimaku gumi:借助AI实现视频多语言字幕自动生成和翻译

AI no jimaku gumi: generación y traducción automática de subtítulos multilingües para vídeos con ayuda de la IA.

Introducción general AI no jimaku gumi (AI no subtitle group) es una potente herramienta de procesamiento de subtítulos de vídeo de línea de comandos centrada en permitir funciones automatizadas de extracción, transcripción y traducción de subtítulos de vídeo. La herramienta integra tecnologías avanzadas de inteligencia artificial, como...
hace 7 meses
01.6K
FunClip:智能剪辑视频内容为短片,轻松实现精准视频片段提取/裁剪

FunClip: edición inteligente de contenidos de vídeo en cortometrajes, extracción/recorte preciso de clips de vídeo de forma sencilla

Introducción FunClip es una herramienta automatizada de edición de vídeo de código abierto desarrollada por TONGYI Speech Lab del Instituto Dharma de Alibaba. La herramienta integra el modelo de reconocimiento de voz industrial Paraformer-Large, que puede identificar con precisión el habla en el vídeo....
hace 7 meses
01.9K
BetterWhisperX:自动语音识别与说话人分离,提供高精度单词级时间戳

BetterWhisperX: reconocimiento automático de voz independiente del orador que proporciona marcas de tiempo de gran precisión a nivel de palabra.

Introducción general BetterWhisperX es una versión optimizada del proyecto WhisperX centrada en proporcionar servicios de Reconocimiento Automático del Habla (ASR) eficientes y precisos. Como rama mejorada de WhisperX, el proyecto fue desarrollado por Federico ...
hace 7 meses
02.1K
Freed:AI医疗抄写助手,准确转录医生和患者对话,减少就诊记录文书工作

Freed: asistente de transcripción médica con inteligencia artificial que transcribe con precisión las conversaciones entre médico y paciente y reduce el papeleo de documentación de las visitas.

Descripción general Freed es un asistente de transcripción médica AI diseñado para profesionales de la salud. Ayuda a los médicos y otros profesionales de la salud a registrar automáticamente las visitas de los pacientes, reducir el papeleo y mejorar la eficiencia del trabajo a través de la tecnología avanzada de IA.La transcripción de IA de Freed...
hace 8 meses
01.9K
Voicenotes:AI语音笔记,记录与转录语音,智能管理会议内容

Voicenotes: notas de voz con inteligencia artificial, grabación y transcripción de voz, gestión inteligente del contenido de las reuniones

Introducción general Voicenotes es una aplicación de notas de voz inteligente diseñada para ayudar a los usuarios a grabar y gestionar fácilmente notas de voz y reuniones. La aplicación permite la transcripción de voz en más de 100 idiomas. Los usuarios simplemente dicen sus pensamientos y Voicenotes los transcribe automáticamente en texto....
hace 8 meses
01.9K
Voice-Pro:开源多功能视频翻译工具,语音转录并翻译为多语言,Windows一键安装

Voice-Pro: herramienta de traducción de vídeo multifuncional de código abierto, transcripción y traducción de voz a varios idiomas, instalación de Windows con un solo clic.

Introducción general Voice-Pro es una herramienta versátil basada en Gradio WebUI que admite voz a texto, texto a voz, traducción en tiempo real, descarga de vídeos de YouTube y separación de voz humana. Integra Whisper, Faster-Wh...
hace 9 meses
02.1K
Zamzar:多功能在线文件格式转换工具,视频转换|音频转换|图片转换|文档转换

Zamzar: Herramienta online multifuncional de conversión de formatos de archivo, conversión de vídeo | conversión de audio | conversión de imágenes | conversión de documentos

Introducción general Zamzar es una potente herramienta de conversión de archivos en línea que soporta más de 1200 formatos de archivo. Ya sean documentos, imágenes, vídeos, audios o libros electrónicos, Zamzar puede hacerlo de forma rápida y eficiente. Los usuarios no necesitan descargar ningún software...
hace 9 meses
03.2K
AI Hear:本地离线运行的实时语音转录与翻译软件

AI Hear: software de transcripción y traducción de voz en tiempo real que funciona nativamente sin conexión a Internet

Descripción general Si utilizas un MacBook, prueba AI Hear: puedes grabar audio, convertir voz local en tiempo real a texto y traducir, y eventualmente exportar subtítulos. Puedes utilizarlo como ayuda para escuchar reuniones internacionales y audiolibros en inglés. AI Hear es un software de ejecución local que proporciona...
hace 9 meses
02K
SoniTranslate:开源视频翻译配音解决方案,多人配音、调整语速与模仿原声

SoniTranslate: Solución de código abierto para el doblaje de traducción de vídeo, doblaje múltiple, ajuste de velocidad e imitación del sonido original.

Descripción general SoniTranslate es una herramienta de doblaje multilingüe de vídeo potente y fácil de usar, diseñada para ofrecer una solución de traducción de vídeo y audio sincronizado. Utiliza tecnologías avanzadas de reconocimiento de voz y traducción automática para traducir contenidos de vídeo a varios idiomas y mantener el audio sincronizado. La ...
hace 10 meses
03.8K
FunASR:开源语音识别工具包,说话人分离/ 多人对话语音识别

FunASR: kit de herramientas de reconocimiento del habla de código abierto, separación de hablantes/reconocimiento del habla en diálogos multipersona

Introducción FunASR es un conjunto de herramientas de reconocimiento del habla de código abierto desarrollado por la Academia Alibaba Dharmo para unir la investigación académica y las aplicaciones industriales. Es compatible con una amplia gama de funciones de reconocimiento del habla, incluido el reconocimiento del habla (ASR), la detección del punto final de la voz (VAD), la recuperación de la puntuación, el modelado del lenguaje, el habla...
hace 10 meses
02.6K
AsrTools:语音转字幕工具,内置剪映、快手、必剪接口的轻量客户端

AsrTools: herramienta de conversión de voz en subtítulos, cliente ligero con interfaces integradas para Cutscene, Racer y Must-Cut.

Introducción completa AsrTools es una herramienta inteligente de voz a texto con interfaces incorporadas de grandes jugadores como Cutscene, QuickScope y MustScope, que soporta procesamiento por lotes multihilo eficiente sin necesidad de GPU o configuraciones tediosas. Se basa en el desarrollo PyQt5, interfaz hermosa y fácil de usar, capaz de salida SRT y TXT palabras de formato ...
hace 10 meses
02.7K
Happy Scribe:音频转录和视频字幕平台|免费视频字幕编辑软件

Happy Scribe: Plataforma de transcripción de audio y subtitulación de vídeo | Software gratuito de subtitulación de vídeo

Happy Scribe Descripción general Happy Scribe ofrece servicios de transcripción de audio automatizada y manual para convertir audio a texto con gran precisión y compatibilidad con varios idiomas y formatos. Incluye un editor interactivo, herramientas de colaboración, múltiples formatos de exportación, traducción automática...
hace 10 meses
02.2K
VideoLingo:视频转录单词级时间轴字幕,视频字幕翻译和本地化配音开源工具

VideoLingo: herramientas de código abierto para la transcripción de vídeo, la traducción de subtítulos de vídeo y el doblaje localizado.

Descripción general VideoLingo es una herramienta integral de traducción y localización de vídeos diseñada para generar subtítulos de alta calidad propios de Netflix, eliminando la traducción automática sin procesar y los subtítulos multilínea, y añadiendo voces en off de alta calidad para poder compartir conocimientos globales más allá de las barreras lingüísticas. Por...
hace 10 meses
01.8K
ALog:便携AI语音日记应用,支持语音转文字。

ALog: aplicación portátil de diario vocal con inteligencia artificial y conversión de voz a texto.

Introducción general ALog es una aplicación de diario de voz basada en IA diseñada para ayudar a los usuarios a registrar su vida diaria por voz. Está desarrollada por duxins y de código abierto en GitHub. Los usuarios pueden grabar entradas de diario a través de la entrada de voz, y la aplicación convertirá automáticamente la voz en texto ...
hace 7 meses
02.1K
录咖:一站式音视频处理平台|视频生成|AI字幕|提取音频|语音转文字

Record Cafe: Plataforma integral de procesamiento de audio/vídeo|Generación de vídeo|Subtítulos AI|Extracción de audio|Conversión de voz en texto

Introducción completa Record Cafe es una plataforma integral de procesamiento de audio/vídeo que proporciona servicios de diálogo de vídeo AI, subtítulos AI y conversión de voz a texto AI. Las funciones incluyen grabación de pantalla, edición de vídeo, conversión de GIF/audio, etc., y admite almacenamiento y uso compartido en la nube. La interfaz es intuitiva y fácil de usar, y también es compatible con la grabación multi-pantalla y multi-lenguaje inteligente ...
hace 8 meses
02K
FreeTTS:免费在线文字转语音工具|音频增强|音频剪辑

FreeTTS: Herramienta gratuita de conversión de texto a voz en línea|Mejora de audio|Clips de audio

FreeTTS Descripción general FreeTTS es una herramienta gratuita de conversión de texto a voz en línea que permite a los usuarios convertir texto en archivos de voz con sonido natural. Con soporte para múltiples idiomas y opciones de sonido, los usuarios pueden convertir texto a formatos MP3, WAV, OGG y ACC...
hace 11 meses
02.6K
Easy Voice Toolkit:本地部署的AI语音工具箱

Easy Voice Toolkit: kit de herramientas de voz AI para implantación local

Introducción exhaustiva Easy-Voice-Toolkit es un conjunto de herramientas multifuncionales basado en el Open Source Speech Project, que proporciona una amplia gama de herramientas de audio automatizadas para el reconocimiento del habla, la transcripción del habla, la conversión del habla, la creación de conjuntos de datos y el entrenamiento de modelos. Los usuarios pueden utilizar estas herramientas de forma selectiva según sus necesidades...
hace 11 meses
02K
DupDub:AI驱动的视频编辑器|配音|视频翻译|照片数字人

DupDub: editor de vídeo con inteligencia artificial | doblaje | traducción de vídeo | digitalizador de fotos

Descripción general Dupdub es una plataforma de creación de podcasts y presentaciones de vídeo que ofrece una serie de herramientas de IA para apoyar la creatividad de los usuarios. Sus funciones abarcan la creación de texto a vídeo, ofreciendo servicios de doblaje de voz y vídeo con IA, así como edición de vídeo, transcripción y subtitulación. Dupdub es también ...
hace 12 meses
01.8K
通义听悟:阿里通义音视频内容转录AI助手

Tongyi Listening and Understanding: Ali Tongyi Asistente de Inteligencia Artificial para la transcripción de contenidos de audio y vídeo

Introducción exhaustiva Tongyi Listening and Understanding es un asistente de IA para el trabajo lanzado por Aliyun, centrado en la transcripción y el análisis de contenidos de audio y vídeo. Se basa en los potentes modelos de IA de AliCloud para transcribir contenido de audio y vídeo a texto en tiempo real, y proporciona funciones de traducción, resumen, posicionamiento y otras. Tongyi Listening Woo es compatible con varios idiomas y escenarios...
hace 11 meses
01.8K
Memo AI:视频转字幕、转换多语言字幕的本地客户端

Memo AI: Cliente nativo de vídeo a subtítulos, conversión de subtítulos multilingües

Descripción general MemoAI es una potente herramienta de traducción de vídeo diseñada para convertir archivos de vídeo y audio en texto, subtítulos y notas. Ya sea un vídeo de YouTube, un podcast o un archivo local, MemoAI puede manejarlo con facilidad. Es compatible con más de 90 idiomas como chino, inglés, japonés...
hace 8 meses
02.4K