Utiliza Whisper para transcribir tu voz a múltiples formatos de forma literal y gratuita.
Tutoriales prácticos sobre IAActualizado hace 8 meses Círculo de intercambio de inteligencia artificial 9.8K 00

¿Necesitas transcribir a menudo a texto grabaciones de reuniones o entrevistas? Dado que la redacción de transcripciones literales requiere mucho tiempo y trabajo, es posible que desee utilizar herramientas de IA para convertir las grabaciones de audio en texto. En este artículo te presentamos Whisper, un sistema de reconocimiento automático del habla (ASR) del equipo OpenAI. Según la descripción de OpenAI en Github, Whisper es un modelo de reconocimiento de voz de código abierto que actualmente reconoce unos 96 idiomas de todo el mundo y los convierte en texto. En términos de precisión de reconocimiento del chino, Whisper ha alcanzado un nivel bastante alto. Como resultado de Susurro Se trata de una tecnología de código abierto, por lo que los usuarios sólo necesitan una cuenta de Google y un código de comando para configurarlo. Una vez descargado e instalado en el ordenador, se puede utilizar Whisper para realizar tareas de reconocimiento de voz y transcripción de forma gratuita y sin restricciones de desarrollador.
Código de instalación Whisper:
!pip install git+https://github.com/openai/whisper.git
Código de instalación de Ffmpeg:
!sudo apt update && sudo apt install ffmpeg
Código de ejecución de voz a texto:
!whisper "文件名(需要替换).mp3" --model medium
Paso 1: Accede a tu cuenta de Google, abre Google Drive, haz clic en "+Nuevo" en la esquina superior izquierda, desplázate hacia abajo hasta encontrar Más y, a continuación, haz clic en "Conectar más aplicaciones".

Paso 2: La primera vez que lo hagas, se abrirá el mercado de aplicaciones de Google Workspace, introduce "Google Colaboratory" en la barra de búsqueda y selecciónalo.
Paso 3: Haga clic en "Instalar" para instalar y seleccione "Continuar" para continuar. Se le pedirá que inicie sesión con su cuenta de Google y siga las instrucciones para completar la instalación.
Paso 4: Vuelve a la página de inicio de Google Drive, haz clic de nuevo en "+Nuevo" en la esquina superior izquierda y selecciona la aplicación "Google Colaboratory" en más opciones.

Paso 5: Una vez abierto, puedes cambiar el nombre del archivo para consultarlo rápidamente y reutilizarlo más tarde.

Paso 6: Haga clic en "Fase de ejecución" en la columna superior y seleccione "Cambiar tipo de fase de ejecución".

Paso 7: En este punto, puede seleccionar diferentes tipos de ejecución y recursos informáticos. Seleccione "Python 3" y "GPU T4" y haga clic en "Guardar".

Paso 8: Busque la palabra "Conectar" en la esquina superior derecha de la ventana, haga clic en ella y espere a que la conexión se realice correctamente.

Paso 9: Una vez finalizada la conexión, podrás ver los parámetros del ordenador, incluida la información sobre la GPU, la memoria y el disco duro.

Paso 10: A continuación, para instalar Whisper, introduce el código de instalación de Whisper y el código de instalación de ffmpeg en la primera y segunda línea de la barra central respectivamente y haz clic en Ejecutar.

Paso 11: Una vez finalizada la instalación, haz clic en el icono de carpeta de la izquierda, selecciona "Cargar archivos" y carga los archivos MP3 que necesites transcribir.

Paso 12: Haz clic en "+Código" e introduce el código de ejecución de voz a texto. Asegúrate de que el nombre y el sufijo del archivo coinciden con los del archivo cargado y, por último, haz clic en Ejecutar.

© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...