Utiliza Whisper para transcribir tu voz a múltiples formatos de forma literal y gratuita.

Tutoriales prácticos sobre IAActualizado hace 1 año Círculo de intercambio de inteligencia artificial

49.4K 00

¿Necesitas transcribir a menudo a texto grabaciones de reuniones o entrevistas? Dado que la redacción de transcripciones literales requiere mucho tiempo y trabajo, es posible que desee utilizar herramientas de IA para convertir las grabaciones de audio en texto. En este artículo te presentamos Whisper, un sistema de reconocimiento automático del habla (ASR) del equipo OpenAI. Según la descripción de OpenAI en Github, Whisper es un modelo de reconocimiento de voz de código abierto que actualmente reconoce unos 96 idiomas de todo el mundo y los convierte en texto. En términos de precisión de reconocimiento del chino, Whisper ha alcanzado un nivel bastante alto. Como resultado de Susurro Se trata de una tecnología de código abierto, por lo que los usuarios sólo necesitan una cuenta de Google y un código de comando para configurarlo. Una vez descargado e instalado en el ordenador, se puede utilizar Whisper para realizar tareas de reconocimiento de voz y transcripción de forma gratuita y sin restricciones de desarrollador.

Código de instalación Whisper:!pip install git+https://github.com/openai/whisper.git
Código de instalación de Ffmpeg:!sudo apt update && sudo apt install ffmpeg
Código de ejecución de voz a texto:!whisper "文件名（需要替换）.mp3" --model medium

Paso 1: Accede a tu cuenta de Google, abre Google Drive, haz clic en "+Nuevo" en la esquina superior izquierda, desplázate hacia abajo hasta encontrar Más y, a continuación, haz clic en "Conectar más aplicaciones".

Paso 2: La primera vez que lo hagas, se abrirá el mercado de aplicaciones de Google Workspace, introduce "Google Colaboratory" en la barra de búsqueda y selecciónalo.

Paso 3: Haga clic en "Instalar" para instalar y seleccione "Continuar" para continuar. Se le pedirá que inicie sesión con su cuenta de Google y siga las instrucciones para completar la instalación.

Paso 4: Vuelve a la página de inicio de Google Drive, haz clic de nuevo en "+Nuevo" en la esquina superior izquierda y selecciona la aplicación "Google Colaboratory" en más opciones.

Paso 5: Una vez abierto, puedes cambiar el nombre del archivo para consultarlo rápidamente y reutilizarlo más tarde.

Paso 6: Haga clic en "Fase de ejecución" en la columna superior y seleccione "Cambiar tipo de fase de ejecución".

Paso 7: En este punto, puede seleccionar diferentes tipos de ejecución y recursos informáticos. Seleccione "Python 3" y "GPU T4" y haga clic en "Guardar".

Paso 8: Busque la palabra "Conectar" en la esquina superior derecha de la ventana, haga clic en ella y espere a que la conexión se realice correctamente.

Paso 9: Una vez finalizada la conexión, podrás ver los parámetros del ordenador, incluida la información sobre la GPU, la memoria y el disco duro.

Paso 10: A continuación, para instalar Whisper, introduce el código de instalación de Whisper y el código de instalación de ffmpeg en la primera y segunda línea de la barra central respectivamente y haz clic en Ejecutar.

Paso 11: Una vez finalizada la instalación, haz clic en el icono de carpeta de la izquierda, selecciona "Cargar archivos" y carga los archivos MP3 que necesites transcribir.

Paso 12: Haz clic en "+Código" e introduce el código de ejecución de voz a texto. Asegúrate de que el nombre y el sufijo del archivo coinciden con los del archivo cargado y, por último, haz clic en Ejecutar.

Tutoriales prácticos sobre IA

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

Personalización de Ollama en la GPU

Tutoriales prácticos sobre IA

hace 1 año

0126.1K

Implantación de un modelo de herramienta de chat personalizado "mini" para ordenadores de bajo coste

Tutoriales prácticos sobre IA

hace 2 años

052.5K

Extracción de información valiosa de PDF: solución de salida estructurada Gemini 2.0

Tutoriales prácticos sobre IA

hace 1 año

066.7K

Utilice Copy.ai Chat: una ayuda a la productividad para la redacción de textos publicitarios

Tutoriales prácticos sobre IA

hace 2 años

046K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

Utiliza Whisper para transcribir tu voz a múltiples formatos de forma literal y gratuita.

Paso 1: Accede a tu cuenta de Google, abre Google Drive, haz clic en "+Nuevo" en la esquina superior izquierda, desplázate hacia abajo hasta encontrar Más y, a continuación, haz clic en "Conectar más aplicaciones".

Paso 2: La primera vez que lo hagas, se abrirá el mercado de aplicaciones de Google Workspace, introduce "Google Colaboratory" en la barra de búsqueda y selecciónalo.

Paso 3: Haga clic en "Instalar" para instalar y seleccione "Continuar" para continuar. Se le pedirá que inicie sesión con su cuenta de Google y siga las instrucciones para completar la instalación.

Paso 4: Vuelve a la página de inicio de Google Drive, haz clic de nuevo en "+Nuevo" en la esquina superior izquierda y selecciona la aplicación "Google Colaboratory" en más opciones.

Paso 5: Una vez abierto, puedes cambiar el nombre del archivo para consultarlo rápidamente y reutilizarlo más tarde.

Paso 6: Haga clic en "Fase de ejecución" en la columna superior y seleccione "Cambiar tipo de fase de ejecución".

Paso 7: En este punto, puede seleccionar diferentes tipos de ejecución y recursos informáticos. Seleccione "Python 3" y "GPU T4" y haga clic en "Guardar".

Paso 8: Busque la palabra "Conectar" en la esquina superior derecha de la ventana, haga clic en ella y espere a que la conexión se realice correctamente.

Paso 9: Una vez finalizada la conexión, podrás ver los parámetros del ordenador, incluida la información sobre la GPU, la memoria y el disco duro.

Paso 10: A continuación, para instalar Whisper, introduce el código de instalación de Whisper y el código de instalación de ffmpeg en la primera y segunda línea de la barra central respectivamente y haz clic en Ejecutar.

Paso 11: Una vez finalizada la instalación, haz clic en el icono de carpeta de la izquierda, selecciona "Cargar archivos" y carga los archivos MP3 que necesites transcribir.

Paso 12: Haz clic en "+Código" e introduce el código de ejecución de voz a texto. Asegúrate de que el nombre y el sufijo del archivo coinciden con los del archivo cargado y, por último, haz clic en Ejecutar.

Utilice Coze + Flying Book Forms para crear un organizador de datos de tablas EXCEL automatizado.

Programación de IA: cómo usar bien Lovable

Artículos relacionados

Personalización de Ollama en la GPU

Implantación de un modelo de herramienta de chat personalizado "mini" para ordenadores de bajo coste

Extracción de información valiosa de PDF: solución de salida estructurada Gemini 2.0

Utilice Copy.ai Chat: una ayuda a la productividad para la redacción de textos publicitarios

Sin comentarios

Últimas colecciones

Últimos artículos

Utiliza Whisper para transcribir tu voz a múltiples formatos de forma literal y gratuita.

Paso 1: Accede a tu cuenta de Google, abre Google Drive, haz clic en "+Nuevo" en la esquina superior izquierda, desplázate hacia abajo hasta encontrar Más y, a continuación, haz clic en "Conectar más aplicaciones".

Paso 2: La primera vez que lo hagas, se abrirá el mercado de aplicaciones de Google Workspace, introduce "Google Colaboratory" en la barra de búsqueda y selecciónalo.

Paso 3: Haga clic en "Instalar" para instalar y seleccione "Continuar" para continuar. Se le pedirá que inicie sesión con su cuenta de Google y siga las instrucciones para completar la instalación.

Paso 4: Vuelve a la página de inicio de Google Drive, haz clic de nuevo en "+Nuevo" en la esquina superior izquierda y selecciona la aplicación "Google Colaboratory" en más opciones.

Paso 5: Una vez abierto, puedes cambiar el nombre del archivo para consultarlo rápidamente y reutilizarlo más tarde.

Paso 6: Haga clic en "Fase de ejecución" en la columna superior y seleccione "Cambiar tipo de fase de ejecución".

Paso 7: En este punto, puede seleccionar diferentes tipos de ejecución y recursos informáticos. Seleccione "Python 3" y "GPU T4" y haga clic en "Guardar".

Paso 8: Busque la palabra "Conectar" en la esquina superior derecha de la ventana, haga clic en ella y espere a que la conexión se realice correctamente.

Paso 9: Una vez finalizada la conexión, podrás ver los parámetros del ordenador, incluida la información sobre la GPU, la memoria y el disco duro.

Paso 10: A continuación, para instalar Whisper, introduce el código de instalación de Whisper y el código de instalación de ffmpeg en la primera y segunda línea de la barra central respectivamente y haz clic en Ejecutar.

Paso 11: Una vez finalizada la instalación, haz clic en el icono de carpeta de la izquierda, selecciona "Cargar archivos" y carga los archivos MP3 que necesites transcribir.

Paso 12: Haz clic en "+Código" e introduce el código de ejecución de voz a texto. Asegúrate de que el nombre y el sufijo del archivo coinciden con los del archivo cargado y, por último, haz clic en Ejecutar.

Utilice Coze + Flying Book Forms para crear un organizador de datos de tablas EXCEL automatizado.

Programación de IA: cómo usar bien Lovable

Artículos relacionados

Personalización de Ollama en la GPU

Implantación de un modelo de herramienta de chat personalizado "mini" para ordenadores de bajo coste

Extracción de información valiosa de PDF: solución de salida estructurada Gemini 2.0

Utilice Copy.ai Chat: una ayuda a la productividad para la redacción de textos publicitarios

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos