Você precisa transcrever gravações de reuniões ou entrevistas em texto com frequência? Como escrever transcrições literais é demorado e trabalhoso, talvez você queira usar ferramentas de IA para converter gravações de áudio em texto. Neste artigo, apresentaremos o Whisper, um sistema de reconhecimento automático de fala (ASR) da equipe da OpenAI. De acordo com a descrição da OpenAI no Github, o Whisper é um modelo de reconhecimento de fala de código aberto que atualmente reconhece cerca de 96 idiomas em todo o mundo e os converte em texto. Em termos de precisão de reconhecimento do chinês, o Whisper atingiu um nível bastante alto. Como resultado de Sussurro É uma tecnologia de código aberto, portanto, todos os usuários precisam de uma conta do Google e um código de comando para configurá-la. Depois de baixado e instalado em seu computador, você pode usar o Whisper para executar tarefas de reconhecimento e transcrição de fala gratuitamente e sem restrições de desenvolvedor.
Código de instalação do Whisper:
!pip install git+https://github.com/openai/whisper.git
Código de instalação do Ffmpeg:
!sudo apt update && sudo apt install ffmpeg
Código de execução de fala para texto:
!whisper "filename (needs replacing).mp3" --model medium
Etapa 1: Faça login na sua conta do Google, abra o Google Drive, clique em "+Novo" no canto superior esquerdo, role para baixo até encontrar Mais e clique em "Conectar mais aplicativos".
Etapa 2: na primeira vez que você fizer isso, o mercado de aplicativos do Google Workspace será aberto; digite "Google Colaboratory" na barra de pesquisa e selecione-o.
Etapa 3: Clique em "Install" (Instalar) para instalar e selecione "Continue" (Continuar) para prosseguir. Será solicitado que você faça login com sua conta do Google e siga as instruções para concluir a instalação.
Etapa 4: Volte para a página inicial do Google Drive, clique novamente em "+New" (Novo) no canto superior esquerdo e selecione o aplicativo "Google Colaboratory" em mais opções.
Etapa 5: Depois de aberto, você pode alterar o nome do arquivo para referência rápida e reutilização posterior.
Etapa 6: Clique em "Execution Phase" (Fase de execução) na coluna superior e selecione "Change Execution Phase Type" (Alterar tipo de fase de execução).
Etapa 7: Neste ponto, você pode selecionar diferentes tipos de execução e recursos de computação. Selecione "Python 3" e "T4 GPU" e clique em "Save".
Etapa 8: Localize a palavra "Connect" (Conectar) no canto superior direito da janela, clique nela e aguarde até que a conexão seja bem-sucedida.
Etapa 9: Quando a conexão for concluída, você poderá ver os parâmetros do computador, incluindo informações sobre a GPU, a memória e o disco rígido.
Etapa 10: Em seguida, para instalar o Whisper, digite o código de instalação do Whisper e o código de instalação do ffmpeg na primeira e na segunda linhas da barra do meio, respectivamente, e clique em Executar.
Etapa 11: após a conclusão da instalação, clique no ícone da pasta no lado esquerdo, selecione "Upload Files" e carregue os arquivos MP3 que você precisa transcrever.