Use o Whisper para transcrever sua voz em vários formatos, literalmente e de graça!

Tutoriais práticos de IAAtualizado há 7 meses Círculo de compartilhamento de IA

1.6K 00

Você precisa transcrever gravações de reuniões ou entrevistas em texto com frequência? Como escrever transcrições literais é demorado e trabalhoso, talvez você queira usar ferramentas de IA para converter gravações de áudio em texto. Neste artigo, apresentaremos o Whisper, um sistema de reconhecimento automático de fala (ASR) da equipe da OpenAI. De acordo com a descrição da OpenAI no Github, o Whisper é um modelo de reconhecimento de fala de código aberto que atualmente reconhece cerca de 96 idiomas em todo o mundo e os converte em texto. Em termos de precisão de reconhecimento do chinês, o Whisper atingiu um nível bastante alto. Como resultado de Sussurro É uma tecnologia de código aberto, portanto, todos os usuários precisam de uma conta do Google e um código de comando para configurá-la. Depois de baixado e instalado em seu computador, você pode usar o Whisper para executar tarefas de reconhecimento e transcrição de fala gratuitamente e sem restrições de desenvolvedor.

Código de instalação do Whisper:!pip install git+https://github.com/openai/whisper.git
Código de instalação do Ffmpeg:!sudo apt update && sudo apt install ffmpeg
Código de execução de fala para texto:!whisper "文件名（需要替换）.mp3" --model medium

Etapa 1: Faça login na sua conta do Google, abra o Google Drive, clique em "+Novo" no canto superior esquerdo, role para baixo até encontrar Mais e clique em "Conectar mais aplicativos".

Etapa 2: na primeira vez que você fizer isso, o mercado de aplicativos do Google Workspace será aberto; digite "Google Colaboratory" na barra de pesquisa e selecione-o.

Etapa 3: Clique em "Install" (Instalar) para instalar e selecione "Continue" (Continuar) para prosseguir. Será solicitado que você faça login com sua conta do Google e siga as instruções para concluir a instalação.

Etapa 4: Volte para a página inicial do Google Drive, clique novamente em "+New" (Novo) no canto superior esquerdo e selecione o aplicativo "Google Colaboratory" em mais opções.

Etapa 5: Depois de aberto, você pode alterar o nome do arquivo para referência rápida e reutilização posterior.

Etapa 6: Clique em "Execution Phase" (Fase de execução) na coluna superior e selecione "Change Execution Phase Type" (Alterar tipo de fase de execução).

Etapa 7: Neste ponto, você pode selecionar diferentes tipos de execução e recursos de computação. Selecione "Python 3" e "T4 GPU" e clique em "Save".

Etapa 8: Localize a palavra "Connect" (Conectar) no canto superior direito da janela, clique nela e aguarde até que a conexão seja bem-sucedida.

Etapa 9: Quando a conexão for concluída, você poderá ver os parâmetros do computador, incluindo informações sobre a GPU, a memória e o disco rígido.

Etapa 10: Em seguida, para instalar o Whisper, digite o código de instalação do Whisper e o código de instalação do ffmpeg na primeira e na segunda linhas da barra do meio, respectivamente, e clique em Executar.

Etapa 11: após a conclusão da instalação, clique no ícone da pasta no lado esquerdo, selecione "Upload Files" e carregue os arquivos MP3 que você precisa transcrever.

Etapa 12: clique em "+Code" e digite o código de execução de fala para texto. Certifique-se de que o nome do arquivo e o sufixo sejam os mesmos do arquivo carregado e, por fim, clique em Run (Executar).

Tutoriais práticos de IA

O artigo é protegido por direitos autorais e não deve ser reproduzido sem permissão.

DeepSeek prático: construção do gráfico de conhecimento em três etapas - extração única, fusão de várias partes, geração de tópicos

Tutoriais práticos de IA

6 meses atrás

03.5K

Implementação privada do DeepSeek + Dify: criação de um sistema de assistente de IA local seguro e controlável

Tutoriais práticos de IA

6 meses atrás

01.9K

Instalação e configuração do Ollama - Sistemas macOS

Tutoriais práticos de IA

5 meses atrás

01.7K

comandos comuns uv

Tutoriais práticos de IA Base de conhecimento de IA

4 meses atrás

02K

Sem comentários

Você precisa estar conectado para participar dos comentários!

Faça login agora

Nenhum comentário...

Use o Whisper para transcrever sua voz em vários formatos, literalmente e de graça!

Etapa 1: Faça login na sua conta do Google, abra o Google Drive, clique em "+Novo" no canto superior esquerdo, role para baixo até encontrar Mais e clique em "Conectar mais aplicativos".

Etapa 2: na primeira vez que você fizer isso, o mercado de aplicativos do Google Workspace será aberto; digite "Google Colaboratory" na barra de pesquisa e selecione-o.

Etapa 3: Clique em "Install" (Instalar) para instalar e selecione "Continue" (Continuar) para prosseguir. Será solicitado que você faça login com sua conta do Google e siga as instruções para concluir a instalação.

Etapa 4: Volte para a página inicial do Google Drive, clique novamente em "+New" (Novo) no canto superior esquerdo e selecione o aplicativo "Google Colaboratory" em mais opções.

Etapa 5: Depois de aberto, você pode alterar o nome do arquivo para referência rápida e reutilização posterior.

Etapa 6: Clique em "Execution Phase" (Fase de execução) na coluna superior e selecione "Change Execution Phase Type" (Alterar tipo de fase de execução).

Etapa 7: Neste ponto, você pode selecionar diferentes tipos de execução e recursos de computação. Selecione "Python 3" e "T4 GPU" e clique em "Save".

Etapa 8: Localize a palavra "Connect" (Conectar) no canto superior direito da janela, clique nela e aguarde até que a conexão seja bem-sucedida.

Etapa 9: Quando a conexão for concluída, você poderá ver os parâmetros do computador, incluindo informações sobre a GPU, a memória e o disco rígido.

Etapa 10: Em seguida, para instalar o Whisper, digite o código de instalação do Whisper e o código de instalação do ffmpeg na primeira e na segunda linhas da barra do meio, respectivamente, e clique em Executar.

Etapa 11: após a conclusão da instalação, clique no ícone da pasta no lado esquerdo, selecione "Upload Files" e carregue os arquivos MP3 que você precisa transcrever.

Etapa 12: clique em "+Code" e digite o código de execução de fala para texto. Certifique-se de que o nome do arquivo e o sufixo sejam os mesmos do arquivo carregado e, por fim, clique em Run (Executar).

Use o Coze + Flying Book Forms para criar um organizador de dados de tabela automatizado no EXCEL!

Programação de IA: como usar bem o Lovable

Artigos relacionados

DeepSeek prático: construção do gráfico de conhecimento em três etapas - extração única, fusão de várias partes, geração de tópicos

Implementação privada do DeepSeek + Dify: criação de um sistema de assistente de IA local seguro e controlável

Instalação e configuração do Ollama - Sistemas macOS

comandos comuns uv

Sem comentários

Últimas coleções

Artigos mais recentes

Use o Whisper para transcrever sua voz em vários formatos, literalmente e de graça!

Etapa 1: Faça login na sua conta do Google, abra o Google Drive, clique em "+Novo" no canto superior esquerdo, role para baixo até encontrar Mais e clique em "Conectar mais aplicativos".

Etapa 2: na primeira vez que você fizer isso, o mercado de aplicativos do Google Workspace será aberto; digite "Google Colaboratory" na barra de pesquisa e selecione-o.

Etapa 3: Clique em "Install" (Instalar) para instalar e selecione "Continue" (Continuar) para prosseguir. Será solicitado que você faça login com sua conta do Google e siga as instruções para concluir a instalação.

Etapa 4: Volte para a página inicial do Google Drive, clique novamente em "+New" (Novo) no canto superior esquerdo e selecione o aplicativo "Google Colaboratory" em mais opções.

Etapa 5: Depois de aberto, você pode alterar o nome do arquivo para referência rápida e reutilização posterior.

Etapa 6: Clique em "Execution Phase" (Fase de execução) na coluna superior e selecione "Change Execution Phase Type" (Alterar tipo de fase de execução).

Etapa 7: Neste ponto, você pode selecionar diferentes tipos de execução e recursos de computação. Selecione "Python 3" e "T4 GPU" e clique em "Save".

Etapa 8: Localize a palavra "Connect" (Conectar) no canto superior direito da janela, clique nela e aguarde até que a conexão seja bem-sucedida.

Etapa 9: Quando a conexão for concluída, você poderá ver os parâmetros do computador, incluindo informações sobre a GPU, a memória e o disco rígido.

Etapa 10: Em seguida, para instalar o Whisper, digite o código de instalação do Whisper e o código de instalação do ffmpeg na primeira e na segunda linhas da barra do meio, respectivamente, e clique em Executar.

Etapa 11: após a conclusão da instalação, clique no ícone da pasta no lado esquerdo, selecione "Upload Files" e carregue os arquivos MP3 que você precisa transcrever.

Etapa 12: clique em "+Code" e digite o código de execução de fala para texto. Certifique-se de que o nome do arquivo e o sufixo sejam os mesmos do arquivo carregado e, por fim, clique em Run (Executar).

Use o Coze + Flying Book Forms para criar um organizador de dados de tabela automatizado no EXCEL!

Programação de IA: como usar bem o Lovable

Artigos relacionados

DeepSeek prático: construção do gráfico de conhecimento em três etapas - extração única, fusão de várias partes, geração de tópicos

Implementação privada do DeepSeek + Dify: criação de um sistema de assistente de IA local seguro e controlável

Instalação e configuração do Ollama - Sistemas macOS

comandos comuns uv

Sem comentários

Ferramentas de IA selecionadas

Últimas coleções

Artigos mais recentes