你是否也常需要将会议录音或访谈内容转录为文字?由于撰写逐字稿既费时又费力,这时候不妨利用 AI 工具将录音转换为文字。本文将介绍由 OpenAI 团队推出的自动语音识别 (ASR) 系统「Whisper」。根据 OpenAI 在 Github 上的说明文件,Whisper 是一个开源的语音识别模型,目前可识别全球约 96 种语言,并将其转换为文字。以中文的识别准确度而言,Whisper 已达到相当高的水平。由于 Whisper 是开源技术,用户只需拥有 Google 帐号和指令代码即可完成设置。下载并安装到电脑后,即可不受开发商限制地免费使用 Whisper 来执行语音识别和转录任务。
Whisper 安装代码:
!pip install git+https://github.com/openai/whisper.git
Ffmpeg 安装代码:
!sudo apt update && sudo apt install ffmpeg
语音转文字执行代码:
!whisper "文件名(需要替换).mp3" --model medium
步骤 1:登录 Google 帐号,打开 Google Drive,点击左上角「+New」,下拉找到更多,然后点击「连接更多 App」。
步骤 2:首次操作会打开「Google Workspace」应用市场,在搜索栏输入并选择「Google Colaboratory」。
步骤 3:点击「Install」进行安装并选择「Continue」继续操作。系统会要求使用 Google 帐号登录,按照指示完成安装。
步骤 4:返回 Google Drive 首页,再次点击左上角「+New」,在更多选项中选择「Google Colaboratory」应用。
步骤 5:打开后,可先更改文件名称,以便后续快速查找与重复使用。
步骤 6:点击上方栏位的「执行阶段」,选择「更改执行阶段类型」。
步骤 7:此时可以选择不同的运行类型和计算资源。请选择「Python 3」和「T4 GPU」,然后点击「保存」。
步骤 8:在窗口右上角找到「连接」字样,点击并等待连接成功。
步骤 9:连接完成后,可以看到计算机的参数,包括 GPU、内存和硬盘信息。
步骤 10:接下来安装 Whisper,在中间栏的第一行和第二行分别输入 Whisper 安装代码和 ffmpeg 安装代码,并点击运行。
步骤 11:安装完成后,依次点击左侧的文件夹图标,选择「上传文件」,将需要转录的 MP3 文件上传。