Whisper를 사용하여 음성을 다양한 포맷으로 무료로 그대로 전사하세요!

회의 녹음이나 인터뷰를 텍스트로 옮겨야 하는 경우가 자주 있으신가요? 축어 트랜스크립트를 작성하는 것은 시간과 노동력이 많이 들기 때문에 AI 도구를 사용하여 오디오 녹음을 텍스트로 변환하는 것이 좋습니다. 이 글에서는 OpenAI 팀의 자동 음성 인식(ASR) 시스템인 Whisper를 소개합니다. 깃허브의 OpenAI 설명에 따르면 Whisper는 현재 전 세계 약 96개 언어를 인식하여 텍스트로 변환하는 오픈소스 음성 인식 모델입니다. 중국어 인식 정확도 측면에서 위스퍼는 상당히 높은 수준에 도달했습니다. 그 결과 Whisper 오픈 소스 기술이기 때문에 사용자는 Google 계정과 명령 코드만 있으면 설정할 수 있습니다. 컴퓨터에 다운로드하여 설치하면 개발자 제한 없이 무료로 음성 인식 및 트랜스크립션 작업을 수행할 수 있는 Whisper를 사용할 수 있습니다.
설치 코드를 속삭이세요:
!pip install git+https://github.com/openai/whisper.git
Ffmpeg 설치 코드:
!sudo apt update && sudo apt install ffmpeg
음성-텍스트 실행 코드:
!whisper "文件名(需要替换).mp3" --model medium
1단계: Google 계정에 로그인하고 Google 드라이브를 연 다음 왼쪽 상단 모서리에 있는 '+새로 만들기'를 클릭하고 아래로 스크롤하여 더 보기를 찾은 다음 '더 많은 앱 연결'을 클릭합니다.

2단계: 이 작업을 처음 수행하면 Google Workspace 앱 마켓플레이스가 열리고 검색창에 'Google 공동 작업실'을 입력한 후 선택합니다.
3단계: '설치'를 클릭하여 설치하고 '계속'을 선택하여 계속 진행합니다. Google 계정으로 로그인하고 안내에 따라 설치를 완료하라는 메시지가 표시됩니다.
4단계: Google 드라이브 홈 페이지로 돌아가서 왼쪽 상단의 '+새로 만들기'를 다시 클릭한 다음 추가 옵션에서 'Google 콜라보랩' 앱을 선택합니다.

5단계: 파일을 열면 빠른 참조를 위해 파일 이름을 변경하고 나중에 재사용할 수 있습니다.

6단계: 상단 열에서 '실행 단계'를 클릭하고 '실행 단계 유형 변경'을 선택합니다.

7단계: 이 시점에서 다양한 실행 유형과 컴퓨팅 리소스를 선택할 수 있습니다. "Python 3" 및 "T4 GPU"를 선택하고 "저장"을 클릭하세요.

8단계: 창의 오른쪽 상단에서 '연결'이라는 단어를 찾아 클릭한 후 연결이 성공할 때까지 기다립니다.

9단계: 연결이 완료되면 GPU, 메모리, 하드 드라이브 정보 등 컴퓨터의 매개변수를 확인할 수 있습니다.

10단계: 다음으로 위스퍼를 설치하려면 가운데 표시줄의 첫 번째 줄과 두 번째 줄에 각각 위스퍼 설치 코드와 ffmpeg 설치 코드를 입력한 후 실행을 클릭합니다.

11단계: 설치가 완료되면 왼쪽의 폴더 아이콘을 클릭하고 '파일 업로드'를 선택한 다음, 트랜스크립션에 필요한 MP3 파일을 업로드합니다.

12단계: '+코드'를 클릭하고 음성-텍스트 변환 실행 코드를 입력합니다. 파일 이름과 접미사가 업로드한 파일과 동일한지 확인한 후 마지막으로 실행을 클릭합니다.

© 저작권 정책
기사 저작권 AI 공유 서클 모두 무단 복제하지 마세요.
관련 문서
댓글 없음...