Используйте Whisper, чтобы бесплатно транскрибировать ваш голос в различные форматы!

Часто ли вам приходится расшифровывать записи совещаний или интервью в текст? Поскольку написание стенограмм отнимает много времени и сил, вам могут понадобиться инструменты искусственного интеллекта для преобразования аудиозаписей в текст. В этой статье мы познакомимся с Whisper, системой автоматического распознавания речи (ASR) от команды OpenAI. Согласно описанию OpenAI на Github, Whisper - это модель распознавания речи с открытым исходным кодом, которая в настоящее время распознает около 96 языков по всему миру и преобразует их в текст. По точности распознавания китайского языка Whisper достигла довольно высокого уровня. В результате Шепот Это технология с открытым исходным кодом, поэтому все, что вам нужно, - это учетная запись Google и командный код для ее установки. После загрузки и установки на компьютер вы сможете использовать Whisper для распознавания речи и транскрипции бесплатно и без ограничений разработчика.
Код установки шепотом:
!pip install git+https://github.com/openai/whisper.git
Код установки Ffmpeg:
!sudo apt update && sudo apt install ffmpeg
Код выполнения речевого текста:
!whisper "文件名(需要替换).mp3" --model medium
Шаг 1: Войдите в свой аккаунт Google, откройте Google Диск, нажмите "+Новый" в левом верхнем углу, прокрутите страницу вниз, чтобы найти пункт "Еще", а затем нажмите "Подключить другие приложения".

Шаг 2: При первом запуске откроется маркетплейс приложений Google Workspace, введите в строке поиска "Google Colaboratory" и выберите его.
Шаг 3: Нажмите "Установить" для установки и выберите "Продолжить" для продолжения. Вам будет предложено войти в систему с помощью учетной записи Google и следовать инструкциям для завершения установки.
Шаг 4: Вернитесь на главную страницу Google Диска, снова нажмите "+Новый" в левом верхнем углу и выберите приложение "Google Colaboratory" в дополнительных опциях.

Шаг 5: Открыв файл, вы можете изменить его название, чтобы в дальнейшем использовать его повторно.

Шаг 6: Нажмите "Execution Phase" в верхнем столбце и выберите "Change Execution Phase Type".

Шаг 7: На этом этапе вы можете выбрать различные типы выполнения и вычислительные ресурсы. Пожалуйста, выберите "Python 3" и "T4 GPU" и нажмите "Сохранить".

Шаг 8: Найдите слово "Подключить" в правом верхнем углу окна, нажмите на него и дождитесь успешного подключения.

Шаг 9: После завершения подключения вы увидите параметры компьютера, включая информацию о графическом процессоре, памяти и жестком диске.

Шаг 10: Далее, чтобы установить Whisper, введите код установки Whisper и код установки ffmpeg в первой и второй строках средней панели соответственно и нажмите кнопку Run.

Шаг 11: После завершения установки нажмите на значок папки слева, выберите "Upload Files" и загрузите MP3-файлы, которые вам нужно расшифровать.

Шаг 12: Нажмите "+Код" и введите код выполнения речи в тексте. Убедитесь, что имя файла и суффикс совпадают с загруженным файлом, и нажмите "Выполнить".

© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...