펭청스타링: 위스퍼-Large v3보다 더 작고 빠른 다국어 음성-텍스트 변환 도구

최신 AI 리소스6개월 전 업데이트 AI 공유 서클
1.9K 00

일반 소개

펭청스탈링은 다양한 언어의 음성을 해당 텍스트로 변환할 수 있는 다국어 자동 음성 인식(ASR) 툴입니다(펭청랩스). 아이스폴 프로젝트를 기반으로 개발된 이 툴킷은 데이터 처리, 모델 학습, 추론, 미세 조정 및 배포를 포함한 완전한 음성 인식 프로세스를 제공하며, 중국어, 영어, 러시아어, 베트남어, 일본어, 태국어, 인도네시아어, 아랍어를 포함한 8개 언어의 스트리밍 음성 인식을 지원합니다. 주요 응용 시나리오에는 음성 비서, 번역 도구, 자막 생성 및 음성 검색이 포함됩니다. 모델 크기는 위스퍼-라지 v3의 20%이며, 추론 속도는 위스퍼-라지 v3보다 7배 빠릅니다.

통합 프레임워크에서 다국어 음성 입력 처리, 실시간 음성 인식 지원, 말하는 동안 인식, 텍스트에 대한 국제 회의 녹음, 다국어 비디오 자동 자막 생성, 다국어 고객 서비스 시스템으로 사용할 수 있는 것이 특징입니다.

PengChengStarling:对比Whisper-Large v3更小、更快的多语言语音转文字工具

 

기능 목록

  • 데이터 처리: 여러 데이터 세트의 사전 처리를 지원하여 필요한 입력 형식을 생성합니다.
  • 모델 트레이닝: 다국어 음성 인식 작업을 지원하기 위한 유연한 트레이닝 구성을 제공합니다.
  • 추론: 스트리밍 음성 인식을 지원하여 추론 속도가 효율적입니다.
  • 미세 조정: 특정 작업 요구 사항에 맞게 모델을 미세 조정할 수 있도록 지원합니다.
  • 배포: 쉽게 배포할 수 있도록 PyTorch 및 ONNX 형식의 모델을 제공합니다.

 

도움말 사용

설치 프로세스

  1. 프로젝트 웨어하우스 복제:
   git clone https://github.com/yangb05/PengChengStarling
cd PengChengStarling
  1. 종속성을 설치합니다:
   pip install -r requirements.txt
export PYTHONPATH=/tmp/PengChengStarling:$PYTHONPATH

데이터 준비

학습 프로세스를 시작하기 전에 먼저 원시 데이터를 원하는 입력 형식으로 사전 처리해야 합니다. 일반적으로 이 작업에는zipformer/prepare.py정곡을 찌르세요make_*_list메서드를 생성하는data.list파일로 이동합니다. 스크립트가 완료되면 각 데이터 세트에 해당하는 컷과 팽크 기능이 생성되며, 이는 PengChengStarling의 입력 데이터로 사용됩니다.

모델 교육

  1. 트레이닝 매개변수 구성: 트레이닝 매개변수에서config_train디렉토리에 액세스하여 교육에 필요한 매개 변수를 구성합니다.
  2. 교육을 시작합니다:
   ./train.sh

추론

  1. 추론 데이터 준비: 데이터를 원하는 형식으로 전처리합니다.
  2. 추론을 시작하세요:
   ./eval.sh

미세 조정

  1. 미세 조정된 데이터 준비: 데이터를 원하는 형식으로 전처리합니다.
  2. 미세 조정을 시작합니다:
   ./train.sh --finetune

배포

파이토치 상태 사전과 ONNX 형식의 두 가지 형식으로 모델을 제공합니다. 필요에 따라 배포에 적합한 형식을 선택할 수 있습니다.

© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...