돌핀: 아시아 언어를 위한 아시아 언어 인식 및 음성-텍스트 모델링

58.5K 00

일반 소개

돌고래는 아시아 언어에 대한 음성 인식 및 언어 인식에 중점을 두고 칭화대학교와 협력하여 DataoceanAI가 개발한 오픈 소스 모델입니다. 동아시아, 남아시아, 동남아시아, 중동의 40개 언어와 22개 중국 방언을 지원합니다. 이 모델은 독점 및 공개적으로 사용 가능한 데이터 세트를 결합하여 21만 시간 이상의 오디오 데이터로 학습되었으며, 음성을 텍스트로 변환할 뿐만 아니라 품사(VAD) 감지, 오디오 세그먼트, 언어 인식(LID) 기능도 지원합니다. 간단하게 설계되었으며, 코드와 일부 모델은 개발자를 위해 GitHub에서 무료로 제공됩니다.

기능 목록

40개 아시아 언어와 22개 중국어 방언의 음성-텍스트 변환을 지원합니다.
오디오에서 음성 세그먼트를 찾기 위해 음성 활동 감지(VAD)를 제공합니다.
오디오 분할을 지원하고, 긴 오디오를 작은 세그먼트로 잘라 처리할 수 있습니다.
언어 식별(LID)을 구현하여 오디오의 언어 또는 방언을 확인합니다.
사용자가 수정하고 사용자 지정할 수 있는 오픈 소스 코드 및 모델입니다.
다양한 요구 사항에 맞게 기본 모델과 소형 모델을 사용할 수 있습니다.
언어와 지역을 구분하는 2단계 레이블 시스템을 사용합니다(예 <zh><CN>).

도움말 사용

돌핀의 설치 및 사용 과정은 간단하며 기본적인 프로그래밍 기술을 가진 사용자에게 적합합니다. 자세한 단계는 다음과 같습니다.

설치 프로세스

환경 준비하기
오디오를 처리하려면 Python 3.8 이상과 FFmpeg가 필요합니다.
- Python 확인: 터미널에서 다음과 같이 입력합니다. python --version를 클릭하고 버전을 확인합니다.
- Python은 설치되어 있지 않으며 python.org에서 다운로드할 수 있습니다.
- FFmpeg 설치: 시스템에 따라 명령을 실행합니다:
  - 우분투/데비안:
```
sudo apt update && sudo apt install ffmpeg
```
  - macOS:
```
brew install ffmpeg
```
  - Windows:
```
choco install ffmpeg
```
  제거된 패키지 관리 도구는 FFmpeg 웹사이트에서 다운로드할 수 있습니다.
Dolphin 설치
두 가지 방법이 있습니다:
- 핍으로 설치
  터미널에 입력합니다:
```
pip install -U dataoceanai-dolphin
```
  이렇게 하면 최신 안정 버전이 설치됩니다.
- 소스 코드에서 설치
  최신 개발 버전을 사용하려면 GitHub에서 다운로드하세요:
  1. 복제 창고:
```
git clone https://github.com/DataoceanAI/Dolphin.git
```
  2. 카탈로그로 이동합니다:
```
cd Dolphin
```
  3. 설치:
```
pip install .
```
모델 다운로드
돌핀은 4개의 모델이 있으며, 현재 기본(140만 매개변수)과 소형(372만 매개변수) 모델을 무료로 다운로드할 수 있습니다.
- 통해 (틈새) 포옹하는 얼굴 모델 파일을 가져옵니다.
- 지정된 경로에 저장합니다(예 /data/models/dolphin/.
- 기본 모델은 더 빠르고 작은 모델은 더 정확합니다.

사용법

명령줄 및 Python 작업이 지원됩니다.

명령줄 작업

텍스트 음성 변환
오디오 파일을 준비합니다(예 audio.wav)을 클릭하고 입력합니다:

dolphin audio.wav

시스템이 기본 모델을 자동으로 다운로드하여 텍스트를 출력합니다. 오디오는 WAV 형식이어야 하며 FFmpeg로 변환할 수 있습니다:

ffmpeg -i input.mp3 output.wav

모델 및 경로 지정
작은 모델을 사용합니다:

dolphin audio.wav --model small --model_dir /data/models/dolphin/

언어 및 지역 지정
이중 레이어 마커로 중국어 인식하기:

dolphin audio.wav --model small --model_dir /data/models/dolphin/ --lang_sym "zh" --region_sym "CN"

lang_sym 는 "zh"(중국어)와 같은 언어 코드입니다.
region_sym 는 "CN"(중국 본토)과 같은 지역 번호입니다.
전체 언어 목록은 다음을 참조하세요. languages.md.

짧은 오디오 채우기
오디오가 30초 미만인 경우 사용 가능 --padding_speech true 채우기:

dolphin audio.wav --model small --model_dir /data/models/dolphin/ --lang_sym "zh" --region_sym "CN" --padding_speech true

파이썬 코드 조작

오디오 및 모델 로드
Python에서 실행됩니다:

import dolphin
waveform = dolphin.load_audio("audio.wav")  # 加载音频
model = dolphin.load_model("small", "/data/models/dolphin/", "cuda")  # 加载模型

"cuda" GPU 사용, GPU 변경 없이 "cpu".

임원 표창
오디오를 처리하여 출력합니다:

result = model(waveform)  # 转文本
print(result.text)  # 显示结果

언어 및 지역 지정
매개변수를 추가합니다:

result = model(waveform, lang_sym="zh", region_sym="CN")
print(result.text)

주요 기능 작동

음성 활동 감지(VAD)
예를 들어, 음성 세그먼트를 자동으로 감지하고 시간에 따라 레이블을 지정합니다:
```
0.0-2.5s: 你好
3.0-4.5s: 今天天气很好
```
언어 식별(LID)
예를 들어 오디오 언어를 결정합니다:
```
dolphin audio.wav --model small --model_dir /data/models/dolphin/
```
로 출력합니다. <zh>(중국어) 또는 <ja>(일본어).
이중 언어 마크업
예를 들어 2단계 레이블을 사용하여 언어와 지역을 구분합니다. <zh><CN>(중국어(북경어)),<zh><TW>(대만 중국어)를 통해 아시아 언어 처리 능력을 향상시킬 수 있습니다.
모델 아키텍처
인코더용 E-Branchformer와 디코더용 Transformer를 갖춘 CTC-Attention 아키텍처는 아시아 언어에 최적화되어 있습니다.

애플리케이션 시나리오

절차
아시아 다국어 회의의 녹음을 국제 또는 지역 회의에 적합한 텍스트로 변환합니다.
방언 학습
22개 중국 방언의 음운학적 특징을 분석하고 연구 데이터를 생성합니다.
스마트 디바이스 개발
스마트 기기에 통합하여 아시아 언어로 음성 제어할 수 있습니다.

QA

어떤 언어가 지원되나요?
40개 아시아 언어와 22개 중국어 방언을 지원합니다. languages.md.
GPU가 필요하신가요?
필요 없음. CPU 실행 가능, GPU(CUDA 지원)가 더 빠릅니다.
기본 모델과 소형 모델의 차이점은 무엇인가요?
기본 모델은 소형(1억 4천만 개의 파라미터)으로 오류율이 33.31 TP3T이고, 소형 모델은 대형(3억 7천 2백만 개의 파라미터)으로 오류율이 25.21 TP3T입니다.