크리스퍼위스퍼: 정확한 축어체 음성 전사 도구

최신 AI 리소스7개월 전 업데이트 AI 공유 서클
2.9K 00

일반 소개

크리스퍼위스퍼는 빠르고 정확한 단어 단위 음성 녹취에 중점을 둔 OpenAI Whisper 기반의 고급 음성 인식 툴입니다. 음성이 채워지거나 일시 정지된 경우에도 정확한 단어 수준의 타임스탬프를 제공하며, 태거를 조정하고 주의력 손실을 사용자 지정하여 타임스탬프 정확도를 향상시키고 전사 착시를 줄여 모든 발음된 단어가 정확하게 녹음되도록 합니다.

 

논문 요약

크리스퍼위스퍼는 위스퍼 음성 인식 모델의 개선된 버전으로, 토큰화기를 조정하고 동적 시간 왜곡(DTW) 알고리즘을 사용하여 보다 정확한 단어 수준의 타임스탬핑이 가능하고, 보다 세분화된 음성 녹취를 제공하며, 음성에서 일시 정지 및 단어 채우기 이벤트 감지를 개선하고, 환각 생성을 줄입니다. 또한 환청의 발생을 줄여줍니다.

초록

크리스퍼위스퍼는 더 정확한 단어 수준의 타임스탬프와 더 세분화된 음성 트랜스크립션을 제공하도록 설계된 위스퍼 모델을 기반으로 개선된 기능입니다. 이 모델은 DTW 알고리즘이 오디오 클립을 단어와 더 정확하게 정렬할 수 있도록 Whisper의 토큰화기를 조정하여 타임스탬프의 정확성을 향상시킵니다. 이 기술은 특히 모든 발음에서 음성 전사를 캡처하는 데 유용하며, 이는 음성의 임상 평가, 언어 계획 프로세스 분석, 인지 부하 지표를 식별하는 데 중요합니다.CrisperWhisper는 또한 훈련과 소음 대응을 통해 모노 포닉 음원에 대한 주의력과 소음 적응을 개선하며, 여러 벤치마크 데이터 세트에서 테스트되어 음성 인식에서의 사용을 입증했습니다, 세분화, 필러 이벤트 감지 및 착시 콘텐츠 감소에 사용됨을 입증했습니다. 또한 모델에 대한 코드와 정확한 단어 수준의 타임스탬프가 포함된 합성 데이터 세트가 공개되었습니다.

뷰포인트

  • 개선된 토큰화 도구크리스퍼위스퍼는 토큰화기에서 중복 공백을 제거하고 '어', '음'과 같은 특정 단어에 다시 태그를 지정하여 타임스탬프의 정확도를 향상시켜 DTW 알고리즘이 오디오 세그먼트와 단어를 보다 정확하게 정렬할 수 있도록 합니다.
  • 노이즈 방지 기술이 모델은 훈련 중에 잡음 및 다성 소스의 데이터를 포함시켜 소음에 대한 적응력을 향상시키고, 빈 훈련 샘플을 도입하여 환영 콘텐츠 생성을 줄입니다.
  • 뛰어난 성능크리스퍼위스퍼는 AMI 미팅 코퍼스, TED-LIUM, LibriSpeech 등 여러 벤치마크 데이터 세트에서 테스트되었으며, 이러한 데이터 세트에서 우수한 단어 수준의 타임스탬프 및 음성 인식 성능을 입증했습니다.
  • 오픈 소스 코드 및 데이터 세트모델 코드와 합성 음성 데이터 세트는 오픈 소스로 공개되어 연구자와 개발자가 음성 인식 기술을 더욱 연구하고 개선하는 데 도움이 될 것입니다.
  • 가상 콘텐츠 감소크리스퍼위스퍼는 음성 인식 시스템의 신뢰성 향상에 특히 중요한 정확한 타임 스탬핑과 착각 콘텐츠의 특정 처리를 통해 착각 콘텐츠의 생성을 효과적으로 줄입니다.

 

 

기능 목록

  • 정확한 단어 수준 타임스탬프음성 채우기 및 일시 정지 시에도 정확한 타임스탬프를 제공합니다.
  • 축어적 전사'음', '아'와 같은 필러 단어를 포함하여 발음된 각 단어를 그대로 녹음합니다.
  • 필러 단어 감지필러 단어를 감지하고 정확하게 전사합니다.
  • 환각 감소전사 환각 감소 및 정확도 향상.
  • 오픈 소스이 코드는 쉽게 보고 사용할 수 있도록 공개되어 있습니다.

 

 

도움말 사용

설치 프로세스

  1. 환경 준비::
    • Python 3.7 이상이 설치되어 있는지 확인하세요.
    • 필요한 종속성 라이브러리를 설치합니다:pip install -r requirements.txt.
  2. 코드 다운로드::
    • GitHub 리포지토리를 복제합니다:git clone https://github.com/nyrahealth/CrisperWhisper.git.
  3. 애플리케이션 실행::
    • 프로젝트 카탈로그로 이동합니다:cd CrisperWhisper.
    • 애플리케이션을 실행합니다:python app.py.

사용 가이드라인

  1. 기본 사용::
    • 앱을 연 후 전사할 오디오 파일을 업로드합니다.
    • 전사 모드(축어 또는 표준 전사)를 선택합니다.
    • '전사 시작' 버튼을 클릭하고 전사가 완료될 때까지 기다립니다.
  2. 고급 기능::
    • 타임스탬프 조정타임스탬프의 정밀도는 설정에서 조정할 수 있습니다.
    • 필러 단어 감지채우기 단어 감지를 활성화 또는 비활성화합니다.
    • 내보내기 결과: 전사가 완료되면 결과를 텍스트 파일이나 다른 형식으로 내보낼 수 있습니다.
  3. 일반적인 문제::
    • 부정확한 전사좋은 오디오 품질을 보장하고 배경 소음을 피하세요.
    • 부정확한 타임스탬프타임스탬프 설정을 조정하거나 고음질 오디오 파일을 사용해 보세요.

일반적인 예

  1. 축어 전사의 예::
    原音频:嗯,我觉得这个项目非常有趣。
    转录结果:嗯,我觉得这个项目非常有趣。
    时间戳:[0:00:01] 嗯,[0:00:02] 我,[0:00:03] 觉得,[0:00:04] 这个,[0:00:05] 项目,[0:00:06] 非常,[0:00:07] 有趣。
    
  2. 필러 단어 감지 예시::
    原音频:嗯,我觉得这个项目非常有趣。
    转录结果:嗯,我觉得这个项目非常有趣。
    填充词:[0:00:01] 嗯
    
© 저작권 정책
AiPPT

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...