MedASR - Google의 오픈 소스 의료 음성 인식 모델

31.7K 00

MedASR이란 무엇인가요?

MedASR은 구글이 오픈소스화한 1억 5천만 개의 파라미터 의료 음성 인식 모델로, 5,000시간의 탈감작 임상 말뭉치를 기반으로 미세 조정되어 약물, 용량, 해부학 용어에 최적화되어 있으며, 6그램 의료 언어 모델이 내장되어 있고, 비공개 방사선 데이터 세트 RAD-DICT에서 단어 오류율이 4.6%로 Whisper v3 Large보다 약 60%가 낮습니다. 이 모델은 컨포머 아키텍처를 채택하여 단일 소비자용 GPU로 미세 조정이 가능하고, 16kHz 모노 입력을 지원하며, 허깅 페이스의 원클릭 다운로드, 버텍스 AI의 온라인 배포, 로컬 미세 조정 노트북을 제공하며, 구글 헬스 AI 규정 준수 조건을 따르고 출력은 수동으로 검토해야 하기 때문에 현재 의료 시나리오에 적합한 선택이 될 수 있습니다. 정확성과 사용 편의성을 모두 고려할 때 현재 의료 시나리오에서 선호되는 ASR 솔루션입니다.

MedASR의 기능적 특징

의료용 경량 모델1억 5천만 개의 파라미터 컨포머 아키텍처, 단일 소비자 GPU에서 미세 조정 가능, 16kHz 모노 입력, 300ms 미만의 스트리밍/배치 추론 지연 시간.
정확한 의학 어휘 인식6그램의 의료 언어 모델이 내장되어 있으며, 5,000시간의 감작된 임상 음성(방사선과, 내과, 가정의학과)을 바탕으로 미세 조정되어 약물 이름, 복용량 및 해부학 용어 인식의 정확도가 크게 향상되었습니다.
최고의 인식 정확도개인 영상의학 데이터 세트인 RAD-DICT의 단어 오류율은 4.61 TP3T에 불과하며, 이는 Whisper v3 Large에 비해 약 601 TP3T 낮은 수치로 의료 ASR 분야에서 확고한 선두를 차지하고 있습니다.
문턱 없는 오픈 소스 경험가중 호스팅 허깅 페이스, 5줄의 코드 로컬 추론, 공식 Colab 노트북, 원클릭 오디션 효과, 복잡한 환경 구성 필요 없음.
클라우드에서 원클릭 배포병원의 높은 동시성 및 짧은 지연 시간 요구 사항을 충족하기 위해 자동 탄력적 확장을 통해 가용성이 높은 온라인 서비스를 Vertex AI Model Garden을 통해 직접 출시합니다.
민영화 미세 조정 지원오픈 소스는 미세 조정 노트북과 함께 제공되며, 병원은 자체 데이터를 사용하여 교육을 계속하고 전체 오프라인 작업을 수행하여 환자의 개인 정보 보호 및 데이터 보안을 보호할 수 있습니다.
규정 준수 보안 프레임워크직접적인 임상적 의사 결정을 명시적으로 금지하고 의료적 위험을 줄이기 위해 결과물을 전문가가 검토하도록 요구하는 Google Health AI 개발자 재단 프로토콜을 따릅니다.

MedASR의 핵심 강점

초경량1억 5천만 개의 파라미터 컨포머, 추론 지연 시간이 300ms 미만인 단일 소비자 GPU에서 미세 조정을 수행할 수 있습니다.
데이터 심층 분석방사선과, 내과, 가정의학과 등 여러 부서의 실제 시나리오를 다루는 5,000시간의 민감성 완화 의료 스피치 전문 교육을 기반으로 합니다.
최고의 정밀도개인용 방사선 테스트 세트 RAD-DICT의 단어 오류율은 4.61 TP3T에 불과하며, 이는 업계 최고 수준인 Whisper v3 Large에 비해 약 601 TP3T 감소한 수치입니다.
어휘 전문화내장된 6그램 의학 언어 모델, 약품명, 용량, 해부학 용어 인식 정확도가 크게 향상되었습니다.
입력 친화적16kHz 모노 파형이 지원되며, 복잡한 전처리 및 후처리 없이 버튼 하나로 스트리밍과 일괄 추론을 전환할 수 있습니다.

MedASR의 공식 웹사이트는 무엇인가요?

프로젝트 웹사이트:: https://developers.google.com/health-ai-developer-foundations/medasr
GitHub 리포지토리:: https://github.com/google-health/medasr
허깅페이스 모델 라이브러리:: https://huggingface.co/google/medasr

MedASR의 대상

병원 정보 섹션의사의 키보드 입력 부담을 줄이고 의료 기록 작성의 적시성을 개선하는 정확도 높은 음성 입력 시스템으로 빠르게 가동해야 합니다.
임상의영상의학과, 내과, 가정의학과 전문의는 오타 발생률을 낮추기 위해 검사 보고서, 처방전, 환자 기록 등을 직접 작성합니다.
헬스케어 AI 스타트업 팀자체 연구 ASR 역량이 부족하고 이미지 보고서, 수술 기록 등과 같은 수직적 시나리오를 위한 오픈 소스 모델을 기반으로 제품을 2차적으로 개발하고자 합니다.
원격 상담 플랫폼후속 QA, 검색 및 빅데이터 분석을 위해 의사와 환자의 대화를 실시간으로 구조화된 텍스트로 변환해야 할 필요성.
의학교육 연구자고품질 의료 음성 전사 결과를 사용하여 지식 그래프를 구축하거나, 다운스트림 NLP 모델을 훈련하거나, 음성 데이터 마이닝 연구를 수행합니다.