MedASR - модель распознавания медицинской речи с открытым исходным кодом от Google

堆友AI

Что такое MedASR?

MedASR - это модель распознавания медицинской речи с 105 миллионами параметров, открытая Google, отлаженная на 5 000 часах десенсибилизированного клинического корпуса, оптимизированная для терминологии лекарств, дозировок и анатомической терминологии, со встроенной 6-граммовой моделью медицинского языка и коэффициентом ошибок в словах всего 4,6% на частном наборе данных по радиологии RAD-DICT, что примерно на 60% ниже, чем у Whisper v3 Large. Модель использует архитектуру Conformer, которая может быть тонко настроена одним графическим процессором потребительского класса, поддерживает монофонический вход 16 кГц, обеспечивает загрузку Hugging Face одним кликом, онлайн-развертывание Vertex AI и локальную тонкую настройку ноутбука, что соответствует условиям соответствия Google Health AI, и выходные данные необходимо проверять вручную, что делает ее хорошим выбором для текущего сценария здравоохранения. Это предпочтительное ASR-решение для современных медицинских сценариев, учитывая как точность, так и простоту использования.

MedASR - 谷歌开源的医疗语音识别模型

Функциональные особенности MedASR

  • Легкие модели, предназначенные для медицинских целейАрхитектура конформера с 105 миллионами параметров, тонкая настройка на одном потребительском GPU, монофонический вход 16 кГц, задержка потокового/пакетного вывода менее 300 мс.
  • Точное распознавание медицинской лексики: Встроенная 6-граммовая модель медицинского языка, отлаженная на 5 000 часах десенсибилизированной клинической речи (радиология, внутренние болезни, семейный врач), значительно повышает точность распознавания названий лекарств, дозировок и анатомической терминологии.
  • Ведущая точность распознавания: Частный набор данных по радиологии RAD-DICT имеет коэффициент ошибок в словах всего 4,61 TP3T, что примерно на 601 TP3T меньше, чем у Whisper v3 Large, что ставит его на первое место в области ASR в здравоохранении.
  • Опыт работы с открытым исходным кодом Zero Threshold: взвешенный хостинг Hugging Face, 5 строк кода локального вывода; официальный блокнот Colab, эффект прослушивания одним щелчком мыши, нет необходимости настраивать сложную среду.
  • Развертывание в облаке одним щелчком мышиВысокодоступные онлайн-сервисы предоставляются непосредственно через Vertex AI Model Garden с автоматическим эластичным масштабированием для удовлетворения потребностей больницы в высоком параллелизме и низкой задержке.
  • Помощь в тонкой настройке приватизацииОткрытый исходный код поставляется с ноутбуком для тонкой настройки, больницы могут использовать свои собственные данные для продолжения обучения, все автономные операции, чтобы защитить конфиденциальность пациентов и безопасность данных.
  • Система обеспечения соответствия нормативным требованиям: Следуйте протоколу Google Health AI Developer Foundations, который прямо запрещает прямое принятие клинических решений и требует, чтобы выходные данные рассматривались специалистом для снижения медицинского риска.

Основные преимущества MedASR

  • Экстремально легкийКонформер с 105 миллионами параметров, тонкая настройка может быть выполнена на одном потребительском GPU с задержкой вывода менее 300 мс.
  • Данные Глубокая вспашка: Основано на 5 000 часов специализированного обучения медицинской речи, охватывающего реальные сценарии в различных отделениях, таких как радиология, внутренние болезни и семейные врачи.
  • Ведущая точностьКоэффициент ошибок в словах на частном тестовом наборе для радиологии RAD-DICT составляет всего 4,61 TP3T, что примерно на 601 TP3T меньше, чем у Whisper v3 Large, который является одним из самых высоких в отрасли.
  • лексическая специализацияВстроенная 6-граммовая модель медицинского языка значительно повышает точность распознавания названий лекарств, дозировок и анатомической терминологии.
  • Дружественный входПоддерживается монофоническая форма сигнала 16 кГц, а переключение между потоковым и пакетным анализом осуществляется одним нажатием кнопки без сложной предварительной и последующей обработки.

Что такое официальный сайт MedASR

  • Веб-сайт проекта:: https://developers.google.com/health-ai-developer-foundations/medasr
  • Репозиторий GitHub:: https://github.com/google-health/medasr
  • Библиотека моделей HuggingFace:: https://huggingface.co/google/medasr

Для кого предназначен MedASR

  • Информационный раздел больницы: Необходимо быстро внедрить высокоточную систему голосового ввода, которая снизит нагрузку на врачей, связанную с использованием клавиатуры, и повысит оперативность заполнения медицинской карты.
  • клиницист: Практикующие врачи в отделениях радиологии, внутренних болезней и семейной медицины диктуют протоколы обследований, рецепты и истории болезни пациентов, стремясь сократить количество опечаток.
  • Команды стартапов ИИ в сфере здравоохранения: Отсутствие возможности самостоятельного исследования ASR и желание вторично разрабатывать продукты на основе моделей с открытым исходным кодом для вертикальных сценариев, таких как отчеты о снимках и записи операций.
  • Платформа для удаленных консультаций: Необходимость транскрибировать диалог между врачом и пациентом в структурированный текст в режиме реального времени для последующего контроля качества, поиска и анализа больших данных.
  • Исследователи в области медицинского образования: Используйте результаты высококачественной транскрипции медицинской речи для построения графов знаний, обучения последующих моделей NLP или проведения исследований в области добычи речевых данных.
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...