MedASR - модель распознавания медицинской речи с открытым исходным кодом от Google

Последние ресурсы по искусственному интеллектуОпубликовано 4 месяца назад Круг обмена ИИ

31.5K 00

Что такое MedASR?

MedASR - это модель распознавания медицинской речи с 105 миллионами параметров, открытая Google, отлаженная на 5 000 часах десенсибилизированного клинического корпуса, оптимизированная для терминологии лекарств, дозировок и анатомической терминологии, со встроенной 6-граммовой моделью медицинского языка и коэффициентом ошибок в словах всего 4,6% на частном наборе данных по радиологии RAD-DICT, что примерно на 60% ниже, чем у Whisper v3 Large. Модель использует архитектуру Conformer, которая может быть тонко настроена одним графическим процессором потребительского класса, поддерживает монофонический вход 16 кГц, обеспечивает загрузку Hugging Face одним кликом, онлайн-развертывание Vertex AI и локальную тонкую настройку ноутбука, что соответствует условиям соответствия Google Health AI, и выходные данные необходимо проверять вручную, что делает ее хорошим выбором для текущего сценария здравоохранения. Это предпочтительное ASR-решение для современных медицинских сценариев, учитывая как точность, так и простоту использования.

Функциональные особенности MedASR

Легкие модели, предназначенные для медицинских целейАрхитектура конформера с 105 миллионами параметров, тонкая настройка на одном потребительском GPU, монофонический вход 16 кГц, задержка потокового/пакетного вывода менее 300 мс.
Точное распознавание медицинской лексики: Встроенная 6-граммовая модель медицинского языка, отлаженная на 5 000 часах десенсибилизированной клинической речи (радиология, внутренние болезни, семейный врач), значительно повышает точность распознавания названий лекарств, дозировок и анатомической терминологии.
Ведущая точность распознавания: Частный набор данных по радиологии RAD-DICT имеет коэффициент ошибок в словах всего 4,61 TP3T, что примерно на 601 TP3T меньше, чем у Whisper v3 Large, что ставит его на первое место в области ASR в здравоохранении.
Опыт работы с открытым исходным кодом Zero Threshold: взвешенный хостинг Hugging Face, 5 строк кода локального вывода; официальный блокнот Colab, эффект прослушивания одним щелчком мыши, нет необходимости настраивать сложную среду.
Развертывание в облаке одним щелчком мышиВысокодоступные онлайн-сервисы предоставляются непосредственно через Vertex AI Model Garden с автоматическим эластичным масштабированием для удовлетворения потребностей больницы в высоком параллелизме и низкой задержке.
Помощь в тонкой настройке приватизацииОткрытый исходный код поставляется с ноутбуком для тонкой настройки, больницы могут использовать свои собственные данные для продолжения обучения, все автономные операции, чтобы защитить конфиденциальность пациентов и безопасность данных.
Система обеспечения соответствия нормативным требованиям: Следуйте протоколу Google Health AI Developer Foundations, который прямо запрещает прямое принятие клинических решений и требует, чтобы выходные данные рассматривались специалистом для снижения медицинского риска.

Основные преимущества MedASR

Экстремально легкийКонформер с 105 миллионами параметров, тонкая настройка может быть выполнена на одном потребительском GPU с задержкой вывода менее 300 мс.
Данные Глубокая вспашка: Основано на 5 000 часов специализированного обучения медицинской речи, охватывающего реальные сценарии в различных отделениях, таких как радиология, внутренние болезни и семейные врачи.
Ведущая точностьКоэффициент ошибок в словах на частном тестовом наборе для радиологии RAD-DICT составляет всего 4,61 TP3T, что примерно на 601 TP3T меньше, чем у Whisper v3 Large, который является одним из самых высоких в отрасли.
лексическая специализацияВстроенная 6-граммовая модель медицинского языка значительно повышает точность распознавания названий лекарств, дозировок и анатомической терминологии.
Дружественный входПоддерживается монофоническая форма сигнала 16 кГц, а переключение между потоковым и пакетным анализом осуществляется одним нажатием кнопки без сложной предварительной и последующей обработки.

Что такое официальный сайт MedASR

Веб-сайт проекта:: https://developers.google.com/health-ai-developer-foundations/medasr
Репозиторий GitHub:: https://github.com/google-health/medasr
Библиотека моделей HuggingFace:: https://huggingface.co/google/medasr

Для кого предназначен MedASR

Информационный раздел больницы: Необходимо быстро внедрить высокоточную систему голосового ввода, которая снизит нагрузку на врачей, связанную с использованием клавиатуры, и повысит оперативность заполнения медицинской карты.
клиницист: Практикующие врачи в отделениях радиологии, внутренних болезней и семейной медицины диктуют протоколы обследований, рецепты и истории болезни пациентов, стремясь сократить количество опечаток.
Команды стартапов ИИ в сфере здравоохранения: Отсутствие возможности самостоятельного исследования ASR и желание вторично разрабатывать продукты на основе моделей с открытым исходным кодом для вертикальных сценариев, таких как отчеты о снимках и записи операций.
Платформа для удаленных консультаций: Необходимость транскрибировать диалог между врачом и пациентом в структурированный текст в режиме реального времени для последующего контроля качества, поиска и анализа больших данных.
Исследователи в области медицинского образования: Используйте результаты высококачественной транскрипции медицинской речи для построения графов знаний, обучения последующих моделей NLP или проведения исследований в области добычи речевых данных.

Последние ресурсы по искусственному интеллекту

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.

InstantID: загрузите изображение и переместите функции портрета для создания различных стилей изображений

Последние ресурсы по искусственному интеллекту # AI Image Style Control # AI Java Open Source Projecct # AI Обмен лицами и переодевание

2 года назад

079.3K

Cerebr: плагин для браузера с открытым исходным кодом, который разговаривает с веб-контентом

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Браузерный помощник искусственного интеллекта

1 год назад

059.7K

infinite-zoom-stable-diffusion：生成无限缩放循环视频

infinite-zoom-stable-diffusion: генерировать видео с бесконечным зумом

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # AI Стиль преобразования видео

1 год назад

060K

AstrBot: платформа доступа к чатботу искусственного интеллекта с веб-интерфейсом

Последние ресурсы по искусственному интеллекту Робот для обслуживания клиентов # AI # AI Java Open Source Projecct

1 год назад

0114.1K

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!

Войти сейчас

Нет комментариев...

MedASR - модель распознавания медицинской речи с открытым исходным кодом от Google

Что такое MedASR?

Функциональные особенности MedASR

Основные преимущества MedASR

Что такое официальный сайт MedASR

Для кого предназначен MedASR

Fun-Audio-Chat-8B - макромодель сквозного речевого взаимодействия с открытым исходным кодом от Али Тонги

TurboDiffusion - фреймворк ускорения генерации видео с открытым исходным кодом от Raw Digital Technology, Tsinghua и других компаний.

Похожие статьи

InstantID: загрузите изображение и переместите функции портрета для создания различных стилей изображений

Cerebr: плагин для браузера с открытым исходным кодом, который разговаривает с веб-контентом

infinite-zoom-stable-diffusion: генерировать видео с бесконечным зумом

AstrBot: платформа доступа к чатботу искусственного интеллекта с веб-интерфейсом

Нет комментариев

Последние коллекции

Последние статьи

MedASR - модель распознавания медицинской речи с открытым исходным кодом от Google

Что такое MedASR?

Функциональные особенности MedASR

Основные преимущества MedASR

Что такое официальный сайт MedASR

Для кого предназначен MedASR

Fun-Audio-Chat-8B - макромодель сквозного речевого взаимодействия с открытым исходным кодом от Али Тонги

TurboDiffusion - фреймворк ускорения генерации видео с открытым исходным кодом от Raw Digital Technology, Tsinghua и других компаний.

Похожие статьи

InstantID: загрузите изображение и переместите функции портрета для создания различных стилей изображений

Cerebr: плагин для браузера с открытым исходным кодом, который разговаривает с веб-контентом

infinite-zoom-stable-diffusion: генерировать видео с бесконечным зумом

AstrBot: платформа доступа к чатботу искусственного интеллекта с веб-интерфейсом

Нет комментариев

Избранные инструменты искусственного интеллекта

Последние коллекции

Последние статьи