MedASR - Modelo de reconocimiento médico del habla de código abierto de Google

堆友AI

¿Qué es MedASR?

MedASR es un modelo de reconocimiento del habla médica con 105 millones de parámetros de código abierto de Google, perfeccionado con 5.000 horas de corpus clínico desensibilizado, optimizado para la terminología de fármacos, dosis y anatomía, con un modelo de lenguaje médico de 6 gramos incorporado y una tasa de error de palabra de sólo 4,6% en el conjunto de datos privados de radiología RAD-DICT, que es aproximadamente 60% inferior a Whisper v3 Large. El modelo adopta la arquitectura Conformer, que puede ajustarse con precisión mediante una única GPU de consumo, admite la entrada mono de 16 kHz y ofrece la descarga con un solo clic de Hugging Face, la implementación en línea de Vertex AI y el cuaderno de ajuste fino local, que sigue los términos de cumplimiento de Google Health AI, y el resultado debe revisarse manualmente, lo que lo convierte en una buena opción para el escenario sanitario actual. Es la solución ASR preferida para los escenarios médicos actuales, teniendo en cuenta tanto la precisión como la facilidad de uso.

MedASR - 谷歌开源的医疗语音识别模型

Características funcionales de MedASR

  • Modelos ligeros específicos para medicinaArquitectura Conformer de 105 millones de parámetros, ajustable con precisión en una sola GPU de consumo, entrada mono de 16 kHz, latencia de inferencia de flujo/lote inferior a 300 ms.
  • Reconocimiento preciso del vocabulario médicoModelo de lenguaje médico de 6 gramos incorporado, ajustado sobre 5.000 horas de habla clínica desensibilizada (radiología, medicina interna, médico de familia), con una mejora significativa de la precisión en el reconocimiento de nombres de medicamentos, dosis y terminología anatómica.
  • Líder en precisión de reconocimientoEl conjunto de datos privados de radiología RAD-DICT presenta una tasa de error de palabra de sólo 4,61 TP3T, lo que supone unos 601 TP3T menos que Whisper v3 Large, lo que lo sitúa firmemente a la vanguardia de la ASR sanitaria.
  • Experiencia de código abierto de Umbral Cero: Cara de abrazo de alojamiento ponderado, 5 líneas de código de inferencia local; cuaderno Colab oficial, efecto de audición con un solo clic, sin necesidad de configurar un entorno complejo.
  • Implantación en la nube con un solo clicServicios en línea de alta disponibilidad: los servicios en línea de alta disponibilidad se lanzan directamente a través de Vertex AI Model Garden, con escalado elástico automático para satisfacer las necesidades de alta concurrencia y baja latencia del hospital.
  • Apoyo a la privatización: El código abierto viene con cuaderno de ajuste, los hospitales pueden utilizar sus propios datos para continuar la formación, toda la operación fuera de línea, para proteger la privacidad del paciente y la seguridad de los datos.
  • Cumplimiento del marco de seguridadSigue el protocolo de Google Health AI Developer Foundations, que prohíbe explícitamente la toma directa de decisiones clínicas y exige que los resultados sean revisados por un profesional para reducir el riesgo médico.

Puntos fuertes de MedASR

  • Peso ligero extremo: Conformer de 105 millones de parámetros, el ajuste fino puede realizarse en una sola GPU de consumo con una latencia de inferencia inferior a 300 ms.
  • Datos Aradura profunda: Basado en 5.000 horas de formación especializada en discurso médico desensibilizado, que abarca escenarios reales en múltiples departamentos como radiología, medicina interna y médicos de familia.
  • Precisión líderLa tasa de error de palabra en el conjunto de pruebas de radiología privada RAD-DICT es de sólo 4,61 TP3T, una reducción de unos 601 TP3T en comparación con Whisper v3 Large, que se encuentra entre las más altas del sector.
  • especialización léxicaModelo de lenguaje médico de 6 gramos incorporado: mejora significativamente la precisión del reconocimiento de nombres de fármacos, dosis y terminología anatómica.
  • Entrada fácilAdmite la forma de onda mono de 16 kHz, y se puede alternar entre streaming e inferencia por lotes con sólo pulsar un botón, sin necesidad de complejos procesos previos y posteriores.

¿Cuál es la web oficial de MedASR?

  • Página web del proyecto:: https://developers.google.com/health-ai-developer-foundations/medasr
  • Repositorio GitHub:: https://github.com/google-health/medasr
  • Biblioteca de modelos HuggingFace:: https://huggingface.co/google/medasr

A quién va dirigido MedASR

  • Sección de información hospitalariaNecesidad de poner en marcha rápidamente un sistema de introducción por voz de alta precisión que reduzca la carga que supone el teclado para los médicos y mejore la puntualidad en la cumplimentación de los historiales médicos.
  • clínicoLos médicos de los departamentos de radiología, medicina interna y medicina de familia dictan informes de exploración, recetas y expedientes de pacientes con el objetivo de reducir el número de erratas.
  • Equipos de startups de IA sanitaria: Falta de capacidad de autoinvestigación ASR, y deseo de desarrollar secundariamente productos basados en modelos de código abierto para escenarios verticales como informes de imágenes, registros de cirugía, etc.
  • Plataforma de consulta a distanciaLa necesidad de transcribir el diálogo médico-paciente a texto estructurado en tiempo real para su posterior control de calidad, búsqueda y análisis de macrodatos.
  • Investigadores en educación médicaUso de resultados de transcripción del habla médica de alta calidad para construir grafos de conocimiento, entrenar modelos de PLN o realizar investigaciones de minería de datos del habla.
© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...