MedASR - Modelo de reconocimiento médico del habla de código abierto de Google

Últimos recursos sobre IAPublicado hace 3 meses Círculo de intercambio de inteligencia artificial

29.3K 00

¿Qué es MedASR?

MedASR es un modelo de reconocimiento del habla médica con 105 millones de parámetros de código abierto de Google, perfeccionado con 5.000 horas de corpus clínico desensibilizado, optimizado para la terminología de fármacos, dosis y anatomía, con un modelo de lenguaje médico de 6 gramos incorporado y una tasa de error de palabra de sólo 4,6% en el conjunto de datos privados de radiología RAD-DICT, que es aproximadamente 60% inferior a Whisper v3 Large. El modelo adopta la arquitectura Conformer, que puede ajustarse con precisión mediante una única GPU de consumo, admite la entrada mono de 16 kHz y ofrece la descarga con un solo clic de Hugging Face, la implementación en línea de Vertex AI y el cuaderno de ajuste fino local, que sigue los términos de cumplimiento de Google Health AI, y el resultado debe revisarse manualmente, lo que lo convierte en una buena opción para el escenario sanitario actual. Es la solución ASR preferida para los escenarios médicos actuales, teniendo en cuenta tanto la precisión como la facilidad de uso.

Características funcionales de MedASR

Modelos ligeros específicos para medicinaArquitectura Conformer de 105 millones de parámetros, ajustable con precisión en una sola GPU de consumo, entrada mono de 16 kHz, latencia de inferencia de flujo/lote inferior a 300 ms.
Reconocimiento preciso del vocabulario médicoModelo de lenguaje médico de 6 gramos incorporado, ajustado sobre 5.000 horas de habla clínica desensibilizada (radiología, medicina interna, médico de familia), con una mejora significativa de la precisión en el reconocimiento de nombres de medicamentos, dosis y terminología anatómica.
Líder en precisión de reconocimientoEl conjunto de datos privados de radiología RAD-DICT presenta una tasa de error de palabra de sólo 4,61 TP3T, lo que supone unos 601 TP3T menos que Whisper v3 Large, lo que lo sitúa firmemente a la vanguardia de la ASR sanitaria.
Experiencia de código abierto de Umbral Cero: Cara de abrazo de alojamiento ponderado, 5 líneas de código de inferencia local; cuaderno Colab oficial, efecto de audición con un solo clic, sin necesidad de configurar un entorno complejo.
Implantación en la nube con un solo clicServicios en línea de alta disponibilidad: los servicios en línea de alta disponibilidad se lanzan directamente a través de Vertex AI Model Garden, con escalado elástico automático para satisfacer las necesidades de alta concurrencia y baja latencia del hospital.
Apoyo a la privatización: El código abierto viene con cuaderno de ajuste, los hospitales pueden utilizar sus propios datos para continuar la formación, toda la operación fuera de línea, para proteger la privacidad del paciente y la seguridad de los datos.
Cumplimiento del marco de seguridadSigue el protocolo de Google Health AI Developer Foundations, que prohíbe explícitamente la toma directa de decisiones clínicas y exige que los resultados sean revisados por un profesional para reducir el riesgo médico.

Puntos fuertes de MedASR

Peso ligero extremo: Conformer de 105 millones de parámetros, el ajuste fino puede realizarse en una sola GPU de consumo con una latencia de inferencia inferior a 300 ms.
Datos Aradura profunda: Basado en 5.000 horas de formación especializada en discurso médico desensibilizado, que abarca escenarios reales en múltiples departamentos como radiología, medicina interna y médicos de familia.
Precisión líderLa tasa de error de palabra en el conjunto de pruebas de radiología privada RAD-DICT es de sólo 4,61 TP3T, una reducción de unos 601 TP3T en comparación con Whisper v3 Large, que se encuentra entre las más altas del sector.
especialización léxicaModelo de lenguaje médico de 6 gramos incorporado: mejora significativamente la precisión del reconocimiento de nombres de fármacos, dosis y terminología anatómica.
Entrada fácilAdmite la forma de onda mono de 16 kHz, y se puede alternar entre streaming e inferencia por lotes con sólo pulsar un botón, sin necesidad de complejos procesos previos y posteriores.

¿Cuál es la web oficial de MedASR?

Página web del proyecto:: https://developers.google.com/health-ai-developer-foundations/medasr
Repositorio GitHub:: https://github.com/google-health/medasr
Biblioteca de modelos HuggingFace:: https://huggingface.co/google/medasr

A quién va dirigido MedASR

Sección de información hospitalariaNecesidad de poner en marcha rápidamente un sistema de introducción por voz de alta precisión que reduzca la carga que supone el teclado para los médicos y mejore la puntualidad en la cumplimentación de los historiales médicos.
clínicoLos médicos de los departamentos de radiología, medicina interna y medicina de familia dictan informes de exploración, recetas y expedientes de pacientes con el objetivo de reducir el número de erratas.
Equipos de startups de IA sanitaria: Falta de capacidad de autoinvestigación ASR, y deseo de desarrollar secundariamente productos basados en modelos de código abierto para escenarios verticales como informes de imágenes, registros de cirugía, etc.
Plataforma de consulta a distanciaLa necesidad de transcribir el diálogo médico-paciente a texto estructurado en tiempo real para su posterior control de calidad, búsqueda y análisis de macrodatos.
Investigadores en educación médicaUso de resultados de transcripción del habla médica de alta calidad para construir grafos de conocimiento, entrenar modelos de PLN o realizar investigaciones de minería de datos del habla.

Últimos recursos sobre IA

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

StableAnimator: genera animaciones de vídeo de alta calidad que mantienen los rasgos del personaje.

Últimos recursos sobre IA # AI Imagen a Vídeo

hace 1 año

052K

LoveyDovey: una aplicación de inteligencia artificial para conversaciones románticas con personajes virtuales

Últimos recursos sobre IA # AI Juego de rol

hace 11 meses

0189.7K

AutoFlow：基于GraphRAG的对话式知识库/网页深度搜索工具，对话框可集成到其他网站

AutoFlow: base de conocimientos conversacional basada en GraphRAG/herramienta de búsqueda profunda en la web con diálogos que pueden integrarse en otros sitios web.

Últimos recursos sobre IA # Robot AI de atención al cliente # AI Java Proyecto de código abierto # Gráfico del conocimiento

hace 1 año

056.6K

Avatar Pose Maker: generación en línea de poses de esqueleto de pie personalizadas

Últimos recursos sobre IA # AI Ayudas para la generación de imágenes

hace 1 año

064.1K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

MedASR - Modelo de reconocimiento médico del habla de código abierto de Google

¿Qué es MedASR?

Características funcionales de MedASR

Puntos fuertes de MedASR

¿Cuál es la web oficial de MedASR?

A quién va dirigido MedASR

Fun-Audio-Chat-8B: el macromodelo de código abierto de Ali Tongyi para la interacción verbal de extremo a extremo

TurboDiffusion - Raw Digital Technology, Tsinghua y otros marcos de aceleración de generación de vídeo de código abierto

Artículos relacionados

StableAnimator: genera animaciones de vídeo de alta calidad que mantienen los rasgos del personaje.

LoveyDovey: una aplicación de inteligencia artificial para conversaciones románticas con personajes virtuales

AutoFlow: base de conocimientos conversacional basada en GraphRAG/herramienta de búsqueda profunda en la web con diálogos que pueden integrarse en otros sitios web.

Avatar Pose Maker: generación en línea de poses de esqueleto de pie personalizadas

Sin comentarios

Últimas colecciones

Últimos artículos

MedASR - Modelo de reconocimiento médico del habla de código abierto de Google

¿Qué es MedASR?

Características funcionales de MedASR

Puntos fuertes de MedASR

¿Cuál es la web oficial de MedASR?

A quién va dirigido MedASR

Fun-Audio-Chat-8B: el macromodelo de código abierto de Ali Tongyi para la interacción verbal de extremo a extremo

TurboDiffusion - Raw Digital Technology, Tsinghua y otros marcos de aceleración de generación de vídeo de código abierto

Artículos relacionados

StableAnimator: genera animaciones de vídeo de alta calidad que mantienen los rasgos del personaje.

LoveyDovey: una aplicación de inteligencia artificial para conversaciones románticas con personajes virtuales

AutoFlow: base de conocimientos conversacional basada en GraphRAG/herramienta de búsqueda profunda en la web con diálogos que pueden integrarse en otros sitios web.

Avatar Pose Maker: generación en línea de poses de esqueleto de pie personalizadas

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos