Qué es la IA explicable, en un artículo

堆友AI

Definición y objetivos básicos de la inteligencia artificial interpretable

La IA explicable (abreviado XAI) es un conjunto de conceptos, métodos, tecnologías y marcos de gobernanza que abarcan el programa general, cuyo objetivo es presentar a los seres humanos el proceso de toma de decisiones y los fundamentos de los sistemas de aprendizaje automático, especialmente los modelos de aprendizaje profundo, que a menudo se consideran una caja negra, para hacerlos transparentes, comprensibles, cuestionables y enmendables. No solo responde a la pregunta "¿qué respuesta da el modelo?", sino también a la pregunta "¿por qué da esa respuesta, en qué condiciones cambia la respuesta y hasta qué punto es creíble la respuesta?".

El objetivo principal de la XAI es cuádruple: transparencia, es decir, revelar la lógica interna del modelo en la medida de lo posible; interpretabilidad, es decir, traducir relaciones matemáticas complejas a un lenguaje, gráficos o ejemplos digeribles por el ser humano; fiabilidad, es decir, reducir las dudas del usuario mediante explicaciones y mejorar la aceptación del sistema; y diseño centrado en el ser humano, es decir, permitir que usuarios de distintos orígenes tengan acceso a explicaciones que se ajusten a su nivel cognitivo. La fiabilidad, que reduce las dudas de los usuarios y mejora la aceptación del sistema gracias a las explicaciones; y el diseño centrado en el ser humano, que permite a los usuarios de distintos orígenes tener acceso a explicaciones que se ajustan a su nivel cognitivo, fomentando en última instancia el "cogobierno hombre-máquina" en lugar de la "dictadura de la máquina". Como dice el Libro Blanco de la UE sobre Inteligencia Artificial, "el derecho a la interpretación es un derecho humano fundamental en la era digital", y la XAI es el puente tecnológico para hacer realidad este derecho.

可解释性人工智能(Explainable AI)是什么,一文看懂

Métodos y técnicas de investigación para una inteligencia artificial interpretable

  • Métodos de interpretación local: LIME (Local Interpretable Model-agnostic Explanations) revela qué rasgos de píxeles, palabras o números dominan esta predicción mediante el entrenamiento de modelos lineales interpretables en las proximidades de una única muestra; SHAP (SHapley Additive exPlanations), por su parte, cuantifica la contribución marginal de cada característica basándose en valores de Shapley teóricos, equilibrando la coherencia y la fidelidad local.
  • Métodos de interpretación global: los diagramas de dependencia parcial (PDP) y los diagramas de efectos locales acumulativos (ALE) muestran el efecto medio de las características sobre la tendencia general prevista; las barras SHAP globales permiten comparar directamente el orden de importancia de las distintas características en la muestra completa.
  • Diseño de modelos interpretables: los modelos aditivos generalizados (GAM), RuleFit y las redes neuronales interpretables (por ejemplo, las redes prototipo) incorporan estructuras "desmontables" durante la fase de entrenamiento, que son fáciles de leer para los humanos.
  • Visualización de la atención y la jerarquía: los pesos de la atención en Transformer, los mapas térmicos Grad-CAM en CNN, permiten a los investigadores rastrear "dónde está mirando el modelo" capa por capa.
  • Incorporación de la inferencia causal: uso de marcos como DoWhy y CausalForest para combinar mapas causales con explicaciones, distinguiendo entre "las características de relevancia importan" y "el cambio en el resultado tras la intervención", y evitando explicaciones espurias.
  • Explicación contrafactual: El generador contrafactual ofrece narraciones comparativas como "Si los ingresos aumentan en 20.000 dólares, se aprobará el préstamo" para ayudar al usuario a comprender rápidamente los límites de la decisión.
  • Destilación simbólica: comprime las redes profundas en árboles de decisión o conjuntos de reglas legibles, preservando la precisión y proporcionando una lógica "imprimible".
  • Interpretación respetuosa con la privacidad: Utilice SecureSHAP, FedLIME en un entorno federal para proporcionar interpretación a pesar de las condiciones de datos cifrados o fragmentados.

La importancia de la inteligencia artificial interpretable

  • Generar confianza pública: cuando las decisiones sobre IA afectan a los préstamos, la asistencia sanitaria o la justicia, sólo mostrando a los ciudadanos de a pie el "por qué" podrán quitarse el "miedo a la caja negra" y aceptar y utilizar los servicios de IA de todo corazón.
  • Reducción del riesgo social: los mecanismos explicativos pueden sacar a la luz en una fase temprana los sesgos algorítmicos, los fallos de los datos o las vulnerabilidades de los modelos, evitando la propagación a gran escala de las malas decisiones y reduciendo las pérdidas sociales y económicas.
  • Regulación y cumplimiento de la normativa: países de todo el mundo están incorporando la "interpretabilidad" a la legislación (GDPR, CCPA, Ley de Protección de Datos Personales de China), y los productos que carezcan de interpretabilidad no podrán comercializarse o se enfrentarán a cuantiosas multas.
  • Promover la equidad y la rendición de cuentas: mediante una lógica de toma de decisiones transparente, las víctimas pueden demostrar la discriminación y los promotores pueden señalar los vínculos problemáticos para lograr una gobernanza de circuito cerrado de "quien comete un error es responsable".
  • Aceleración de la iteración tecnológica: los desarrolladores pueden descubrir rápidamente los puntos débiles del modelo con ayuda de comentarios explicativos, lo que acorta el ciclo de "casos de error" a "actualizaciones del modelo" y mejora la fiabilidad del sistema general de IA.
  • Posibilitar la educación en alfabetización digital: puede interpretarse de modo que los usuarios no técnicos puedan entender la lógica de la IA, y convertirse en un material didáctico real para mejorar la alfabetización informática de toda la población, reduciendo la "brecha tecnológica".

Escenarios de aplicación y casos de uso industrial de la IA interpretable

  • Crédito financiero: la plataforma AntShield de Ant Group utiliza SHAP para interpretar las puntuaciones de crédito personales y mostrar factores clave como el "historial de morosidad" y el "ratio de endeudamiento" a los usuarios a los que se les ha denegado un crédito, lo que ha dado lugar a un descenso de 27% en las reclamaciones. Los índices de reclamaciones cayeron 27%.
  • Imágenes médicas: Tencent Foraging integra Grad-CAM++ en la detección de nódulos pulmonares, resalta las áreas sospechosas, un ensayo clínico en hospitales terciarios muestra que la tasa de diagnósticos erróneos disminuye en un 18%.
  • Conducción autónoma: Baidu Apollo muestra la nube de puntos LIDAR y los mapas de calor de la cámara en función del "cruce de peatones detectado" en tiempo real en la pantalla interior del coche de pruebas, lo que mejora la eficacia de la toma de contacto del responsable de seguridad.
  • Verificación de la contratación: el intérprete de contratación justa de LinkedIn explica a los candidatos que la "falta de conocimientos de Python" conduce a la eliminación, proporciona recursos de aprendizaje y aumenta la satisfacción de los candidatos mediante 221 TP3T.
  • Tribunales inteligentes: la "Sentencing Aid AI" del Tribunal de Internet de Pekín enumera las ponderaciones del "número de condenas anteriores" y la "actitud arrepentida", que los jueces pueden citar directamente al redactar las sentencias.
  • Mantenimiento predictivo industrial: la explicación SHAP de Siemens MindSphere de "lubricación insuficiente" para "aumento repentino de la temperatura del rodamiento" reduce el tiempo de reparación in situ en 351 TP3T.
  • Agricultura de precisión: los drones fitosanitarios DJI marcan las zonas calientes de focos de enfermedades en la interfaz de identificación de enfermedades de los cultivos, los agricultores pueden fumigar según el mapa y el uso de pesticidas se reduce en 20%.
  • Prestaciones públicas: El Estado de California, en Estados Unidos, utiliza un modelo interpretable para conceder ayudas al alquiler, y los residentes pueden introducir sus datos personales en la web para ver la declaración "Ingresos por debajo de la mediana de la zona 60%", lo que supone un importante aumento de la transparencia.

Ventajas y valor de la inteligencia artificial interpretable

  • Aumentar la confianza de los usuarios: los estudios de Microsoft muestran que la confianza en los servicios de IA aumentó de 581 TP3T a 811 TP3T cuando los clientes de los bancos recibieron una puntuación de riesgo explicable.
  • Fomento de la equidad y la responsabilidad: la interpretabilidad ayuda a detectar el "código postal" como variable sustitutiva de la raza, con lo que se elimina el sesgo a tiempo y se reduce el riesgo de incumplimiento.
  • Reducción de la propagación de errores: los médicos pueden evitar diagnósticos erróneos corrigiendo los "artefactos metálicos" como "fracturas" basándose en el modelo de descubrimiento XAI.
  • Cumplir los requisitos normativos: el artículo 22 del GDPR de la UE, la ECOA de EE. UU. y la Ley de Protección de Datos Personales de China exigen que la toma de decisiones automatizada proporcione "información significativa".
  • Apoyo a la mejora continua: los desarrolladores descubrieron una ponderación anormalmente alta de la "edad" mediante una interpretación global, dieron marcha atrás para encontrar la fuga de datos y la corrigieron rápidamente.
  • Capacitar a los no expertos: los cuadros de mando visuales permiten a los directivos leer los modelos sin necesidad de programar, lo que acorta la cadena de decisión.
  • Refuerzo de la reputación de la marca: las empresas que explican públicamente sus informes obtienen una calificación media de "fiabilidad" en las encuestas públicas 15% superior a la de sus homólogas.

Retos y limitaciones de la inteligencia artificial interpretable

  • Compromiso entre precisión y transparencia: los modelos interpretables tienden a ser ligeramente menos precisos que las cajas negras, y las organizaciones se enfrentan a la "ansiedad del rendimiento".
  • Sobrecarga computacional: Deep SHAP tarda varios minutos en un escenario de un millón de características, lo que no puede satisfacer la demanda de transacciones en tiempo real.
  • Diversidad de usuarios: la misma explicación produce comprensiones muy diferentes para expertos y novatos, por lo que debe presentarse por capas.
  • Ataque adversario: un atacante construye muestras adversarias basadas en explicaciones públicamente disponibles para que el modelo clasifique mal mientras las explicaciones siguen pareciendo razonables.
  • Fragmentación de la normativa: diferentes definiciones de "explicación adecuada" en Europa, Estados Unidos y Asia-Pacífico, y necesidad de múltiples programas de cumplimiento para productos multinacionales.
  • Diferencias culturales y lingüísticas: los modismos chinos, la escritura árabe hacia la derecha, etc. deben visualizarse localmente, de lo contrario la explicación fracasa.

Herramientas técnicas y marcos de código abierto para una inteligencia artificial interpretable

  • AI Explainability 360 (IBM): integra más de diez algoritmos como LIME, SHAP, Contrastive Explanations, etc., compatible con Python y R.
  • Microsoft Interpret: proporciona un modelo interpretable Glassbox con intérprete Blackbox y visualización Dashboard integrada.
  • Google What-If Tool: modificación mediante arrastrar y soltar de valores de características dentro de TensorBoard, vista en tiempo real de los cambios previstos, adecuada para demostraciones didácticas.
  • Captum (PyTorch): soporta más de 30 algoritmos de interpretación como Integrated Gradients, DeepLift, Layer Conductance, etc.
  • Alibi (Python): se centra en la interpretación local y contrafáctica, incorpora CFProto, CounterfactualRL.
  • InterpretML (Microsoft): integra modelos interpretables como Explainable Boosting Machine (EBM) con SHAP para ofrecer una API unificada.
  • Combinación Fairlearn + SHAP: primero se detecta el sesgo con Fairlearn y después se localizan las características que lo provocan con SHAP.
  • ONNX Explainable AI: encapsula algoritmos explicativos en un formato portátil para su despliegue multiplataforma.
  • Lenguaje R iml, paquete DALEX: proporciona a los estadísticos herramientas de interpretación que funcionan a la perfección con la ecología de R.
  • Plug-ins de visualización: Plotly Dash, Streamlit pueden generar cuadros de mando explicativos interactivos con un solo clic, reduciendo el umbral de desarrollo front-end.

Tendencias y orientaciones futuras de la inteligencia artificial interpretable

  • Interpretabilidad causal: Acoplamiento profundo de DoWhy, CausalForest con el intérprete para lograr la pregunta y respuesta causal de "Cuánto aumentará la tasa de supervivencia si se cambia el plan de tratamiento".
  • Autointerpretación de grandes modelos: GPT-4, PaLM 2 Interpretación autogenerada del lenguaje natural mediante la cadena de pensamiento, lo que reduce el posprocesamiento manual.
  • Interpretación informática federada y de privacidad: En el entorno de aprendizaje federado y cifrado homomórfico, SecureSHAP y FedLIME se desarrollan para conseguir que "los datos no salgan del dominio, pero la interpretación siga estando disponible".
  • Interpretación ligera en tiempo real: uso de la destilación de conocimientos, la cuantificación y las GPU de borde para comprimir la latencia de la interpretación a milisegundos y permitir la interacción en tiempo real en teléfonos móviles.
  • Co-creación hombre-máquina explicada: la IA colabora con expertos humanos para redactar informes que combinan la precisión de la máquina con el contexto humano para aumentar la credibilidad.
  • Adaptación cultural multilingüe: desarrollo de corpus culturales enchufables para la localización automática de una misma interpretación en contextos de Asia Oriental, América Latina y África.
  • Interpretación ecológica: Investigación sobre algoritmos de interpretación de bajo consumo energético para reducir las emisiones de carbono adicionales de las GPU y hacer realidad un ecosistema de IA "transparente y sostenible".
  • Verificación formal: verificación formal de la lógica interpretada utilizando demostradores de teoremas como TLA+, Coq, etc. para garantizar que la lógica es impecable.
  • Interpretabilidad cuántica: con el auge del aprendizaje automático cuántico, explore métodos para visualizar e interpretar circuitos cuánticos, y trace con antelación las tecnologías de próxima generación.
© declaración de copyright

Puestos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...