Что такое объяснимый искусственный интеллект (ИИ), в одной статье

Ответы ИИОбновлено 4 месяца назад Круг обмена ИИ

22.7K 00

Определение и основные цели интерпретируемого искусственного интеллекта

Объяснимый ИИ (сокращенно XAI) - это набор концепций, методов, технологий и механизмов управления, охватывающих общую программу, цель которой - представить человеку процесс принятия решений и обоснование систем машинного обучения, особенно моделей глубокого обучения, которые часто рассматриваются как "черный ящик", чтобы сделать их прозрачными, понятными, вызывающими сомнения и поддающимися корректировке. Она не только отвечает на вопрос "какой ответ дает модель", но и на вопрос "почему она дает этот ответ, при каких условиях она меняет ответ и насколько достоверен этот ответ".

Основная цель XAI состоит из четырех составляющих: прозрачность, то есть максимальное раскрытие внутренней логики модели; интерпретируемость, то есть перевод сложных математических отношений на понятный человеку язык, графики или примеры; достоверность, то есть уменьшение сомнений пользователя с помощью объяснений и улучшение принятия системы; и дизайн, ориентированный на человека, то есть предоставление пользователям с разным уровнем подготовки доступа к объяснениям, соответствующим их когнитивному уровню. Достоверность, которая уменьшает сомнения пользователей и улучшает принятие системы благодаря объяснениям; и дизайн, ориентированный на человека, который позволяет пользователям разного происхождения иметь доступ к объяснениям, соответствующим их когнитивному уровню, что в конечном итоге способствует "совместному управлению человеком и машиной", а не "диктатуре машины". Как говорится в Белой книге ЕС по искусственному интеллекту, "право на интерпретацию - одно из основных прав человека в цифровую эпоху", и XAI - это технологический мост для реализации этого права.

Методы исследования и техника интерпретируемого искусственного интеллекта

Методы локальной интерпретации: LIME (Local Interpretable Model-agnostic Explanations) выявляет, какие пиксельные, словесные или числовые признаки доминируют в предсказании, путем обучения интерпретируемых линейных моделей вблизи одного образца; SHAP (SHapley Additive exPlanations), с другой стороны, количественно оценивает предельный вклад каждого признака на основе теоретико-игровых значений Шэпли, балансируя между согласованностью и локальной точностью.
Глобальные методы интерпретации: графики частичной зависимости (PDP) и кумулятивных локальных эффектов (ALE) показывают среднее влияние признаков на общую предсказанную тенденцию; глобальные SHAP-полосы позволяют напрямую сравнивать порядок важности различных признаков в полной выборке.
Интерпретируемый дизайн моделей: обобщенные аддитивные модели (GAM), RuleFit и интерпретируемые нейронные сети (например, Prototype Networks) имеют встроенные "разбираемые" структуры на этапе обучения, которые, естественно, легко читаются человеком.
Визуализация внимания и иерархии: веса внимания в Transformer, тепловые карты Grad-CAM в CNN, позволяют исследователям отслеживать "куда смотрит модель" слой за слоем.
Встраивание причинно-следственных связей: использование таких фреймворков, как DoWhy и CausalForest, для объединения причинно-следственных карт с объяснениями, проведения различия между "значимостью характеристик" и "изменением результата после вмешательства", а также предотвращения ложных объяснений.
Объяснение контрфактов: генератор контрфактов дает сравнительные описания, например "Если доход увеличится на 20 000 долларов, кредит будет одобрен", чтобы помочь пользователю быстро понять границы решения.
Символьная дистилляция: сжатие глубоких сетей в удобочитаемые деревья решений или наборы правил, сохраняющие точность и обеспечивающие "печатаемую" логику.
Интерпретация с учетом конфиденциальности: используйте SecureSHAP, FedLIME в федеральной среде для обеспечения интерпретации, несмотря на зашифрованные или фрагментированные данные.

Важность интерпретируемого искусственного интеллекта

Укрепление общественного доверия: когда решения, принимаемые ИИ, касаются кредитования, здравоохранения или правосудия, только показав простым людям "почему", мы сможем устранить "страх черного ящика", который приводит к искреннему принятию и готовности использовать услуги ИИ.
Снижение социального риска: объяснительные механизмы могут выявить предвзятость алгоритмов, недостатки данных или уязвимости моделей на ранней стадии, предотвращая масштабное распространение неверных решений и снижая социальные и экономические потери.
Регулирование и соответствие нормативным требованиям: страны по всему миру прописывают "интерпретируемость" в законах (GDPR, CCPA, китайский закон о защите персональной информации), и продукты, не обладающие интерпретируемостью, не смогут быть представлены на рынке или будут подвергнуты крупным штрафам.
Продвижение справедливости и подотчетности: благодаря прозрачной логике принятия решений жертвы могут доказать факт дискриминации, а разработчики - выявить проблемные связи, чтобы добиться замкнутого цикла управления по принципу "кто ошибся, тот и виноват".
Ускоренная итерация технологий: разработчики могут быстро обнаружить слабые места модели с помощью поясняющей обратной связи, что сокращает цикл от "случаев ошибки" до "обновления модели" и повышает надежность всей системы ИИ.
Возможность обучения цифровой грамотности: ее можно интерпретировать так, чтобы нетехнические пользователи могли понять логику ИИ, и она станет реальным учебным материалом для повышения грамотности в области данных среди всего населения, сокращая "технологический разрыв".

Сценарии применения и отраслевые примеры использования интерпретируемого ИИ

Финансовые кредиты: платформа Ant Group AntShield использует SHAP для интерпретации персональных кредитных баллов и отображения ключевых факторов, таких как "просроченная задолженность" и "коэффициент задолженности", пользователям, которым было отказано в кредите, что привело к снижению количества жалоб на 27%. Количество жалоб снизилось на 27%.
Медицинская визуализация: Tencent Foraging интегрирует Grad-CAM++ в систему обнаружения узелков в легких, выделяя подозрительные участки. Клиническое испытание в третичных больницах показало, что количество пропущенных диагнозов сократилось на 18%.
Автономное вождение: Baidu Apollo отображает облако точек LIDAR и тепловые карты камер на основе "обнаруженного пешеходного перехода" в реальном времени на внутреннем экране тестового автомобиля, повышая эффективность управления офицером безопасности.
Скрининг при приеме на работу: переводчик LinkedIn's Fair Hiring Interpreter объясняет кандидатам, что "отсутствие навыков Python" ведет к отсеву, предоставляет ресурсы для обучения и повышает удовлетворенность кандидатов 221 TP3T.
Интеллектуальные суды: в "ИИ-помощнике по вынесению приговора" Пекинского интернет-суда указаны весовые коэффициенты "количества предыдущих судимостей" и "отношения к раскаянию", которые судьи могут напрямую цитировать при составлении приговора.
Промышленное предиктивное обслуживание: объяснение SHAP от Siemens MindSphere "недостаточной смазки" для "внезапного повышения температуры подшипника" сокращает время ремонта на месте на 351 TP3T.
Точное земледелие: дроны DJI для защиты растений отмечают очаги болезней в интерфейсе идентификации болезней сельскохозяйственных культур, фермеры могут проводить опрыскивание в соответствии с картой, а использование пестицидов сокращается на 20%.
Общественные льготы: штат Калифорния в США использует интерпретируемую модель для предоставления субсидий на аренду жилья, и жители могут ввести свои личные данные на сайте, чтобы увидеть сообщение "Доход ниже медианы района 60%", что является значительным увеличением прозрачности.

Преимущества и ценность интерпретируемого искусственного интеллекта

Повышение доверия пользователей: исследование Microsoft показало, что доверие к услугам искусственного интеллекта выросло с 581 TP3T до 811 TP3T, когда клиенты банка получали объяснимую оценку рисков.
Содействие справедливости и подотчетности: интерпретируемость помогает обнаружить "почтовый индекс" в качестве косвенной переменной для расы, что позволяет своевременно устранить предвзятость и снизить риск соответствия нормативным требованиям.
Сокращение распространения ошибок: врачи могут избежать ошибочного диагноза, исправляя "металлические артефакты" на "переломы" на основе модели обнаружения XAI.
Соответствуйте нормативным требованиям: статья 22 GDPR ЕС, ECOA США и Закон о защите личной информации Китая требуют, чтобы автоматизированные процессы принятия решений предоставляли "значимую информацию".
Поддержка непрерывного совершенствования: разработчики обнаружили аномально высокий вес "возраста" с помощью глобальной интерпретации, вернулись назад, чтобы найти утечку данных, и быстро исправили ее.
Расширение возможностей неспециалистов: визуальные информационные панели позволяют бизнес-менеджерам читать модели без программирования, сокращая цепочку принятия решений.
Укрепление репутации бренда: компании, публично разъясняющие свою отчетность, имеют средний рейтинг "благонадежности" в общественных опросах, который на 15% выше, чем у их аналогов.

Проблемы и ограничения интерпретируемого искусственного интеллекта

Компромисс между точностью и прозрачностью: интерпретируемые модели, как правило, чуть менее точны, чем "черные ящики", и организации сталкиваются с "беспокойством о производительности".
Вычислительные затраты: глубокий SHAP занимает несколько минут в сценарии с миллионом функций, что не может удовлетворить спрос на транзакции в реальном времени.
Разнообразие пользователей: одно и то же объяснение вызывает разное понимание у экспертов и новичков, поэтому его необходимо представлять многослойно.
Атака на противника: злоумышленник строит противные выборки на основе общедоступных объяснений, чтобы модель ошибалась в классификации, хотя объяснения все еще кажутся разумными.
Фрагментация нормативных актов: различные определения "адекватного объяснения" в Европе, США и Азиатско-Тихоокеанском регионе, а также необходимость в многочисленных программах обеспечения соответствия для многонациональных продуктов.
Культурные и языковые различия: китайские идиомы, арабское письмо с правой стороны и т. д. должны быть визуализированы на месте, иначе объяснение не получится.

Технические средства и фреймворки с открытым исходным кодом для интерпретируемого искусственного интеллекта

AI Explainability 360 (IBM): объединяет более десяти алгоритмов, таких как LIME, SHAP, Contrastive Explanations и т. д., и поддерживает Python и R.
Microsoft Interpret: предоставляет интерпретируемую модель Glassbox с интерпретатором Blackbox и встроенной визуализацией Dashboard.
Google What-If Tool: изменение значений функций в TensorBoard с помощью перетаскивания, просмотр прогнозируемых изменений в реальном времени, подходит для демонстрации в процессе обучения.
Captum (PyTorch): поддерживает более 30 алгоритмов интерпретации, таких как Integrated Gradients, DeepLift, Layer Conductance и др.
Alibi (Python): фокус на локальной и контрфактической интерпретации, встроенные CFProto, CounterfactualRL.
InterpretML (Microsoft): объединяет интерпретируемые модели, такие как Explainable Boosting Machine (EBM), с SHAP, предоставляя единый API.
Комбинация Fairlearn + SHAP: сначала определите смещение с помощью Fairlearn, затем найдите признаки, вызывающие смещение, с помощью SHAP.
ONNX Explainable AI: инкапсулирует объясняющие алгоритмы в портативный формат для кроссплатформенного развертывания.
Язык R iml, пакет DALEX: предоставляет статистикам инструменты интерпретации, которые легко работают с экологией R.
Плагины для визуализации: Plotly Dash, Streamlit - позволяют создавать интерактивные поясняющие панели одним щелчком мыши, снижая порог фронтенд-разработки.

Будущие тенденции и направления в интерпретируемом искусственном интеллекте

Каузальная интерпретируемость: глубокое соединение DoWhy, CausalForest с интерпретатором для получения каузального вопроса и ответа на него: "Насколько увеличится выживаемость, если изменить план лечения".
Самоинтерпретация больших моделей: GPT-4, PaLM 2 Самостоятельная интерпретация естественного языка с помощью Chain-of-Thought, сокращающая ручную постобработку.
Федеративное и конфиденциальное вычисление интерпретации: в федеративной среде обучения и гомоморфного шифрования SecureSHAP и FedLIME разработаны для реализации того, что "данные не выходят за пределы домена, но их интерпретация по-прежнему доступна".
Облегченная интерпретация в реальном времени: использование дистилляции знаний, квантификации и граничных GPU для сокращения времени задержки интерпретации до миллисекунд и поддержки взаимодействия в реальном времени на мобильных телефонах.
Совместная работа человека и машины: ИИ сотрудничает с экспертами-людьми для написания отчетов, в которых сочетаются машинная точность и человеческий контекст для повышения достоверности.
Межъязыковая культурная адаптация: разработка подключаемых культурных корпораций для автоматической локализации одного и того же перевода в контекстах Восточной Азии, Латинской Америки и Африки.
Зеленая интерпретация: исследование алгоритмов интерпретации с низким энергопотреблением для снижения дополнительных выбросов углекислого газа от GPU и реализации "прозрачной и устойчивой" экосистемы ИИ.
Формальная верификация: формальная верификация интерпретируемой логики с помощью таких средств доказательства теорем, как TLA+, Coq и т. д., чтобы убедиться в безупречности логики.
Квантовая интерпретируемость: с развитием квантового машинного обучения изучите методы визуализации и интерпретации квантовых схем, а также заложите технологии следующего поколения заранее.