Локальные интерпретируемые модельно-независимые объяснения, – один из ведущих алгоритмов, использующих парадигму важности локальных признаков, стремится «объяснить поведение любого классификатора или регрессора верным образом, аппроксимируя его локально с помощью интерпретируемой модели… представляя текстовые или визуальные артефакты, которые обеспечивают качественное понимание взаимосвязи между компонентами экземпляра (например, словами в тексте, пятнами на изображении) и прогнозом модели». Такой подход может помочь разработчикам понять, как изменения в отдельных признаках могут повлиять на выходные данные модели вокруг конкретного прогноза. В той степени, в которой эти выводы обобщают и основаны на значимых признаках, они могут помочь разработчикам сделать вывод о причинно-следственных механизмах модели; однако эти подходы также могут ввести в заблуждение, если они становятся подверженными ложным корреляциям. Этот классификатор, по-видимому, фокусируется на свойствах автора (например, на том факте, что он является выходцем из академического учреждения, на что указывает .edu в его адресе электронной почты) и конкретных стилометрических характеристиках (например, использование слов «иметь» и «там»), а не на словах, которые могут указывать на содержание.

При этом данный подход обращает внимание пользователей на конкретные функции, которые модель использует для создания конкретного прогноза, тем самым связывая конкретный выход с упрощенным представлением модели, которая сгенерировала этот результат. Например, классификатор, разработанный для определения разницы между волками и лайками, классифицировал конкретное изображение на основе наличия снега на заднем плане (а не на основе анатомических особенностей, которые на самом деле отличают эти два вида). Специалист по обработке и анализу данных, обладающий соответствующими знаниями в предметной области, сможет использовать эту информацию для изменения или иной отладки этой ошибочной классификации.

Таким образом, этот процесс имеет некоторое сходство с представленным выше определением объяснения, однако есть и важные отличия. Во-первых, описанный метод не предоставляет пользователю объяснение модели как таковой, а скорее предоставляет пользователям упрощенную модель, которая приближается к более сложной модели, которую пытается объяснить алгоритм. По сути, этот метод заменяет сложное, причинно-следственное описание внутренней работы модели более простым описанием другой модели, результаты которой коррелируют только с исходной моделью. Например, не предоставляя никакой информации о том, что нарисован, волк или хаски, классификатор будет делать точные прогнозы на изображениях, на фоне которых нет снега.

Авторы этого подхода утверждают, что упрощенные модели (например, регрессионные модели с небольшим числом коэффициентов) по своей сути более интерпретируемы, потому что они «обеспечивают качественное понимание между входными переменными и реакцией». Хотя эта цель в целом согласуется с определением сути в теории нечетких следов, при обучении фиксирует мнение эксперта о том, какие признаки с наибольшей вероятностью следует обобщать. Такие методы, могут помочь людям в создании этих представлений, и действительно, предварительные эксперименты, по-видимому, предполагают, что люди могут использовать эти методы для удаления признаков, которые мешают точности прогнозирования, т.е. они могут создать лучший классификатор, и что небольшая выборка людей с опытом в области науки о данных (и, в частности, знакомство с концепцией ложной корреляции) могли бы использовать ограниченные знания для получения более точных объяснений.

Другой подход исходит из предпосылки, что «лучшим объяснением простой модели является сама модель», и поэтому пытается представить сложные модели с помощью более простых моделей. Таким образом возвращая оценки важности для каждого объекта, которые аналогичны коэффициентам регрессии. Для данного прогноза оценки показывают, в какой степени любая из этих функций повлияла на этот прогноз.

Хотя и с возможностью обобщения на более крупный класс моделей машинного обучения. Эти модели являются дословными в самом конкретном смысле – они выводят набор правил (оценки важности признаков), которые могут быть применены в механическом порядке для создания постфактум описания желаемого прогноза. Однако они не связывают причинно-следственные механизмы и подвержены неизвестным ошибкам, поскольку модель применяется за пределами локальной окрестности конкретного прогноза. Отдельные люди, являющиеся субъектами исследования, такие как информированные специалисты, которые имеют желание и возможность глубоко изучить эти результаты, могут использовать свои собственные базовые знания для создания объяснения, но это не предоставляет достаточно информации, чтобы помочь этим специалистам выяснить, когда модель больше не применима. По сути, методы предоставляют пользователям только стимул, который они затем должны объяснить или интерпретировать, в то время как настоящие модели «черного ящика» даже не предоставляют этого стимула.

В то время как разные подходы стремятся объяснить сложные модели с помощью регрессионной парадигмы (т.е. линейной аддитивной функции), объяснимые нейронные сети используют более общую формулировку, основанную на «аддитивной модели индекса». Здесь алгоритм стремится вернуть функцию, описывающую, как прогнозы модели изменяются при изменении отдельных параметров (или, в последнее время, пар параметров). Эти модели могут помочь специалистам по обработке и анализу данных при соответствующем обучении понять, как изменение конкретного признака может изменить прогноз модели, хотя и с риском вывода о ложных корреляциях. Эти подходы особенно широко применяются к моделям глубоких нейронных сетей, в которых одна нейронная сеть используется для упрощенного представления другой, а затем отображается в виде таблицы, аналогичной дисперсионному анализу, показывающей основные эффекты и, в некоторых случаях, двусторонние взаимодействия.

Тем не менее, описанный подход не лишен ограничений: объяснения, которые аналитики могут сделать из применения этих инструментов, могут сами по себе основываться на ложных корреляциях или могут порождать ложную уверенность в предсказаниях моделей, выходящих за рамки непосредственной окрестности точки данных, которую модель пытается объяснить. Хуже того, эти вводящие в заблуждение объяснения могут быть сфабрикованы противниками, стремящимися извлечь выгоду из склонности людей приписывать причинно-следственную связь там, где ее нет.

Градиентно-взвешенное отображение активации классов – это метод, предназначенный для объяснения моделей компьютерного зрения, использующих архитектуры глубокого обучения (в частности, сверточные нейронные сети – в настоящее время самая современная архитектура для компьютерного зрения). В частности, метод «использует градиенты любого целевого понятия (скажем, «собака» в сети классификации или последовательности слов в сети подписей), перетекающих в конечный сверточный слой, для создания грубой карты локализации, выделяющей важные области изображения для прогнозирования понятия». Метод использует преимущества многоуровневой архитектуры для определения тех областей изображения, которые наиболее диагностически для конкретного прогноза. Например, выходные данные могут привлечь внимание пользователя к той части изображения, которая является диагностической для конкретного прогноза, который пользователь хочет объяснить. Это визуальная версия парадигмы важности признаков, где признаки представляют собой ансамбли определенных пикселей с несколькими соответствующими преимуществами и ограничениями.

Рудин подверг резкой критике методы, направленные на создание простых объяснений сложных моделей, утверждая, что они могут запутать фактическую внутреннюю работу этих моделей таким образом, что это введет в заблуждение лиц, принимающих решения, и аналитиков. Модели, которые являются локально точными, не предоставляют информации о степени этой точности или о том, является ли ее снижение плавным или внезапным. Вместо того, чтобы пытаться аппроксимировать более сложные модели более простыми, Рудин утверждает, что более простые модели следует использовать напрямую, потому что они более «интерпретируемы» (т.е. учеными данных), особенно когда ставки высоки. Обоснование этого подхода заключается в том, что специалисты по обработке и анализу данных, по крайней мере, могут понять внутреннюю работу модели.

Масштабируемые байесовские списки правил. Списки байесовских правил Скалабале являются одним из примеров метода, направленного на то, чтобы избежать усложнения модели. В отличие от описанных выше методов, которые стремятся обеспечить непрерывное представление сложных моделей, масштабируемые байесовские списки правил явно не пытаются конкурировать с классификаторами «черного ящика», такими как нейронные сети, методы опорных векторов, градиентный бустинг или случайные леса. Это полезно, когда инструменты машинного обучения используются в качестве помощи в принятии решений людям, которым необходимо понимать модель, чтобы доверять ей и принимать решения на основе данных». Таким образом, модель как правило не нацелены на достижение высокой точности прогнозирования и объяснимости; скорее, они стремятся предоставить набор упрощенных (дословно) вероятностных правил, которые могут быть использованы для разбиения данных.

Один из подходов, который может ответить на критику Рудина, основан на использовании обобщенных аддитивных моделей с парными взаимодействиями – класса моделей, которые ограничивают «вклад одного признака в итоговый прогноз», чтобы он зависел только от этого признака. Цель этих моделей состоит в том, чтобы отделить каждый признак от всех других признаков таким образом, чтобы их можно было оценивать независимо друг от друга.

В первую очередь корреляционный характер и может помочь экспертам в предметной области выбрать особенности – например, авторы модели отмечают, что риск повторной госпитализации пневмонии снижается, а не увеличивается при астме – парадоксальный вывод. Эта модель выявляет этот вывод. Тем не менее, эксперты в предметной области должны затем объяснить этот вывод следующим образом: пациенты с астмой в анамнезе, у которых была пневмония, обычно госпитализировались не только в больницу, но и непосредственно в отделение интенсивной терапии. Хорошая новость заключается в том, что агрессивная помощь, которую получали пациенты с астматической пневмонией, была настолько эффективной, что снижала риск смерти от пневмонии по сравнению с населением в целом. Плохая новость заключается в том, что, поскольку прогноз для этих пациентов лучше среднего, модели, обученные на данных, неверно узнают, что астма снижает риск, тогда как на самом деле риск астматиков гораздо выше (если они не госпитализированы).

Приведенное выше обсуждение показывает, что эти опасения относятся к объяснимости, где цель состоит в том, чтобы помочь специалисту по обработке и анализу данных понять, как работает модель, но могут быть менее применимы к интерпретируемости, где цель в основном состоит в том, чтобы помочь лицу, принимающему решение, связать выходные данные модели со значимым различием, которое позволит ему использовать свои ценности. цели и предпочтения для выбора. В частности, приведенное выше объяснение может помочь пользователю отладить модель или даже решить, стоит ли доверять модели; тем не менее, он может не предоставлять пользователю в явном виде значимую информацию, которая может помочь ему принять окончательное решение о лечении.

Монотонно ограниченные градиентные бустинговые машины стремятся использовать ансамбль «слабых учеников», т.е. моделей с низкой прогностической точностью, для совместного составления точных прогнозов. Такой подход приводит к значительному улучшению возможностей прогнозирования за счет усложнения модели. Чтобы справиться с этой сложностью, монотонно ограниченные градиентно-бустящие машины накладывают ограничение, согласно которому любой данный элемент в модели должен иметь монотонную связь с выходом. Предполагается, что это повышает объяснимость, потому что эти монотонные отношения ограничивают отношения между признаками и предсказаниями, чтобы иметь четкие качественные направления – увеличение признака должно постоянно приводить либо к увеличению, либо к уменьшению точности предсказания. Как и выше, эти модели предполагают, что более простые функциональные формы по своей сути более объяснимы. Однако эти модели в их нынешнем виде могут просто применять форму регуляризации, которая не обязательно основана на знании предметной области. Монотонность может быть уместна в некоторых случаях, например, в кривой «доза-реакция», но не в других, например, при моделировании волн или другого синусоидального поведения. Знание предметной области требуется для определения того, являются ли подходящими ограничения монотонности или любые другие ограничения. При отсутствии знаний в этой области применение таких ограничений действительно может упростить модель, но может сделать это вводящим в заблуждение образом, что может способствовать выводу неправильных объяснений.

Вообще говоря, предположение о том, что упрощенные модели по своей природе интерпретируемы, предполагает некоторую степень знания предметной области со стороны пользователей моделей, т.е. что они обладают достаточным опытом в науке о данных, чтобы разобраться в линейных моделях, деревьях решений, списках правил и т. д. Кроме того, эти «интерпретируемые» модели могут не предоставлять пользователям достаточного контекста для применения их ценностей, целей и принципов для принятия решений. Эти методы действительно дословны в том смысле, что они предоставляют правило, но не дают представления о фактическом механизме алгоритма. Они обеспечивают корреляцию, но не причинно-следственную связь. Тем не менее, они могут помочь профильным экспертам или специалистам по обработке и анализу данных сделать вывод о причинно-следственной связи. Эти методы могут побудить экспертов, обладающих соответствующими базовыми знаниями, более глубоко изучить механизмы, с помощью которых была произведена конкретная классификация, хотя, и не делая эти механизмы явными. Таким образом, технический эксперт, возможно, может использовать свои базовые знания о типе алгоритма, используемого для вывода причинно-следственной связи из этих инструментов. Это может позволить им построить объяснение таким же образом, как присяжный или читатель могут сделать вывод о связной структуре из связного текста. Однако, в конечном счете, именно человек приписывает объяснение выходным данным модели. Описанные выше методы не обеспечивают явного представления причинно-следственных механизмов или взаимодействия с ценностями, целями или предпочтениями пользователей. Скорее, они должны полагаться на базовые знания человека для своей полезности. Таким образом, эти модели предполагают большую часть работы наблюдателя, включая потенциально значимые знания в предметной области относительно значения технических терминов (таких как «гематокрит» в примере с диагнозом пневмонии), способность различать непрерывные и дискретные переменные и т. д. Аналогичным образом, субъекты должны обладать обширными знаниями в предметной области, чтобы быть в состоянии распознать, например, что предыдущий анамнез астмы не должен быть связан с более низким риском пневмонии. Таким образом, модель сама по себе не может быть интерпретирована или объяснена в том смысле, в каком психологи понимают эти термины, но может помочь пользователям, обладающим соответствующими базовыми знаниями и готовностью к исследованию, сделать более значимые и точные выводы.

Поскольку эти модели являются корреляционными по своей природе, они могут быть подвержены ложным ассоциациям. Действительно, в социальных науках уже давно признано, что идентификация значимой структуры в данных (например, из-за корреляции или регрессии) является лишь первым шагом в вменении причинного механизма и при отсутствии контрфакта (например, экспериментальной контрольной группы) не может быть использована для выдвижения каузальных утверждений.

Таким образом, подходы, упрощающие сложные модели путем сведения их к набору монотонных отношений, могут ввести пользователей в заблуждение, заставив их приписывать причинно-следственный механизм в рамках модели там, где его нет. Эта проблема не ограничивается вычислительными системами, а является общей особенностью сложной инженерной системы с множеством взаимодействующих частей. Таким образом, будущая работа в области объяснимого искусственного интеллекта может быть продуктивно сосредоточена на том, как помочь специалистам по обработке и анализу данных и экспертам в предметной области точно вменять причинно-следственные связи, избегая при этом выводов, основанных на ложной корреляции.

В целом, описанные выше подходы направлены на повышение объяснимости, помогая пользователям понять, как изменения в конкретном признаке могут повлиять на выходные данные модели. Несмотря на то, что теоретически они повышают объяснимость, когда специалист по обработке и анализу данных может использовать их для вывода причинно-следственных механизмов о том, как работает алгоритм, эти методы могут быть менее эффективными для установления интерпретируемости, т.е. значения в контексте для конечного пользователя. В то время как разработчикам необходимо знать, как работает система, чтобы они могли выявлять недостатки в ее реализации и исправлять их, представителям общественности или экспертам из других областей, как правило, не хватает глубокой технической подготовки и опыта специалистов по информатике. Например, иммиграционный адвокат может захотеть узнать о юридических последствиях алгоритма рассмотрения визы, а финансовый аналитик может захотеть узнать о финансовых последствиях алгоритма кредитного рейтинга. Часто эти пользователи просто предполагают, что алгоритм был реализован правильно, и что обучающие данные были достаточно репрезентативными. Наконец, соискатели работы/визы/кредита, естественно, захотят знать стандарты, по которым их оценивают, и конкурентоспособны ли они для конкретной должности. Эти пользователи должны знать, почему система сгенерировала свой результат. То есть они стремятся придать смысл выходным данным модели таким образом, чтобы они могли контекстуализировать их в терминах, которые имеют для них значение.

В некоторых случаях графические пользовательские интерфейсы, такие как инструмент «Что, если» от Google, могут быть объединены с выходными данными модели, чтобы помочь пользователям с ограниченными знаниями в области счета или статистики «понять суть». Например, существует множество работ в области принятия медицинских решений, изучающих индивидуальные различия в уровне грамотности персонала и методы, которые могут быть использованы для преодоления этих различий для передачи сути сложной медицинской информации. Тем не менее, дизайнеры должны позаботиться о том, чтобы не предполагать, что графический формат обязательно более интерпретируем. Скорее, графический вывод должен быть контекстуализирован соответствующими представлениями базовых ставок, пороговых значений и других индикаторов значимых категориальных различий, которые во многих случаях могут потребоваться получить от пользователей. В конечном счете, машинные интерпретации должны быть контекстуализированы с точки зрения фоновых знаний и целей, а также адаптированы к индивидуальным различиям, если они хотят быть эффективными.

...

3 4 5

...

Стандарт

(0 оценок)