Читать книгу «Убийственные большие данные. Как математика превратилась в оружие массового поражения» онлайн полностью📖 — Кэти О'Нил — MyBook.
image

Здесь мы видим, что модели, несмотря на их кажущуюся непредвзятость, отражают заложенные в них цели и идеологию. Когда я исключала возможность поедания печенья за каждым приемом пищи, я переносила свою идеологию на модель еды. Это то, что все мы делаем машинально, не задумываясь. Наши собственные ценности и желания влияют на наш выбор, от данных, которые мы предпочитаем собирать, до вопросов, которые мы задаем. Модели – это мнения, заключенные в математическую форму.

Работает модель или нет – это также вопрос субъективный. В конце концов, ключевой компонент каждой модели, как формальной, так и неформальной, – это ее критерий успеха. Это важный пункт, к которому мы вернемся, когда будем исследовать темный мир ОМП. В каждом случае мы должны спросить не только о том, кто разработал модель, но также чего именно он пытался достичь. Если правительство Северной Кореи возьмется, например, построить модель для моих семейных ужинов, то эта модель, вероятно, будет оптимизирована таким образом, чтобы держать нас чуть выше порога полного истощения, минимизируя при этом затраты и число доступных ингредиентов. Понятно, что наши личные предпочтения при этом будут значить мало или вообще ничего. С другой стороны, если бы эту модель составляли мои дети, то критерием ее успешности стало бы мороженое на завтрак, обед и ужин. Моя собственная модель пытается объединить северокорейское управление ресурсами и благополучие моих детей, а также мои собственные представления о здоровье, удобстве, разнообразии и экологичности. В результате она оказывается более сложной, но все еще отражает мою личную реальность. А модель, построенная в соответствии с сегодняшним днем, завтра будет работать еще хуже. Если ее постоянно не обновлять, она застынет и устареет. Цены меняются, предпочтения растущих детей тоже. Модель, построенная для шестилетки, не сработает для подростка.

То же самое верно и для внутренних моделей. Вы часто можете видеть, как возникают проблемы у дедушек и бабушек, которые навещают давно не виденную ими внучку. Во время предыдущего визита они собрали информацию о том, что она знает и умеет, что вызывает у нее смех, какие телепередачи она любит, – и (подсознательно) построили модель под эту конкретную четырехлетнюю девочку. Однако во время следующей встречи через год они могут столкнуться с неловкой ситуацией из-за того, что их модель устарела. Например, ей больше не нравится Паровозик Томас. Потребуется время, чтобы собрать новую информацию о внучке и перенастроить модель.

Это не означает, что хорошие модели не могут быть простыми. Некоторые очень эффективные модели основываются на единственной переменной. Самая распространенная модель по обнаружению пожара в доме или офисе, например, учитывает единственный, зато непосредственно имеющий отношение к проблеме фактор – наличие дыма. Обычно этого достаточно. Но создатели моделей сталкиваются с проблемами – или сталкивают нас с этими проблемами, – когда они проецируют такие простые модели, как пожарная сигнализация, на людей.

Расизм на индивидуальном уровне может рассматриваться как предиктивная модель, распространившаяся в сознании миллиардов людей по всему миру. Она основана на ошибочной, неполной или обобщенной информации. Информация, основанная на опыте или рассказах других людей, указывает на то, что определенные люди плохо себя ведут. Это приводит к упрощенному предсказанию, что все люди той или иной расы будут вести себя таким же образом.

Нет нужды говорить, что расисты не тратят время на то, чтобы собрать надежную информацию и протестировать свои искаженные модели. Как только их модель превращается в убеждение, она становится прошивкой мозга. Она генерирует допущения, однако редко их тестирует, вместо этого подыскивая информацию, которая, как кажется расисту, их подтверждает и подпитывает. Вследствие этого расизм представляется самой неряшливой из предиктивных моделей. Он основан на небрежном сборе информации и ложных корреляциях, он усилен институциональным неравенством и загрязнен предвзятостью подтверждения. Но как это ни странно, расизм действует так же, как многие из видов оружия математического поражения, которые я буду описывать в этой книге.

В 1997 году афроамериканец Дуэйн Бак, признанный виновным в убийстве двух человек, предстал перед судьей округа Харрис, штат Техас. Судья должен был решить, приговорить преступника к смерти или к пожизненному заключению (во втором случае оставалась теоретическая возможность условно-досрочного освобождения). Прокурор настаивал на смертном приговоре, утверждая, что, если Бак когда-нибудь выйдет на свободу, он может убить снова. Адвокат Бака, со своей стороны, пригласил эксперта-психолога Уолтера Кихано, специалиста по рецидивам среди бывших заключенных. В ходе перекрестного допроса Кихано упомянул расовую принадлежность Бака, и прокурор тут же уцепилась за это:

– То есть вам удалось установить, что… что расовый фактор, принадлежность к черной расе, по различным сложным причинам увеличивает потенциальную опасность человека в будущем, правильно? – спросила она.

– Правильно, – ответил Кихано.

Прокурор подчеркнула этот факт в своей заключительной речи – и Дуэйн Бак был приговорен к смерти.

Через три года главный прокурор штата Техас Джон Корвин обнаружил, что психолог Уолтер Кихано дал подобные (основанные на расовой принадлежности) заключения в шести других случаях, когда речь шла о высшей мере наказания. Большую часть из них – выступая на стороне обвинения. Корвин, который тогда готовился к выборам в Сенат 2002 года, приказал провести повторные слушания для семи осужденных, запретив упоминать в суде их расовую принадлежность. В соответствующем пресс-релизе он писал:

Совершенно непозволительно учитывать расовую принадлежность как фактор в нашей системе правосудия… Техасцы заслуживают системы, которая обеспечивает справедливое отношение для каждого человека, – и они должны получить такую систему.

Дела шестерых осужденных были рассмотрены заново, однако все смертные приговоры были оставлены в силе: суд счел, что показания Кихано ни в одном случае не были решающими. Седьмой осужденный – Дуэйн Бак – не получил нового слушания: возможно, из-за того, что в данном случае расовый фактор выдвинул свидетель защиты. Бак все еще находится в камере смертников[2].

Независимо от того, насколько важен расовый фактор в обстоятельствах судебного дела, он уже довольно давно представляет собой основной фактор в вынесении приговора. Исследование Мэрилендского университета продемонстрировало, что в техасском округе Харрис, в который входит и город Хьюстон, прокуроры в три раза чаще требуют смертного приговора для афроамериканцев и в четыре раза чаще – для американцев латиноамериканского происхождения, чем для белых, которых судят за аналогичные преступления. И такое происходит не только в Техасе. В соответствии с данными Американского союза защиты гражданских свобод, судебные сроки, которые назначаются черным мужчинам в федеральной системе, на 20 % длиннее, чем сроки белых, осужденных за схожие преступления. И хотя афроамериканцы составляют всего 13 % населения США, они заполняют 40 % тюремных камер.

По-видимому, можно предположить, что математическая модель оценки рисков рецидива может уменьшить влияние человеческих предубеждений при вынесении приговоров и повлечет более справедливое отношение к подсудимым. В надежде на это суды двадцати четырех штатов стали использовать так называемые модели вероятности рецидива (recidivism models). Эти модели помогают судьям более адекватно оценить опасность, которую может представлять в будущем тот или иной осужденный. И по многим меркам такие модели – шаг вперед. Благодаря им приговоры стали более логичными и меньше подвержены настроению и предвзятости судей. К тому же эти модели экономят деньги, сокращая среднестатистический тюремный срок (на содержание одного заключенного уходит в среднем 31 000 долларов в год, а в «дорогих» штатах вроде Нью-Йорка и Коннектикута эта сумма вдвое выше).

Главный вопрос тут, однако, вот какой: в самом ли деле мы исключили фактор человеческой предвзятости или просто замаскировали его? Новые модели вероятности рецидива сложны и основаны на математике. Однако данные внутри этих моделей – целый букет допущений, причем некоторые из них основаны на предубеждениях. И если показания Уолтера Кихано были официально зафиксированы, так что их позже можно было вновь прослушать и обжаловать в суде, то принцип работы модели запрятан в алгоритмах, в которых могут разобраться лишь единичные специалисты.

Одна из самых популярных моделей, известная как Переработанная оценка уголовно-исправительной инспекции (Level of Service Inventory-Revised, LSI-R), включает в себя длинную анкету, которую должны заполнить заключенные. Один из вопросов – «Сколько предыдущих судимостей у вас было?» – имеет непосредственное отношение к риску рецидива. Некоторые другие также близко связаны с темой: «Какую роль другие люди играли в правонарушении? Какую роль играли алкоголь и наркотики?»

Но дальнейшие вопросы все больше углубляются в частную жизнь человека – и тут уже легко представить себе, как заключенные из привилегированных слоев будут отвечать одним образом, а жители криминогенных районов – совсем другим. Спросите у преступника, который вырос в престижном пригороде: «Когда вы впервые столкнулись с полицией?» – и скорее всего, окажется, что у него не было ни одного такого столкновения вплоть до того случая, который и привел его в тюрьму. Однако молодого афроамериканца полиция с высокой долей вероятности останавливала десятки раз, даже когда он не делал ничего противозаконного. Исследование Нью-Йоркского союза гражданских свобод продемонстрировало, что, хотя афроамериканцы и латиноамериканцы составляют всего 4,7 процента населения города, в 40,6 процента случаев остановке и обыску полицией подвергаются именно они. Более 90 % осмотренных таким образом оказывались невиновными. Какой-то процент из оставшихся составляют пьяные подростки или подростки, у которых нашли одну сигарету с марихуаной. Причем, в отличие от большинства богатых подростков, которые оказались бы в этой ситуации, у афроамериканцев и латиноамериканцев в этом случае начинаются неприятности. Поэтому, если ранняя встреча с полицией свидетельствует о повышенной вероятности рецидива, то получается, что выходцы из бедных кварталов и представители расовых меньшинств автоматически зачисляются в группу риска.

Вопросы анкеты на этом не заканчиваются. Заключенных спрашивают, есть ли судимости у их друзей и родственников. И снова: задайте такой вопрос преступнику, который вырос в квартале среднего класса, – с большой долей вероятности ответ будет отрицательным. Опросник действительно избегает вопросов о расе – они незаконны. Но, учитывая степень подробности, с которой каждый заключенный рассказывает о своей жизни, этот единственный незаконный вопрос практически оказывается ненужным.

Анкету LSI-R, разработанную в 1995 году, с тех пор заполнили тысячи заключенных. Специалисты по статистике использовали эти результаты, чтобы построить систему, в которой ответы, имеющие непосредственное отношение к риску рецидива, имели бы больший вес и добавляли больше баллов. После сдачи анкеты осужденные распределяются по категориям высокого, среднего и низкого риска на основе полученных ими баллов. В некоторых штатах, таких как Род-Айленд, эти тесты используются, только чтобы направить осужденных с высоким риском на программы профилактики рецидива во время отбывания тюремного срока. Но в других штатах, в том числе Айдахо и Колорадо, судьи используют эти результаты и при вынесении приговора.

Это несправедливо. Опросник включает обстоятельства рождения и воспитания преступника, данные о его или ее семье, окружении и друзьях. Но подобные детали не должны иметь отношения к уголовному делу или к приговору. В самом деле, если бы прокурор попытался очернить подзащитного, упомянув количество судимостей его брата или уровень преступности в районе, где он живет, адвокат бы тут же воскликнул: «Возражаю, ваша честь!» И разумный судья принял бы это возражение. Таковы основы нашей правовой системы. Нас судят за то, что мы делаем, а не за наше происхождение. И хотя мы не знаем, сколько именно баллов добавляют эти пункты анкет, любое значение, отличное от нуля, несправедливо.

Многие скажут, что статистические системы, подобные LSI-R, все же достаточно эффективны в оценке вероятности рецидива – по крайней мере, они более точны, чем интуитивные предположения того или иного судьи. Но даже если мы отложим в сторону, совсем ненадолго, серьезнейшую проблему справедливости, мы обнаружим, что соскальзываем в губительную петлю обратной связи ОМП. Осужденный с «высоким риском», скорее всего, окажется в прошлом безработным выходцем из района, в котором многие его родственники и друзья имели столкновения с законом. Отчасти из-за большого количества баллов, набранного в ходе заполнения анкеты, он получает более длительный тюремный срок, который закроет его на большее количество лет в тюрьме в окружении таких же преступников, как он, – что повышает вероятность его возвращения в тюрьму. В конце концов его выпускают на свободу, и он возвращается все в тот же бедный район, но на этот раз с судимостью, которая еще больше затруднит ему получение работы. Если он совершит еще одно преступление, модель оценки риска рецидива может объявить об очередном своем успехе. Но на самом деле это сама модель вносит вклад в токсичный цикл и помогает его поддерживать. Это ключевое свойство оружия математического поражения.