Камень ломает ножницы. Как перехитрить кого угодно: практическое руководство Паундстоун Уильям
Как предсказывать в карточных играх
Карточный игрок прежде всего учится хранить тайну. Вот почему рубашки карт незамысловаты с виду и, играя, мы прижимаем карты к груди. Кроме того, стремимся сделать свой следующий ход непредсказуемым. Но получается ли?
Барри О’Нил попытался ответить на этот вопрос с помощью эксперимента, выполненного в Северо-Западном университете. Он изобрел простую игру, в которой участвуют два игрока с одинаковым набором из четырех карт: туз, 2, 3 и джокер. Каждый выбирает одну карту и выкладывает на стол рубашкой вверх. Затем карты открывают. Игрок А выигрывает, если обе карты джокеры или разные (например, 2 и 3). В противном случае выигрывает игрок Б. Проигравший в каждом раунде платит победителю пять центов.
Эта игра была умышленно сделана непохожей на привычные. О’Нил хотел проверить, насколько хорошую стратегию абсолютно незнакомой игры станут разрабатывать игроки. И они прекрасно справились. Идеальная стратегия – случайно в 40 процентах случаев выкладывать джокера и в 20 процентах случаев – любую из остальных карт. Игроки выкладывали джокера в 39,4 процента случаев. Просто невероятно, если учесть, что они руководствовались только инстинктом. У них не было возможности просчитать, как лучше, и они, наверное, даже не знали, как это сделать.
Серьезных ошибок обнаружилось две. Во-первых, игроки слишком часто отдавали предпочтение тузам – в 22,3 процента случаев. Вторая ошибка – слишком частое чередование карт. Числовая карта должна следовать за джокером в 60 процентах случаев. В реальности это наблюдалось чаще. Игроки не хотели выкладывать джокера два или три раза подряд. Особенно часто они меняли выигравшую карту.
Более глубокий анализ показывает, что игра О’Нила может многое сказать о разработке стратегии в покере, бридже и других играх. Большинство самых важных решений в покере связаны с вопросом, стоит ли блефовать (делать ставку при слабых картах). Если блефующему повезет, остальные игроки не захотят ответить, и он сорвет банк, не раскрывая карт.
Для блефа существует математическая формула. Вероятность блефа оценивается как рэйз/банк. В данном случае рэйз – величина, на которую вы поднимаете ставку в случае блефа. Она может быть ограничена правилами, нормами общественного поведения и количеством денег в вашем кошельке. Банк – сумма выигрыша после того, как вы подняли ставку, и ваш противник (противники) ответил.
Пример. В данный момент банк составляет $100. Вы делаете агрессивный ход, повышая ставку на $100. В игре остался всего один игрок. Если вы добавляете $100 и ваш соперник отвечает, то в банке окажется $300. Тогда, согласно формуле, вероятность блефа составляет $100/$300, или 1:3. Это гарантирует, что вероятность выигрыша $300 у игрока, отвечающего на вашу ставку, составляет 1/3 (в среднем $100). Но поскольку поддержать ставку стоит $100, ваш противник всего лишь останется при своих. Он не может рассчитывать на прибыль (из вашего кармана!).
Хорошие игроки все это знают, но даже самым лучшим не всегда удается составить подходящую случайную последовательность блефов и фолдов[11]. Случайное решение в принципе осуществить непросто, но данная ситуация осложняется тем, что выбор между блефом и фолдом игрок делает только в случае плохой карты. Кроме того, способность перехитрить противников ограничивается неполнотой информации об игре. Когда противники выигрывают, не раскрывая карты, невозможно определить, блефовали они или нет.
В целом карточные игроки избегают последовательности одинаковых действий. При игре в покер новички опасаются быть пойманными на блефе и редко прибегают к нему два раза подряд. Более опытные иногда блефуют два или три раза кряду. Однако после двух раз подряд большинство испытывает желание сбросить слабые карты, особенно если это происходит сразу после неудавшегося блефа.
Игрок, не раскрывавший карты и выигравший несколько раз подряд, мог в некоторых случаях блефовать. Когда игроки идут на риск и выигрывают, то в следующий раз обычно меняют тактику. Они не хотят «жадничать» и предпочитают не рисковать. Когда выигрывающий снова поднимает ставку, скорее всего, он не блефует, и у него сильная карта.
Полезно обратиться за помощью к какому-нибудь устройству. Я уже упоминал о возможности использования наручных часов. Нет нужды говорить, что если вы будете смотреть на часы только в том случае, если к вам пришла плохая карта, это лучшая подсказка соперникам. Вы должны смотреть на часы (незаметно) при каждой раздаче.
Посмотрите, где находится секундная стрелка, описывающая круг по циферблату – с учетом установленных вами соотношений. Допустим, при этой раздаче вы намерены блефовать с 33-процентной вероятностью. Если секундная стрелка находится в первых 33 процентах цикла (между 12 и 4), вы блефуете.
Альтернативный вариант: масти или значение карт в качестве фактора, определяющего дальнейшие действия. Посмотрите на крайнюю левую карту в руке. Она может иметь значение от 1 (туз) до 10. Умножьте на десять, чтобы получить число от 10 до 100. Блефуйте только в том случае, если результат не превышает установленные проценты. При 33 процентах блефа вы будете блефовать, если крайняя левая карта окажется тузом, 2 или 3. Это менее точно, однако не может служить подсказкой противнику.
Одину классическую покерную подсказку следует знать всем, кто пытается угадать карты противника: расширение зрачков. Когда игрок вытягивает желаемую карту, зрачки расширяются. Это не выдумка, а экспериментально установленный факт, и его можно использовать, чтобы угадать чужие мысли. Известен такой карточный фокус: исполнитель показывает одному из зрителей даму червей и говорит, что она олицетворяет деньги или секс (эффективно и то, и другое). Затем доброволец по одной начинает вытаскивать карты из перетасованной колоды. Умеющий читать по значкам способен заметить тот момент, когда из колоды извлекается дама червей – в этот момент зрачки добровольца расширяются.
Одним из первых читать по зрачкам научился психолог Экхард Гесс. Приблизительно в 1960 г. он провел эксперимент с фотографиями. На всех были пейзажи, и только на одной – привлекательная женщина. Гесс тасовал снимки и по очереди показывал своему помощнику-мужчине. На седьмой фотографии зрачки помощника внезапно расширились. Это был снимок красотки.
Зрачки могут выдавать правду, даже когда губы лгут. В разгар президентской кампании 1964 г. Гесс показал студентам и преподавателям Чикагского университета фотографии президента-демократа Линдона Джонсона и претендента на этот пост от республиканской партии Барри Голдуотера. Все сказали, что предпочитают либерала Джонсона крайне правому Голдуотеру. Однако Гесс обнаружил, что примерно у трети людей наблюдалась положительная реакция зрачков именно на Голдуотера, а не на Джонсона. Гесс предположил «интересную вероятность… что в либеральной атмосфере университета этим людям было неловко проявлять симпатии к Голдуотеру».
Чтать по зрачкам научишься запросто, но во время сдачи карт нужно смотреть прямо в глаза сопернику. Сдача происходит достаточно быстро, и вы следите за картами, а не за абсолютным размером зрачков (который может меняться в зависимости от освещения и приема лекарств). Типичная положительная реакция – 10-процентное увеличение диаметра обоих зрачков (20 процентов увеличения площади). Невезение может привести к сужению зрачков. Выглядит это приблизительно так (близко к натуральной величине):
Размер зрачка меняется примерно через полсекунды после того, как игрок видит судьбоносную карту. Неудивительно, что некоторые серьезные игроки используют темные очки как защиту.
• Когда игроки в карты случайно принимают важные решения, они избегают повторения. Игрок, только что сделавший блеф-ставку, вряд ли будет блефовать, когда ему в следующий раз придет плохая карта.
• Можно использовать наручные часы, только смотреть на них необходимо при каждой сдаче.
• Игрок, умеющий читать по зрачкам, способен сказать, пришла ли вам нужная карта (если сможет увидеть ваши глаза).
9
Как защитить пароль
Вам не приходилось тратить время на подозрительном сайте, который обещает раскрыть, например, ваше клингонское имя?[12] Некоторые служат прикрытием для сбора паролей. Они просят предоставить личные данные и предлагают придумать пароль. Мошенники знают: придуманный вами пароль, скорее всего, похож на те, которые вы используете для других целей, и могут продавать на черном рынке собранные пароли по 20 долларов за штуку.
Все пароли – это ключи к вашему дому. Замки бывают крепкими и не очень, но никакой замок не спасет, если карманник вытащил у вас ключ. Безопасность – всегда самое слабое звено.
Большинство тех, что ворует личные данные, не дают себе труда изобретать какие-то трюки. Они просто срывают низко висящий плод: пароли угадать легче всего. В одном из последних исследований было показано, что 1 процент паролей разгадывается за четыре попытки.
Как такое возможно? Очень просто. Попробуйте четыре самых распространенных пароля. Наш список состоит из следующих слов: пароль, 123456, 12345678 и йцукен[13]. Это открывает 1 процент всех замков.
Хорошо, пускай вы относитесь к тем 99 процентам людей, которые не используют плохой пароль. Но вам все равно следует задуматься над скоростью работы современных хакерских программ. Бесплатная хакерская программа под названием John the Ripper способна проверить несколько миллионов паролей в секунду. По утверждению разработчиков, коммерческое программное обеспечение, предназначенное для использования в криминалистике (на конфискованных компьютерах распространителей детской порнографии и террористов), способно проверять 2,8 миллиарда паролей в секунду.
На первом этапе программа взлома анализирует обширный и постоянно пополняющийся список из нескольких тысяч популярных паролей, а затем приступает к поиску по словарю. Она пробует каждое слово, а также все распространенные имена, прозвища, клички домашних животных.
Большинство из нас, пристыженных и запуганных, добавляют в пароли цифры, знаки препинания и прописные буквы. Это называется декорированием. Теоретически декорирование существенно затрудняет взлом пароля. Но на практике не особенно. Почти у всех людей мышление идет по одной и той же накатанной колее. Когда сайт настаивает, что в пароле должны присутствовать цифры, пароль с пугающей регулярностью превращается в пароль1 или пароль123. Требование использовать прописные и строчные буквы вызывает к жизни Пароль или ПаРоЛь. Обязательные знаки препинания становятся причиной появления таких конструкций, как пароль! и п@роль. Такой надежный на первый взгляд пароль, как 4еловек_Паук1 на самом деле вовсе не так надежен. Все хитрят примерно одинаково. Есть основание опасаться, что правила декорирования пароля, предписываемые сайтами, подталкивают к выбору самых простых, легко угадываемых паролей. Декорирование может создать ложное ощущение безопасности.
Телесюжеты о безопасности паролей неизбежно включают интервью циничного эксперта, принижающего значение любого алгоритма создания надежных паролей. Многие профессионалы – приверженцы философии «запишите его». «Люди больше не в состоянии запомнить достаточно хорошие пароли, чтобы защититься от словарной атаки, и поэтому гораздо надежнее выбрать слишком сложный для запоминания пароль, а потом записать его, – советовал специалист по компьютерной безопасности Брюс Шнаейр в 2006 г., на заре цифровой эры. – Мы все хорошо умеем прятать маленькие листки бумаги. Я рекомендую записывать пароли на листочке и хранить его в кошельке вместе с другими такими же важными».
Однако даже с листком бумаги в руке набрать длинный и сложный для запоминания пароль не так-то просто. Поэкспериментируйте с виртуальной клавиатурой мобильного устройства. Разрыв между реальностью и представлениями специалистов иллюстрирует система, которой пользуется мой отец. Он пишет пароль на стикере, который приклеивает к монитору на письменном столе. В пароле нет ничего сложного – два слова без всяких цифр и причудливых значков. Реальные люди не только выбирают ненадежные пароли: они даже не удосуживаются их запомнить.
В странствиях по цифровому миру многие пытаются использовать одинаковые пароли для всех сайтов, не обращая внимания на риск. Однако некоторые сайты играют роль няньки, навязывая правила, касающиеся длины пароля и используемых символов. Пользователи вынуждены переделывать привычные пароли и затем, пытаясь войти на сайт, не могут вспомнить, как они это сделали.
Большая часть сведений о глупых паролях – результат взлома сайта RockYou.com, публикующего игры в Facebook; это произошло 4 декабря 2009 г. Хакер опубликовал 32 603 388 имен пользователей и незашифрованных паролей посетителей сайта. И до, и после были другие взломы, но масштаб этого создал ключевую базу данных как для «хороших», так и для «плохих» парней.
Самым популярным паролем RockYou был 123456. Его использовал 290 731 человек. Обнаружились существенные отличия в зависимости от пола и возраста. Для мужчин моложе 30 лет популярными источниками паролей были секс и непристойности: в верхней части списка располагались pussy, fuck, fucking, 696969, asshole, fucker, horny, hooters, bigdick, tits, boobs и другие подобные слова. Люди старшего поколения независимо от пола проявляли склонность к цитатам из поп-культуры. Пароль Epsilon793 был бы не так уж плох, если бы его не использовал капитан Пикар из сериала «Звездный путь: Следующее поколение» (Star Trek: The Next Generation). Часто встречающаяся комбинация из семи цифр, 8675309, оказалась телефонным номером из популярной песенки. Так называемые «восьмидесятники» хотят, чтобы пароли соответствовали их эпохе.
Нет ничего проще, чем создать надежный пароль. Используйте случайный набор символов. Эту операцию невозможно идеально осуществить в уме, но и не нужно. Многочисленные сайты и программные приложения снабдят вас случайными паролями, сгенерированными из атмосферных помех. Вот несколько примеров, которые я только что получил с random.org:
mvAWzbvf
83cpzBgA
tn6kDB4T
2T9UPPd4
BLJbsf6r
Проблема решена? Да, для фанатиков мнемотехники – или для тех, кто использует программу хранения паролей, использующую сканер отпечатка пальца. Всех остальных останавливает перспектива запоминать бессмысленный набор символов. Ситуацию усугубляет необходимость (как нам говорили) особого пароля для каждой учетной записи.
Большинство пользователей, в отличие от специалистов, озабочены удобством, а не безопасностью. И я не уверен, что в данном случае они ошибаются. У вас в доме есть специально оборудованное убежище? Скорее всего, не, но те, у кого есть, скажут вам, что оно необходимо. Однако прежде чем бросаться устраивать убежище, возможно, стоит сначала убедиться, что вы всегда запираете входную дверь.
Реальные случаи взлома пароля можно разделить на три категории: они бывают случайными, массированной атакой и прицельными.
• Случайная угроза исходит от знакомых. У чрезмерно любопытного сотрудника или члена семьи может возникнуть желание войти в вашу учетную запись. Он попытается угадать пароль, основываясь на вашем близком знакомстве (не используя преимуществ программного обеспечения для взлома паролей). Любопытный человек может знать, что ваша футбольная команда в старших классах школы называлась Wildcats, и попробовать это слово. Но пароль wildCatz1 ему никогда не угадать.
• Массированная атака похожа на спам – ничего личного. Вор персональных данных не стремится войти именно в вашу учетную запись и ничего о вас не знает. Он пытается собрать список взломанных паролей, обычно для продажи. Похитители паролей используют специальные программы и начинают с попытки взлома самых незащищенных сайтов, допускающих множество попыток ввода пароля. Это может быть игровой сайт, где пароли не имеют финансовой ценности. Затем программа использует правильно угаданный пароль и его вариации для проникновения на защищенные учетные записи, например, банковские.
• Прицельная угроза предполагает частного или государственного детектива плюс программное обеспечение. Если информированный человек захочет войти в ваши учетные записи, и если на его стороне время и деньги (и законное право?), то он, скорее всего, добьется успеха. Единственная защитная мера – использовать достаточно длинный случайный пароль. В таком случае на взлом потребуется отрезок времени, превышающий среднюю продолжительность жизни.
Нельзя быть слишком уверенным, что вам не угрожает прицельная атака. Возможно, ваши конкуренты по бизнесу захотят украсть у вас ноутбук и израсходовать на его взлом необходимые ресурсы. Так же захотят поступить с богатым супругом при бракоразводном процессе. Хакеры могут испытывать неприязнь к определенным бизнесменам и политикам. Однажды был скомпрометирован сайт Twitter – из-за того, что администратор неблагоразумно выбрал пароль счастье. В 2009 г. хакер узнал пароль в результате словарной атаки и опубликовал его на сайте Digital Gangster, что привело к взломам лент Барака Обамы, Бритни Спирс, Facebook и Fox News.
Как и всё в жизни, пароли предполагают компромисс. Можно обеспечить одновременно максимальную безопасность и максимальное удобство пароля. Одна из лучших и весьма распространенных тактик – преобразовать в пароль фразу или предложение. Можно взять строчку из песни и составить пароль из первых букв слов. Например, May the force be with you превратится Mtfbwy.
Однако вы не станете обращаться к этой строчке, и именно в этом проблема. На память вам придет хорошо известная фраза из фильма, боевой девиз колледжа или слова из мультсериала «Южный парк». Сколько фраз из восьми слов вы знаете наизусть? И совершенно неочевидно, что наугад выбранную фразу угадать сложнее, чем случайное слово. Немногие дают себе труд декорировать полученный из фразы акроним. Он и так выглядит случайным!
Идеальный метод составления паролей должен быть эффективным, даже если его применяют все. Если система с использованием фраз станет популярной, то акронимы из всех заимствованных из поп-культуры крылатых выражений войдут в списки самых распространенных паролей, и программы для взлома обратятся к ним в первую очередь. Обычно акронимы состоят из букв, и по этой причине менее надежны, чем комбинации из любых символов такой же длины.
На некоторых недостатках стоит остановиться особо. Никогда не используйте «знаменитые цитаты». Одна из альтернатив – шутки, понятные только вам. Помните смешную фразу, которую официант сказал вашей подруге в мексиканском ресторане? Вы помните, она помнит – и, возможно, официант. И все. Если вы используете эту фразу для создания пароля, то велика вероятность, что больше ни один человек на планете ее не выберет.
Однако и в этом случае уникальность пароля не гарантирована. Разные фразы могут начинаться с одних и тех же букв, в результате чего получаются одинаковые акронимы. Одни буквы чаще встречаются в начале слов, другие реже, и хакерская программа может учитывать эту особенность.
Я обычно использую простые, глупые пароли. После взлома одной из моих учетных записей сайт снабдил меня временным паролем. Он представлял собой произвольный набор символов. Я хотел его сменить, но затем понял, что в этом нет необходимости. Я могу запомнить случайный пароль.
Наш мозг умеет находить закономерности в случайных данных. Именно так мы запоминаем телефонные номера или номер своей карточки социального страхования. Этот прием также работает с произвольными наборами символов, такими как РВМ8т4kа. Я только что получил этот пароль на сайте random.org. Хотя выбор символов в нем действительно случаен, глаз и мозг сразу же выявляют закономерности. В данном случае все три первые буквы оказались прописными, а остальные три строчными. А восемь – это удвоенное четыре.
Случайно созданный пароль легко преобразовать в бессмысленную фразу. РВМ8т4kа может превратиться в «революций в минуту, 8 тележек для Кати». Я не знаю, что бы это могло значить, но запомнить довольно просто.
Пароль, фраза, мнемокод – какая разница? Пароль со случайным набором символов считается «золотым стандартом» безопасности. Он лучше любого, какой только может придумать человек. И надежность его нисколько не уменьшается оттого, что указанной схемой пользуется весь мир.
При современном уровне техники достаточно длинный пароль из случайно выбранных символов разгадать практически невозможно. Он никогда не появится в списке популярных паролей. Массовая атака позволит взломать случайный пароль только методом прямого перебора. Если использовать прописные и строчные буквы латинского алфавита, а также цифры, то всего получится 62 символа (я не считаю знаки препинания, поскольку не все сайты допускают их применение). Это значит, что нужно сделать 628 попыток, чтобы угадать слово из восьми символов. Получается более 218 триллионов комбинаций.
Это практически исключает массированную атаку через интернет и замедлит прицельную атаку. Если поверить, что криминалистическое программное обеспечение способно проверять 2,8 миллиарда вариантов в секунду, на полный перебор потребуется около 22 часов. Для большинства людей это достаточно надежно – если вам так не кажется, можете добавить еще несколько символов.
Все это вовсе не означает, что случайный пароль неуязвим. Его невозможно угадать, но можно украсть. Один из примеров – мошенничество с клингонским именем. Многие осторожные люди попадаются на эту уловку. Существует высокотехнологичные вирусы, запоминающие все ваши нажатия на клавиши, а также чрезмерно любопытные люди, заглядывающие вам через плечо, когда вы печатаете. Хакеры могут использовать недостатки внутренней безопасности сайта, чтобы получить доступ к паролям.
Я сторонник философии «одного надежного пароля». С учетом того, какое важное значение приобрели пароли в нашей жизни, есть смысл запомнить один, но состоящий из случайных символов. Вы же помните свой номер телефона?
Получив надежный пароль, «сделайте все возможное, чтобы его защитить», – призывает специалист по компьютерной безопасности Ник Берри. Постарайтесь защитить свой компьютер от вирусов и используйте данный пароль только на сайтах, которые для вас важны и которым вы доверяете. Для игр и сайтов, не имеющих особого значения, я использую более простые пароли, их надежность несравнима с главным.
Способов кражи пароля так много, что вполне разумно использовать для каждого сайта свой пароль. Один из методов адаптации пароля под конкретный сайт – взять последнюю букву названия сайта и поставить ее в начало обычного пароля. Например, для Facebook вы добавляете букву k к стандартному случайному паролю, в результате чего получается kРВМ8т 4ка. Такая адаптация не обеспечивает абсолютную безопасность, но ее может оказаться достаточно. Любопытный коллега или родственник, видящий, как вы вводите kРВМ8т 4ка, чтобы открыть страничку в Facebook, не догадается, какой пароль вы используете для доступа к банковскому счету. Организатор массированной атаки соберет тысячи паролей и обнаружит, что значительная часть из них безо всяких изменений работает на других сайтах. Возможно, он не обратит внимания на остальные.
В моем надежном пароле нет знаков препинания или символов, не входящих в кодировку ASCII. В редких случаях, когда сайт требует такие символы, я добавляю один из них, легко запоминающийся, в конец пароля.
Некоторые похитители персональных данных вообще не взламывают пароли, а притворяются пользователем, забывшим пароль, и отвечают на контрольные вопросы. Угадав ответ, они получают возможность сменить пароль по собственному усмотрению. Такой мошенник не только получает доступ к персональным данным, которые можно продать, но и перекрывает законному пользователю доступ к учетной записи.
В 2008 г. кто-то взломал учетную запись Сары Пейлин, угадав, где она познакомилась со своим мужем (Уасилла Хай). Четыре года спустя учетные записи Митта Ромни взломал неизвестный хакер, угадав кличку домашнего питомца. Беспокоиться нужно не только публичным людям. Любой ваш хороший знакомый способен отгадать ответы на многие контрольные вопросы. Хакеры, которые совсем вас не знают, могут использовать списки самых популярных кличек животных, марок автомобилей, названий команд и так далее.
В последнее время часто упоминается такая стратегия противодействия угадыванию, как бессмысленные ответы. Идея состоит в том, что нужно отвечать на каждый контрольный вопрос на «поросячьей латыни»[14] или давать на все вопросы один и тот же бессмысленный ответ. Например, девичья фамилия вашей матери – Джимбоб. Животное-талисман, приносящее удачу – Джимбоб.
Вероятно, какое-то время такая стратегия будет эффективна. Но только до тех пор, пока ее не используют многие. Бессмысленные ответы так же шаблонны, как все остальные.
Я всегда отвечаю правду. Контрольные вопросы встречаются не так часто. Если по прошествии многих лет вам придется подтверждать свою личность, то вряд ли вам захочется оказаться в ситуации, когда вы не помните собственных ответов. Многие сайты предлагают самому выбрать контрольные вопросы. Я выбираю те, честные ответы на которые нетипичны: их нелегко угадать.
Личный идентификационный номер (PIN) – простой замок на нашем персональном банкомате. Никто не прилагает особых усилий, чтобы придумать надежный PIN. Большинство банкоматов все равно ограничивают их четырьмя десятичными цифрами. Я уверен, что вы способны угадать самый распространенный номер. А сможете сказать, сколько людей его используют?
По оценке Ника Берри 11 процентов людей выбирают код 1234. Массовые взломы PIN случаются не часто. Хакерам это не интересно, поскольку без самой банковской карты код бесполезен. Поэтому Берри взял список опубликованных PIN и отфильтровал их, так что остались только четырехзначные номера, без букв. Он выяснил, что у человека, использующего 1967 в качестве пароля, с этим числом связаны какие-то особые ассоциации, и он с большой вероятностью воспользуется им, если понадобится придумать PIN из четырех цифр.
Вторым по популярности в списке Берри был код 1111 (его выбрали около 6 процентов), а третьим 0000 (почти 2 процента). На практике это означает, что хорошо информированный мошенник, нашедший вашу банковскую карту, может за три попытки угадать ваш PIN с вероятностью 19 процентов. После трех неудачных попыток банкомат обычно проглатывает карту.
Вот двадцать наиболее распространенных PIN из списка Берри:
1234 9999
1111 3333
0000 5555
1212 6666
7777 1122
1004 1313
2000 8888
4444 4321
2222 2001
6969 1010
Здесь присутствуют все комбинации из четырех одинаковых цифр. Это не эксперимент по имитации случайности, а другая ситуация: «Я боюсь забыть этот номер, и поэтому лучше выбрать что-то очень простое».
Берри обнаружил и ряд менее очевидных закономерностей.
• Даты. В верхней части списка Берри располагаются цифры, совпадающие с обозначением нескольких последних лет, а также исторических дат (1492, 1776).
• Пары. Многие выбирают двузначное число и повторяют его, чтобы получить четырехзначный код (1212, 8787). Чаще всего цифры внутри пар отличаются на 1.
• 2580. Весьма распространено мнение, что можно создать случайный код, сыграв в крестики-нолики на клавиатуре. Единственный способ получить требуемые четыре цифры – начать с середины. Получится 2580. В списке самых популярных кодов, составленном Берри, он располагается на 22-м месте (за это следует благодарить дизайнера клавиатуры Альфонса Чапаниса).
• 1004. На корейском языке это число произносится так же, как слово ангел. Есть даже такая популярная песенка: «Будь моим 1004» (Be My 1004). Находится достаточное число корейцев, которые думают, что люди других национальностей этого не знают, что объясняет популярность кода.
Рекомендуется выбирать PIN, не входящий в список самых популярных. Реже всего встречался код 8068, но выбирать именно его не обязательно. Я бы предпочел число, начинающееся с 6, 7, 8, 9 или 0 (как во всех наименее популярных кодах из списка Берри) и без явной закономерности. Не используйте в качестве личного идентификационного номера такие сочетания цифр, как ММ/ДД или ГГГГ своего дня рождения, часть номера водительского удостоверения и/или кредитной карты. Эти номера находятся в вашем кошельке, а кредитная карта чаще всего теряется вместе с кошельком.
• Приготовьтесь запомнить один хороший, надежный пароль. Ваши усилия окупятся.
• Зайдите на сайт, на котором создаются по-настоящему случайные пароли (например, random.org). Создайте список из пяти или десяти кандидатов.
• Выберите случайный пароль, который легко превратить в запоминающуюся бессмысленную фразу. Используйте эту фразу, чтобы запомнить пароль.
10
Как интерпретировать рейтинги, полученные с помощью краудсорсинга
Мы живем в век краудсорсинга[15]. Любой обладатель смартфона может прямо на ходу выставлять оценку ресторанам, книгам, фильмам и песням (от 1 до 5 звезд). Фокус-группы оценивают автомобили, соусы к пицце и кандидатов на выборах (по шкале от 1 до 10). О чем говорят – если говорят – эти рейтинги?
Может показаться, что максимум оценок должен приходиться точно на середину диапазона. Обычно это не так. Полученные с помощью краудсорсинга оценки чаще всего имеют пик около 7 из 10 (или в районе 70 процентов максимума, каким бы он ни был). С одной стороны, это может указывать, что мы достигли потребительской Валгаллы, когда вещи, которым мы даем оценку, в целом хороши. Однако у нас есть основания полагать, что все это может быть искусственно. Фокусники прекрасно знают, что люди склонны выбирать карту приблизительно в 70 процентах от начала разложенной колоды. Экстрасенс просит зрителей задумать число между 1 и 10 и в попытке угадать всегда называет 7, поскольку это самый популярный выбор. В 1976 г. Майкл Кубови и Джозеф Псотка из Йельского университета попытались выяснить, почему 7 обладает магическими свойствами. Они отправили семерых (!) студентов младших курсов в студенческий городок с заданием останавливать всех встречных и просить назвать цифру от 0 до 9, первую, которая придет в голову. Самой популярной оказалась семерка – 28 процентов. Реже всего выбирали 0.
Причин популярности семерки может быть много. Всем известны семь морей, семь гномов, семь смертных грехов, семь невест, семь братьев и усталость супругов друг от друга на седьмом году брака. Семерку считают счастливым числом.
Чтобы проверить возможные объяснения популярности цифры 7, Кубови и Псотка предложили студентам, изучающим вводный курс психоогии, назвать первое пришедшее в голову число в диапазоне от 6 до 15. Результаты оказались совсем другими. Самым популярным оказалось число 9, немного опередившее 8 и 7. На этот раз только 17 процентов участников эксперимента выбрали 7.
В третьем эксперименте студентов Йельского университета просили «назвать первое пришедшее на ум число в диапазоне от 0 до 9, но не дробное, а целое, вроде 7». Формально этот эксперимент был повторением первого, поскольку все и так понимали, что имеются в виду целые числа, и говорить об этом не было нужды. Но результаты оказались иными. Популярность чисел 3, 5 и 7 была почти одинаковой, причем 7 набрала чуть меньше 17 процентов.
Мы уже видели, что упоминание одного из вариантов (в данном случае 7) или нарочитое внимание к нему может препятствовать тому, что люди его выбирают. По всей вероятности, именно это и случилось.
В последнем эксперименте одну группу попросили выбрать число от 20 до 29, а другую – от 70 до 79. В первой группе с большим отрывом победило число 27, на которое пришлось около 28 процентов ответов – точно такая же часть испытуемых выбрала 7 в первом эксперименте с диапазоном от 0 до 9.
Однако для диапазона от 70 до 79 число 77 оказалось менее популярным. Его выбрали только 16 процентов участников эксперимента. Очевидная причина заключалась в том, что студенты избегали 7 (поскольку выбранный диапазон привлекал внимание к этой цифре) или повторения цифр – или то и другое вместе.
Экстрасенс, желающий, чтобы доброволец из зрителей выбрал 7, требует ответа немедленно. Он знает: чем дольше думаешь, тем с большей вероятностью изменишь первоначальный выбор. Один из способов ускорить процесс – щелчок пальцами. «Назовите число от одного до десяти». Щелчок.
В эксперименте Йельского университета маловероятно, чтобы случайные прохожие тратили много времени на размышления. Их просили назвать первое пришедшее на ум число, а не «случайное». На практике наблюдается большое сходство между придуманными человеком числами независимо от того, как их называют, «случайными», «первыми пришедшими на ум» или как-то еще. В любом случае чаще всего встречаются семерки.
Кубови и Псотка предположили: их просьба назвать произвольное число создавала так называемую «уловку-22». Испытуемые опасались, что их инстинктивный выбор недостаточно случаен, и пытались перехитрить самих себя. «Субъект попадает в парадоксальную ситуацию: он может выполнить требование, только если не будет стараться его выполнить».
В целом испытуемые предпочитали нечетные числа четным, числа, не совпадающие с границами предложенного диапазона, а также те, к которым не привлекалось внимание. Во всех случаях 7 занимала уникальное положение, поскольку считалась… «особенной» цифрой.
Полученный при помощи краудсорсинга рейтинг – не эксперимент по имитации случайностей и не исследование первых побуждений. Участников просят выразить отношение к товару цифрой или положением на шкале. Это не так просто, как может показаться. Какой оценки заслуживает данный гастрономический паб, 3 или 4? Должен ли я оценить рекламу кандидата, порочащую соперника, 0 (поскольку я ненавижу негативную рекламу), или 10 (потому что она заставила меня волноваться за соперника)? Рейтинг предполагает выбор цифр, которые соответствуют целой гамме чувств – или полному отсутствию чувств.
Эксперимент Йельского университета можно рассматривать как фокус-группу в поисках товара. Не имея причины давать какую-либо оценку, участники называют первое пришедшее на ум число. Этот элемент присутствует в любом рейтинге, полученном с помощью краундсорсинга. Некоторые либо не имеют никакого мнения, либо думают, что допустим любой ответ. Скорее всего, они выберут нечетную цифру в конце предложенного диапазона, например, 7.
Некоторое время назад было опубликовано исследование, какой смысл подростки вкладывают в слово «нормально». Выбор 7 из 10 подобен угрюмому подростковому «нормально», обычному ответу, который означает «отстаньте от меня». Это одна из причин, почему групповые рейтинги могут быть обманчивыми. Заурядный товар может получить приличную оценку (много семерок), а затем провалиться на рынке. Если вы хотите узнать, купит ли потребитель этот товар, нужно прямо спрашивать его об этом.
В эксперименте в Йельском университете число 0 оказалось самым непопулярным, а за ним следовали 1 и 9 (верхняя граница, поскольку 10 отсутствовало). Это означает, что оценки в районе границ диапазона заслуживают наибольшего доверия. При взгляде на онлайновые результаты обращайте особое внимание на соотношение наименьшей (0 звезд) и наибольшей оценки (5 звезд). Если предположить, что они искренни, то именно этим людям нравится или не нравится продукт.
В отношении многих товаров количество недовольных не имеет значения, пока находится достаточно желающих совершить покупку. Альтернативное кино с высокой долей 5-звездочных оценок, вероятнее всего, понравится тем, кого привлекает имя режиссера или тема, а на количество 0-звездочных оценок можно не обращать внимания. Фильм не предназначен для того, чтобы понравиться кому угодно, и в сети найдется достаточно народу, любящего посмотреть «неправильное» кино. В случае широкой аудитории (например, блокбастера или семейного ресторана) 0-звездочные оценки более информативны. Они позволяют оценить вероятность отрицательного опыта.
• Люди, которых просят назвать первое пришедшее в голову число в диапазоне от 1 до 10, чаще всего выбирают 7. Это может исказить оценки фокус-групп и рейтинги, полученные в интернете с помощью краудсорсинга.
• Доля участников, присваивающих продукту наивысший рейтинг 10 (или 5 из 5 возможных звезд), может точнее отражать потенциальные продажи продукта, чем усредненная оценка.
11
Как распознать фальшивые числа
Марк Нигрини, выросший в южно-африканском Кейптауне, был очарован магией цифр. Он приехал на учебу в США, надеясь получить докторскую степень в области финансов. В апреле 1989 г. он учился в аспирантуре и подбирал тему для будущей диссертации. Однажды в университете Цинциннати он наткнулся на краткое упоминание закона Бенфорда. «В тот же вечер я отправился в библиотеку и взял статью Бенфорда», – вспоминал Нигрини. Знакомство с ней изменило всю его жизнь.
Физик Фрэнк Бенфорд в 1920-х гг. работал в компании General Electric в городе Скенектади. В то время для научных расчетов использовались таблицы логарифмов. Бенфорд заметил: первые страницы книжки с таблицами логарифмов истрепались от многократного использования, а последние выглядели почти новыми. Именно это случайное наблюдение, а не работа, за которую ему платила General Electric, послужило причиной того, что имя Бенфорда осталось в истории.
Числа, которые требовались Бенфорду, обычно начинались с маленьких величин, а именно они находятся в начале логарифмических таблиц. Так, например, Бенфорд обнаружил, что около 30 процентов чисел, с которыми имеют дело ученые и инженеры, начинаются с цифры 1. И только 5 процентов – с цифры 9. Поэтому последние страницы книги с таблицами логарифмов оставались практически нетронутыми.
Бенфорд рассказал об открытии химику Ирвингу Ленгмюру (будущему лауреату Нобелевской премии). Ленгмюр убедил его опубликовать статью на эту тему. Отличавшийся методичностью Бенфорд исследовал непонятную закономерность еще десять лет. Выяснилось, что она справедлива не только для научных расчетов. Бенфорд попытался проанализировать первые цифры бейсбольной статистики и обнаружил такое же распределение. Он выписал все числа, встречавшиеся в журнале Reader’s Digest. То же самое. Счет теннисных матчей, котировки на бирже, длина рек, атомные веса, счета за электричество на Соломоновых островах и числа, встречающиеся на первой странице New York Times – все подчинялось одной и той же закономерности. Похоже на теорию заговора. Все взаимосвязано.
Наконец, в 1938 г. Бенфорд опубликовал результаты в журнале Proceedings of the American Philosophical Society. В статье он привел точную формулу для вычисления пропорции чисел, начинающихся с каждой цифры. Вот они:
Вы можете спросить, почему здесь отсутствует цифра 0. Бенфорд анализировал только первые ненулевые цифры. Поэтому числа 7129600 и 0,000072002 начинаются с одной и той же цифры 7.
Формула Бенфорда также предсказывает распределение вторых, третьих и так далее цифр числа. В этих случаях уже присутствует 0. Однако преобладание низких величин здесь уже менее выражено. По этой причине выявленную Бенфордом закономерность иногда называют законом первой цифры.
Сам Бенфорд выбрал для статьи другое название, «Закон аномальных чисел» (The Law of Anomalous Numbers). В настоящее время он известен как закон Бенфорда. Как выяснилось, это несправедливо. Данное явление обнаружил (и опубликовал статью) другой, гораздо более известный ученый – астроном Саймон Ньюком. Его статья в номере журнала American Journal of Mathematics за 1881 г. начиналась с констатации факта: «То, что десять цифр встречаются с разной частотой, должно быть очевидно всякому, кто часто пользуется логарифмическими таблицами и замечает, насколько первые страницы истрепаны сильнее последних».
Мне кажется, это очередное доказательство того, как трудно придумать что-то свое и как часто остаются незамеченными даже оригинальные идеи. По какой-то причине о статье Ньюкома вскоре забыли, а статья Бенфорда получила поддержку. Одно из возможных объяснений в том, что статья Бенфорда «выехала» на знаменитой статье физика Ханса Бете, которая была помещена в журнале сразу же вслед за ней.
В настоящее время известно, что закон Бенфорда применим ко всем видам данных, которые не догадался проверить даже сам неутомимый автор. Известно также, что закон Бенфорда не применим ко многим числовым комбинациям (телефонные номера, обозначение возраста и веса, номера карточек социального страхования, коэффициенты умственного развития, победившие номера лотерейных розыгрышей и почтовые индексы). Примером может служить вес взрослых американцев. Совершенно очевидно, что 1 – самая распространенная первая цифра, ее доля гораздо выше, чем 30 процентов, предсказанных законом Бенфорда. Самая редкая – шестерка, даже реже, чем в распределении Бедфорда: немногие мужчины весят от 60 до 69 и от 600 до 699 фунтов.
Неприменим закон Бенфорда и к назначенным номерам, таким как номер телефона или карточки социального страхования. Тот, кто назначает номера, использует все или почти все возможные варианты. Номера, начинающиеся на 1, встречаются так же часто, как и те, которые начинаются с любой другой цифры.
Те, кто обладает математической интуицией, могут прийти к тому же выводу самостоятельно. Для всех остальных это неразрешимая загадка. Почему закон Бенфорда применим к номерам домов на улице, но не применим к почтовым кодам? Откуда в газете New York Times знают, будто числа, начинающиеся на 1, нужно упоминать в шесть раз чаще, чем те, которые начинаются на 9?
Закон Бенфорда справедлив для некоторых чисел, отражающих результаты измерений, например, городского населения или сумм, списанных с кредитных карт. Попробуем привести быстрое и интуитивное объяснение. Представьте, что вы положили на счет для инвестиционных операций 1000 долларов, которые удваиваются каждые десять лет. Первая цифра баланса вашего счета будет оставаться 1 на протяжении первых десяти лет. Сумма будет увеличиваться до 1100, 1200, 1300 долларов и так далее, до 1900, пока в конце первого десятилетия не достигнет 2000 долларов.
До следующего удвоения пройдет еще 10 лет. За это время сумма на счете постепенно увеличится с 2000 до 3000, а затем до 4000 долларов. Это значит, что на 2 и 3 в качестве первых цифр баланса счета приходится столько же времени, сколько на цифру 1.
В третьей декаде сумма на счете увеличится с $4000 до $8000, причем первыми цифрами будут 4, 5, 6 и 7. На протяжении четвертого десятилетия сумма увеличится до 16 000, и первыми цифрами сначала будут 8 и 9, а остальное время снова 1.
Итак, в сумме на инвестиционном счете 1 будет присутствовать больше времени, чем 2, 2 больше, чем 3, и так далее. Если выбрать случайный момент времени, то вероятность каждой из девяти цифр оказаться на первом месте будет точно соответствовать распределению Бенфорда.
В нашем мире есть множество вещей, от колоний микроорганизмов до социальных сетей, которые растут экспоненциально, хотя и не обязательно так занудно, как в моем примере. Но когда естественный рост рассеивает числа на несколько порядков величины, они приближаются к распределению Бенфорда. Если бы шимпанзе бросала дротик дартса в листок с финансовыми отчетами или ценами на бирже, то попадания с достаточной точностью соответствовали бы закону Бенфорда.
Закон Бенфорда напоминает, что числа – это искусственный способ отображения количественных соотношений в окружающем нас мире. Как писал сам Бенфорд, «в действительности это теория явлений и событий, а числа всего лишь играют незначительную роль безжизненных символов живого».
«Я подумал, что если предсказуемые закономерности для чисел действительно существуют, то аудиторы, наверное, смогут определить, какие данные соответствуют действительности, а какие вымышлены», – вспоминал Марк Нигрини.
Бухгалтеры и налоговые органы были бы рады иметь формулу для определения, какие цифры показаны честно, а какие нет. Нигрини быстро решил: его диссертация будет посвящена применению закона Бенфорда для выявления финансового мошенничества.
Он обнаружил, что после статьи Бенфорда на эту тему почти ничего не написано. Единственным, кто увидел практическую ценность открытия, оказался Хэл Вэриан (в настоящее время главный экономист Google). В 1972 г. Вэриан предложил использовать закон Бенфорда в качестве «индикатора чепухи». В политике решения основываются на сложных прогнозах издержек и выгод. Цифры в этих прогнозах должны соответствовать распределению Бенфорда, утверждал Вэриан. Если это не так, значит, составитель прогноза брал цифры с потолка или подгонял в соответствии со своими целями.
Вэриан не стал развивать эту идею – как и другие. Это подогрело энтузиазм Нигрини, но не его руководителя. «Он хотел бы, чтобы я был восьмидесятым ученым, исследовавшим этот вопрос», – объяснял Нигрини. Он настоял на теме диссертации, однако одобрение получил только после того, как написал две трети текста. Четыре месяца спустя работа была закончена.
Идея Вэриана и Нигрини может быть проиллюстрирована. Имея массив чисел, вы можете нарисовать столбиковую диаграмму (гистограмму), показывающую, сколько раз каждая цифра появляется первой. Просто сосчитайте, сколько чисел начинается с цифры 1, сколько с 2 или 3, и так далее. Для честных данных, подчиняющихся закону Бенфорда, диаграмма будет выглядеть так:
Закон Бенфорда
Гладкая кривая – это закон Бенфорда в визуальной форме.
Блестящая идея Вэриана и Нигрини состояла в том, что люди, фальсифицирующие цифры, не знают о законе Бенфорда. У растратчика или налогового мошенника нет причин думать, что какая-либо цифра должна встречаться чаще, чем другие. Поэтому массив искусственных чисел должен иметь равномерное распределение первых цифр.
Как бы то ни было, это упрощенная идея. Эксперименты по имитации случайности (о них не было широко известно) уже показали, что в сфабрикованных числах все цифры почти никогда не используются в равной мере. Альфонс Чапанис представил гистограммы полученных результатов, и распределение в них равномерным не было.
Другая проблема в том, что честные финансовые данные чаще всего в точности соответствуют кривой Бенфорда, но иногда – нет. И заранее бывает трудно сказать, с каким случаем вы имеете дело. Одним из таких примеров могут служить данные продаж магазина, где все товары стоят 99 центов. Анализ выявит большое количество девяток. Как замечает Нигрини, это указывает, что цены выдуманы, специально разработаны людьми как часть маркетинговой стратегии. Но если вы руководите таким магазином, это ваша реальность, а не мошенничество. Можно найти множество других ситуаций, когда природа бизнеса способствует распределению первых цифр, не отвечающему закону Бенфорда – по абсолютно невинным причинам.
Тем не менее, основная идея Нигрини оказалась верна: придуманные цифры отличаются от настоящих. Он стал частым гостем в здании суда Цинциннати, где разбирал преступления, в которых фигурировали цифры.
Один из первых исследованных им случаев мошенничества произошел в Аризоне. Уэйн Джеймс Нельсон, 43-летний менеджер отделения государственного казначейства в Аризоне, начал короткую карьеру растратчика с того, что выписал чек на 1927,48 доллара от штата Аризона на имя фиктивного поставщика. За следующие несколько дней он выписал еще 22 фальшивых чека на общую сумму почти 1,9 миллиона долларов.
Будучи пойманным, Нельсон утверждал: он выписывал чеки из благородных побуждений, чтобы продемонстрировать уязвимость принятой в Аризоне системы предъявления чеков к оплате. Он просто «забыл» проинформировать сотрудников казначейства об этих недостатках, а деньги направлял на собственные счета.
Последние две цифры: 500 придуманных чисел
Первые цифры чеков растратчика
На первый взгляд в чеках, выписанных Нельсоном, присутствовали некоторые закономерности.
Нельсон был «анти-Бенфордом», как выразился Нигрини. Все суммы на чеках, за исключением двух, начинались с больших цифр 7, 8 и 9. Нельсон не превышал порога $100 000, вероятно, потому, что числа с шестью нулями привлекли бы нежелательное внимание.
Последние цифры чеков растратчика
Ниже приведена гистограмма первых цифр в чеках Нельсона.
Фальшивые числа обычно смешиваются с настоящими. Аудитор будет анализировать не только суммы фальшивых чеков (откуда ему знать, что они фальшивые?). Он проверит все чеки Нельсона или все суммы, проходившие через его отдел. Но даже в этом случае предпочтение Нельсоном цифр 8 и 9 в фальшивых счетах выделит цифры 8 и 9 и в общем массиве данных. И это влияние можно выявить.
Нигрини обнаружил: в чеках Нельсона проявляются те же типичные особенности, что и в остальных придуманных числах. Предположим, мы пытаемся подсчитать последние (самые правые) цифры в чеках. Это единицы центов, и с финансовой точки зрения они Нельсона явно не интересовали. Тем не менее, в них наблюдается определенная закономерность. Нельсон отдавал предпочтение таким последним цифрам, как 6 и 7. Цифра 4 вообще не встречается.
Эта гистограмма очень похожа на гистограммы Чапаниса. Точно так же, как добровольцы Чапаниса, Нельсон повторялся, не отдавая себе в этом отчета. В 23 чеках он умудрился повторить 87, 88, 93 и 96 в качестве двух первых цифр. Аналогично, в качестве центов повторялись числа 16, 67 и 83.
Внутренняя налоговая служба США продает исследователям информацию из налоговых деклараций, предварительно удалив личные данные. Нигрини приобрел 100 000 налоговых деклараций за 1985 и 1988 г. и начал анализировать их на университетской мини-ЭВМ VAX. Он хотел проверить, можно ли определить, кто из налогоплательщиков жульничает.
Многие записи в налоговой декларации представляют собой сумму, разницу или производную других записей. Рассматривать их нет смысла, поскольку компьютеры налоговой службы проверяют правильность вычислений. Другие записи подтверждаются документацией третьей стороны, например, форма W-2 для заработной платы или 1099-INT для дохода от процентов. Это обеспечивает полезную возможность сравнения. Нигрини обнаружил: данные о доходе от процентов с высокой точностью соответствуют закону Бенфорда. Однако выплаченные проценты не соответствовали кривой. В то время ипотечные заимодатели не сообщали о процентах в налоговую службу. Проценты по потребительскому кредиту подлежали вычету из налогооблагаемой базы (и тоже не подтверждались документами). Это означало, что налогоплательщики испытывали искушение преувеличить выплаченные проценты, надеясь, что их не проверят. Анализ Нигрини показал, что многие именно так и поступали.
Во время президентской кампании Билл Клинтон опубликовал свои налоговые декларации начиная с 1977 г. Нигрини сумел отбраковать из налоговых деклараций Клинтона 380 сумм дохода и 511 сумм вычетов, относящихся к системе доверия. Он не обнаружил ничего подозрительного, за исключением преобладания круглых чисел – весьма распространенное явление. Так, например, старый мужской костюм, пожертвованный благотворительной организации, был оценен в 100 долларов. Совершенно очевидно, что сумма эта приблизительна – одним из признаков служит круглое число. Но указать $100 – честнее, чем придумывать точную цену вроде $107,03.
Одним из первых, кто поверил Нигрини, был Роберт Бертон, главный финансовый инспектор из прокуратуры Бруклина. В 1995 г. Бертон использовал программное обеспечение Нигрини для анализа чеков семи компаний, подозреваемых в связях с преступным миром. Бертон обнаружил свидетельства придуманных чисел и после дальнейшего расследования обвинил в мошенничестве бухгалтеров и сотрудников, выписывавших чеки. Действия инспектора удостоились хвалебной статьи в Wall Street Journal. Закон Бенфорда был назван «инструментом, достойным Шерлока Холмса». Приводились также слова Бертона: «В точку. Это мошенничество».
Статья в Wall Street Journal принесла славу закону Бенфорда, но в то же время породила миф, что он представляет собой нечто вроде волшебного детектора лжи. С тех пор метод Нигрини получил широкое распространение в правоохранительных и налоговых органах, а также в частном секторе. Сегодня повседневный анализ данных о потребителях позволяет без труда выделить для дальнейшего изучения подозрительные числа. Тем не менее, анализ цифр остается относительно новым методом, недостаточно проверенным. Очень важно понимать, чего можно, а чего нельзя добиться с его помощью.
«Я регулярно расстраиваюсь, читая о том, как люди неправильно используют закон Бенфорда», – признался мне Нигрини. Вне всякого сомнения, человек услышал о законе Бенфорда, просмотрел статью в «Википедии» и решил, что любые числа, первая цифра которых не соответствует кривой распределения, – фальшивые. Этот вывод ни в коем случае нельзя назвать верным. Существует множество причин, когда первые цифры легитимных чисел могут не подчиняться распределению Бенфорда, и поэтому проверка первой цифры редко бывает полезной. Нигрини считает, что гораздо эффективнее анализ первых двух. В результате получается гистограмма из 100 столбиков. При достаточном массиве информации (тысячи чисел) соответствующие распределению Бенфорда данные образуют на графике гладкую кривую.
Другой полезный тест анализирует две последние цифры больших чисел. Это даже не проверка «закона Бенфорда». Таким способом выявляются характерные особенности придуманных чисел, выявленные Чапанисом. Обратите внимание что тест последних двух цифр работает даже в том случае, когда данные не должны подчиняться закону Бенфорда.
В руках профессионала анализ цифр состоит из множества разных тестов, а также вычисления их статистической значимости. Первичным этапом сравнения должна быть история одного и того же набора данных. Расходы текущего квартала должны сравниваться с расходами предыдущих кварталов. Нигрини называет этот принцип «Мое правило» – по модели базовых имен, предложенных программным обеспечением для новых файлов («Мой файл», «Моя таблица» и так далее). «Мое правило» позволяет избежать самой распространенной ошибки дилетантской нумерологии, предполагающей, что все числовые базы данных в точности описываются законом Бедфорда. Это ошибочное допущение. Признаки придуманных чисел, выявленные Чапанисом, тоже не обеспечивают стопроцентной защиты. По необъяснимым причинам эти методы могут оказаться применимыми или не применимыми в каждой конкретной ситуации. Проще и надежнее использовать в качестве основы прошлые распределения цифр.
В конце концов, любое мошенничество начинается в какой-то момент времени. Если Стэн из бухгалтерии начнет жульничать в следующий вторник, это изменит распределение цифр в его суммах – независимо от того, насколько настоящие данные близки к «случайным» или соответствовали кривой Бенфорда.
В качестве иллюстрации «Моего правила» Нигрини приводит эксперимент, придуманный в 2011 г. на занятиях по математике 17-летним студентом Ка Буи из немецкого города Кобленц. Класс был поделен на пять групп по четыре студента в каждой. Одним группам выдали газеты и предложили составить список из 500 чисел, встреченных в новостях. Другим группам предложили придумать 500 чисел. Смысл эксперимента в том, чтобы проверить, можно ли отличить числа, взятые из новостей, от придуманных, только по распределению составляющих их цифр.
Чтобы максимально затруднить задачу, группам, придумывавшим числа, предложили имитировать те, что могли быть найдены в газете (в противоположность случайным). В этом случае усиливалось сходство с настоящим мошенничеством, ведь преступник похож на хамелеона.
Ни один из пяти наборов данных, настоящих и поддельных, не соответствовал кривой Бенфорда, однако с первого взгляда можно было определить, что они составляют две группы. В одной наблюдались «высокие пики» – пары двух первых цифр, встречавшиеся гораздо чаще, чем ожидалось. Во второй пики были меньше, и распределение в большей степени соответствовало кривой Бенфорда. Как мы уже убедились, повторяющиеся пары цифр могут свидетельствовать о неосознанности – или о мошенничестве. Вы можете подумать, что группа с «маленькими пиками» состояла из настоящих чисел, взятых из газет. И ошибетесь.
Вспомните, что фальшивые числа придумывали группы из четырех человек. Из-за того, что разные люди неосознанно предпочитают разные цифры, вклад каждого члена группы делился на четыре. Это затруднило выявление обмана.
Реальный признак был следующим. В газетах много раз встречалось упоминание текущего года (2011) и нескольких предшествующих. Поэтому на гистограммах отмечался пик для 20 как пары первых цифр. Составители таблицы фальшивых чисел также использовали числа, обозначающие год, но в недостаточном количестве.
Тот, кто использует закон Бенфорда и признаки Чапаниса в качестве критерия, придет к выводу, что группы данных с маленькими пиками настоящие. Однако разумнее было бы проанализировать распределение цифр в числах, взятых из других газет. Это выявило бы массовое упоминание текущего года и помогло бы правильной идентификации.
Когда цифры в числах, имеющих важное значение, не соответствуют ожидаемому распределению, хороший следователь способен выяснить причину. Тем не менее, существует пара несложных, пригодных для самостоятельного применения тестов, помогающих быстро выявить подозрительные данные. На следующих нескольких страницах я продемонстрирую некоторые способы обнаружить вероятность фальсификации или манипулирования числами. Эти тесты предназначены в основном для различения реальных данных и на 100 процентов сфальсифицированных одним человеком. Столь резкий контраст вы увидите не всегда. Тем не менее, во многих случаях именно один-единственный мошенник снабжал своих жертв полностью фальшивыми данными. Эти тесты, используемые в качестве предварительной оценки, быстры и не связаны с дальнейшим анализом, а ведь вы, скорее всего, захотите его провести.
Каждое воскресенье владелица ресторана быстрого питания начинала с того, что придумывала объем продаж в долларах за предыдущую неделю. Ей нужно было отчитываться в налоговые органы. Любая цифра была фальшивой!
Совершенно случайно бухгалтер ресторана оказался одним из студентов Нигрини. Нигрини посмотрел на придуманные числа. «Ее выдали не первые цифры», – объяснил он. Ресторан быстрого питания с устойчивым бизнесом может иметь выручку, скажем, $5000 в день, с не очень большими отклонениями. Первые цифры данных не будут соответствовать распределению Бенфорда – и не должны. Подлог выдали две последние цифры. Ни одно из чисел не оканчивалось на 00. Это весьма распространенный признак, поскольку мошенники считают, что круглые числа выглядят недостаточно случайными. Кроме того, около 6,5 процента чисел оканчивались на 40 (при ожидаемой величине всего 1 процент). Использование пары 40 для двух последних цифр – неосознанная склонность владелицы ресторана.
Последние две цифры: 500 случайных чисел
Когда-нибудь ресторан быстрого питания выставят на продажу, и покупатели внимательно изучат бухгалтерские документы. Возможно, для демонстрации владелица придумает новые, раздутые числа. Возникнет ли у покупателей подозрение, что вся отчетность взята с потолка?
В мелком бизнесе показатели ежедневных продаж – это сумма большого количества граф «итого» в кассовых аппаратах. Последние две цифры этих сумм обычно бывают случайными – каждая пара от 00 до 99 появляется приблизительно в 1 проценте случаев.
Последние две цифры: 500 придуманных чисел
Однако не во всех документах указываются суммы с точностью до цента. Иногда их округляют до долларов или даже до тысяч долларов. В таких случаях нужно использовать две крайние цифры справа.
Чтобы провести тест последних цифр, подсчитайте, сколько раз каждая из возможных пар встречается в имеющемся наборе данных. Всего таких пар 100, и поэтому потребуется составить гистограмму из 100 столбиков.
Ниже приведена гистограмма, дающая представление, как выглядят реальные данные. Она характеризует выборку из 500 случайных чисел (сгенерированных программой Excel). Число 500 достаточно репрезентативно для мелкого бизнеса – это около 17 месяцев ежедневных продаж или десять лет еженедельных. Но даже при 500 числах гистограмма получается неравномерной, с довольно большими вариациями. В данном случае одна пара цифр (68) не появляется совсем, а три пары (10, 53 и 74) встречаются в два раза чаще, чем ожидаемый 1 процент. Это нормальные отклонения, характерные для случайных данных.
Теперь посмотрим на сфабрикованные данные.
Следующая гистограмма отображает распределение двух последних цифр в 500 числах, придуманных человеком. Более сильные вариации видны даже с первого взгляда. Две пары (93 и 94) встречаются более чем в 4 процентах чисел, что маловероятно для реальных данных. Двенадцать пар не встречаются вообще, и это тоже крайне маловероятно.
Задайте себе следующие три вопроса. Утвердительный ответ на любой из них должен усилить ваши подозрения.
a) По непонятной причине есть пара (или пары) цифр, встречающиеся чаще остальных?
б) Частота повторения сдвоенных цифр (особенно 00 и 55) меньше средней?
в) Убывающие пары (10, 21, 32, 43, 54, 65, 76, 87, 98) явно встречаются чаще других?
В приведенном примере ответ на вопрос (a) утвердителен. Кроме того, в массиве данных нет сдвоенных цифр (б). Приблизительно 10 процентов всех чисел должны оканчиваться на сдвоенные цифры. У нас таких 20 из 500, всего 4 процента. Пары 00, 55 и 77 вообще не встречаются.
Из 500 пар последних цифр 44 – убывающие. Это почти точно ожидаемые 9 процентов (из 100 возможных пар девять убывающие). Так, по критерию (в) данные не вызывают подозрений.
Наш набор данных не прошел два из трех тестов. Будь это суммы продаж мелкого бизнеса, стоило бы запросить дополнительную или более подробную информацию – и посмотреть, как отреагирует продавец.
Нет нужды беспокоиться, что вам придется считать вручную. На практике все это делается с помощью функций «копировать» и «вставить». Попросите данные в виде таблицы Excel или в совместимом с ней формате, чтобы без труда перенести их в шаблон теста, использующего закон Бенфорда. Примеры таких тестов можно бесплатно найти в интернете, в том числе один тест Нигрини (NigriniCycle.xlsx). Перенеся данные, выполните инструкции и заполните определенные столбцы заранее известными формулами. Результатом будут отформатированные гистограммы для двух последних цифр и итоги других распространенных тестов. Кроме того, программа вычисляет математическую оценку статистической значимости, что, конечно, гораздо надежнее простого просмотра полученных данных.
• Когда распределение цифр в последней группе данных отличается от обычного распределения, характерного для данной компании, это может быть признаком подлога.
• Растратчики и мошенники, придумывающие числа, неосознанно отдают предпочтение убывающим парам цифр (таким как 10, 21, 32 и так далее).
• Мошенники реже пользуются сдвоенными цифрами (например, 00 или 55), полагая, что они выглядят недостаточно «случайными».
12
Как распознать числа, которыми манипулировали
Один нью-йоркский страховой агент (фирма щедро оплачивала ему представительские расходы) оказался талантливым мошенником. Желая перейти на безбумажную документацию, его компания требовала сканы выписанных квитанций, а не сами квитанции. Страховой агент обнаружил: можно черной ручкой переправить в документе 1 на 7 или на 9, и на сканере с низким разрешением такое изменение незаметно.
Затем он пошел еще дальше и стал следить за тем, чтобы суммы, указанные в квитанциях, начинались с 1. Страховой агент мог позавтракать за 18 долларов и останавливаться в гостинице, где номер стоил 178 долларов. После этого он подправлял суммы и получал возмещение в размере 98 долларов за завтрак или 778 за гостиницу.
Одним росчерком пера он увеличил суточные расходы с 70 до 800. Но ему не повезло – аудиторский отдел страховой компании был одним из первых, применявших для анализа закон Бенфорда. В данном случае оказалось достаточно первых цифр, чтобы вызвать подозрения. Обнаружилось преобладание семерок и девяток и недостаток единиц. Расследование подтвердило факт обмана, и компания подала на страхового агента в суд, потребовав возмещения ущерба.