Дилемма заключенного: кооперация или предательство?

0
Фрагмент нашла Анастасия Агафонова3/10/2023
Джон фон Нейман (1903 – 1957)

Когда биологи задались этим вопросом, ученые других специальностей уже подыскивали ответ. В 1940-е гг. математик Джон фон Нейман, отец компьютерных технологий, разработал теорию игр – науку о принятии стратегических решений. Если сформулировать ее задачу немного иначе, то она будет звучать так: «Когда лучше прийти на выручку, а когда следует отойти в сторонку?» В те времена эта тема очень интересовала экономистов, дипломатов и военных. И было совсем нелишним открыть диалог между биологами и специалистами по теории игр. Начало было положено в 1980-е гг. предложением т.н. дилеммы заключенного. Пришло время как следует в ней разобраться.

Два члена банды, А и Б, арестованы. У прокурора нет улик, чтобы обвинить их в серьезном преступлении, но он может доказать их мелкие провинности и посадить в тюрьму на год. А и Б не имеют возможности договориться. Прокурор предлагает каждому сделку: дай показания против подельника, и твой срок уменьшат. Существует четыре возможных исхода:

а) и А, и Б отказываются доносить друг на друга, тогда оба получают по году тюрьмы;
6) и А, и Б доносят друг на друга, и оба получают по два года тюрьмы; 
в) А доносит на Б, тот молчит; А отпускают, а Б получает три года: 
г) Б доносит на А, А держится; Б отпускают, а А получает три года.

Таким образом, дилемма заключенного предполагает выбор: остаться верным подельнику (кооперация) или донести на него (предательство). Ход мыслей может быть следующим: «Лучше кооперироваться. Это ведь мой товарищ, он меня не предаст, и мы получим по году. А если он меня все же заложит? Он уйдет, а я буду три года сидеть. Лучше уж я его предам. А если мы оба друг друга заложим? Тогда и ему, и мне по два года... Плохо... Или, может, заложить его, на случай, если он решит молчать...». И так мысль идет по кругу*.

Если вы разыгрываете дилемму заключенного один раз, то здесь есть определенное рациональное решение. Если вы заключенный А – предатель, то ваше наказание в среднем будет год (ноль лет, если Б вас не выдаст, и два года в противном случае). Если же вы решите кооперироваться с Б, то в среднем получите два года (год, если Б тоже промолчит, и три, если выдаст вас). Значит, нужно его заложить. Так что если играется только один раунд, то оптимальным решением будет предательство. Не слишком обнадеживает с точки зрения мирового устройства.

Теперь предположим, будто бы мы играем два раунда. Если известно, что второй раунд – последний, то оптимальной стратегией для него будет предательство, как мы это разобрали для игры в один раунд. Тогда и в первом раунде нет смысла поступать иначе и тоже нужно предавать.

А что в случае с игрой в три раунда? Если третий раунд последний – нужно предавать, а значит, и во втором тоже, и в первом: правило так же действует по цепочке, как и в двухраундовой игре.

И так далее: в последнем раунде всегда выгоднее предать. Да и в предпоследнем, и в предпредпоследнем и т. д. Другими словами, если два игрока играют заданное конечное число раундов, то лучше всего (оптимальнее) будет отказаться от кооперации.

Роберт Аксельрод (род. 1943)

А если число раундов заранее не известно? Тогда все становится интереснее. Именно в этой точке сошлись интересы биологов и исследователей теории игр, чему поспособствовал политолог из Мичиганского университета Роберт Аксельрод. Он объяснил коллегам, как срабатывает дилемма заключенного, и спросил, что случится, если заранее не известно, сколько будет раундов. Ему было предложено немыслимое количество возможных стратегий, причем некоторые оказались зубодробительно сложными. Аксельрод написал компьютерные программы для различных стратегий и заставил компьютер имитировать, как эти стратегии «играют» парные турниры. Какая победила, какая сказалась самой выгодной?

Оптимальная стратегия была найдена математиком Анатолем Рапопортом из Торонтского университета. Это оказалась самая простая стратегия из всех, похожая на классические героические сюжеты: сначала нужно кооперироваться, а в следующий раз делать то, что сделал соперник в предыдущем раунде. Око за око, зуб за зуб. Если подробнее, то все происходит следующим образом.

В первом раунде вы выбираете кооперацию (К). И если второй игрок раз за разом тоже выбирает кооперацию (К), то вы будете кооперироваться долго и счастливо и умрете в один день.

Пример 1
Вы: КККККККККК...
Он: КККККККККК...

Анатоль Рапопорт (1911 – 2007)

Теперь предположим, что другой игрок сначала кооперируется, а потом, соблазненный бесами, в 10-м раунде предает (П) вас. Вы кооперируетесь, значит, в 10-м раунде понесете потери.

Пример 2
Вы: КККККККККК. 
Он: КККККККККП.

Тогда вы отвечаете ему той же монетой, наказывая в следующем раунде.

Пример 3
Вы: ККККККККККП.
Он: КККККККККП?

Если он после этого вернется к тактике кооперации, то и вы поступите так же и мир восстановится.

Пример 4
Вы: ККККККККККПККК...
Он: КККККККККПКККК...

Но если он и не подумает продолжать сотрудничество, то и вы сделаете то же самое.

Пример 5
Вы: ККККККККККПППП...
Он: ККККККККККПППП...

Но вот вам попался прожженный предатель. Тогда ситуация будет выглядеть так:

Пример 6
Вы: КПППППППП...
Он: ППППППППП...

Такова стратегия «око за око». Заметим, что в ней невозможно выиграть. В лучшем случае вы заканчиваете ничьей: это произойдет, если ваш противник тоже играет «око за око» или выбирает стратегию всегда кооперироваться. Когда же он играет как-то по-другому, то вы чуточку проигрываете. Однако если вы сами выберете любую другую стратегию, то можете проиграть несравнимо больше. И когда в конце все суммируется, то «око за око» побеждает. С этой стратегией проигрывается почти каждая битва, но выигрывается война. Или, скорее, мир. Иными словами, «око за око» оставляет позади все остальные стратегии.

Вот четыре условия для реализации стратегии «око за око»: а) должна быть предрасположенность к кооперации (т.е. кооперация будет начальной точкой действий); б) игроку нельзя быть наивным, ему следует наказывать предателей; в) игрок не должен быть злопамятным, он прощает предателя, если тот раскаялся; г) эта стратегия очень простая и понятная.

Уильям Дональд Гамильтон (1936 – 2000)

Аксельрод опубликовал миллиард статей по исследованию стратегии «око за око» в дилемме заключенного и других похожих играх (о них ниже). А затем случилось неожиданное – Аксельрод и Гамильтон познакомились. Биологи, изучающие эволюцию поведения, давно хотели приобщиться к цифрам, как, скажем, в исследованиях эволюции почек у пустынных крыс. А тут прямо у них под носом ничего не подозревавшие социологи, оказывается, именно этим и занимались. На основе дилеммы заключенного выстраивалась эволюционная стратегия кооперации и конкуренции. Аксельрод и Гамильтон так и написали в своей статье 1981 г. (она теперь настолько знаменита, что «Аксельрод и Гамильтон» стало расхожим выражением: «Как твоя лекция?» – «Ужасно, ничего не успел, даже до Аксельрода и Гамильтона не добрался»).

И когда эволюционисты объединились с политологами, они в игровой сценарий добавили кое-какие правила реального мира. Благодаря одному из них был выявлен изъян стратегии «око за око».

Давайте вообразим, что произошел сбой в передаче сигнала: информация дошла в искаженном виде, или кто-то забыл что-то передать, или в системе случилась накладка. Как в реальном мире.

Вот на пятом раунде происходит этот сбой, а игроки следуют стратегии «око за око». Их действия:

Пример 7 
Вы: ККККК. 
Он: ККККК.

Из-за ошибки до вас доходит другая информация:

Пример 8
Вы: ККККК.
Он: ККККП,

Вы думаете: «Вот чертов жулик!» И предаете его на следующем ходу.

Пример 9 
Вы: КККККП.
Он: ККККПК.

Мартин Новак (род. 1965)

А для него, не подозревающего об ошибке, ситуация выглядит следующим образом:

Пример 10 
Вы: КККККП. 
Он: КККККК.

Теперь он, ясное дело, думает: «Вот чертов жулик!» – и в следующем раунде предает вас, когда вы, решив, что он раскаялся, кооперируетесь. «Ого! Ему мало? Так получай еще!» – горячитесь вы и опять предаете его. «Ого! Ему мало? Так получай еще!» решает он в свою очередь:

Пример 11
Вы: КККККПКПКПКПК... 
Он: ККККПКПКПКПКП...

И это значит, что если допустить возможность ошибки, то пара игроков, реализующих «око за око», окажется навсегда запертой в петле предательств**.

Когда открылось это уязвимое место, эволюционисты – Мартин Новак из Гарвардского университета, Карл Зигмунд из Венского и Роберт Бойд из Калифорнийского университета в Лос-Анджелесе – предложили два возможных решения. Первое из них, «око за два ока», допускает ответное предательство, только если оппонент подложил вам свинью два раза подряд. При использовании второго, получившего название «Великодушная око за око», прощается треть всех предательств. В обоих случаях удается выйти из замкнутой петли сценария с информационным сбоем, но при этом тебя используют больше положенного.

Как решить эту проблему? Да просто менять частоту прощений в зависимости от вероятности сбоев в системе. («Простите, я опять опоздал: поезд задержался» звучит более правдоподобно и простительно, чем «Простите, я опять опоздал: опять прямо на дорогу упал метеорит».)

Карл Зигмунд (род. 1945)

Другой путь решения проблемы уязвимости к сигнальным сбоям в «око за око» – использование подвижной стратегии. В условиях бесконечного разнообразия стратегических возможностей многие начинают со стратегии «око за око», ходом событий вынужденные предавать. И когда ситуация приближается к вымиранию, переходят на «Великодушную око за око», которая при наличии информационных ошибок переигрывает обычный сценарий. Как осуществить переход от карательной «око за око» к режиму прощения? Установить доверие.

В живых системах предусматриваются и другие пути решения. Специалист по информационным технологиям из Мичиганского университета Джон Холланд ввел «генетические алгоритмы» – стратегии, которые со временем мутируют.

Еще учитывается фактор «стоимости» каждой из стратегий, которая приближает модели к реалиям мира: например, в «око за око» есть цена отслеживания и наказания мошенников, это стоимость систем наблюдения, зарплаты полиции, содержания тюрем. Ведь в мире, где нет ошибок в передаче информации, нет нужды в ином поведении, кроме как «око за око», а «око за око» может быть с легкостью заменена на более дешевую стратегию «всегда сотрудничай».

Получается, что если в системе происходят информационные сбои, то становятся важными стоимость возможных стратегий и вероятность перемен (мутаций). В этом случае запускается следующий цикл: из возможных стратегий, включая и эксплуататорские, и эгоистические, в конечном итоге остается «око за око», затем она замещается «Великодушной око за око», а та, в свою очередь, режимом «всегда сотрудничай». И все это работает до тех пор, пока не появятся мутации, формирующие эгоистические стратегии; они распространяются со скоростью лесного пожара, потому что ох как удобно быть волком среди овец, всегда готовых к сотрудничеству...*** 

Роберт Бойд (род 1948)

* Несколько лет назад в Англии стартовало игровое шоу Golden balls. На последнем этапе испытаний два игрока должны были решить свою версию дилеммы заключенного. Им предлагали горшок с деньгами (десятками тысяч фунтов), и каждый игрок волен был выбрать «Делить» или «Украсть». Если оба игрока выбирали «Делить», то вся сумма делилась поровну. Если один выбирал «Украсть», а другой – «Делить», то «вор» забирал все, а другой уходил ни с чем. Если оба выбирали «Украсть», то обоим не доставалось ничего.

** В 1962 г. вышла книга Юджина Бердика и Харви Уилера «Гарантия безопасности» (Fail-Safe, перевод на русский: М.: Книжный дом, 1991. – Прим. ред.). Это геополитический триллер, в котором проигрывается сюжет «око за око» с информационной ошибкой. В результате электронного сбоя в воздух поднимается эскадрон ядерных бомбардировщиков в полной уверенности, что на США напал Советский Союз. И они летят уничтожать Москву. Америка и Советы смотрят на все это, и американцы тщетно пытаются убедить русских не стрелять в ответ. Для Советов объяснения Америки, что, мол, «Ой, ошиблись, извините!», выглядят уловкой, а потому они начинают контратаку. Американский президент (списанный с Кеннеди), вытаращив глаза, демонстрирует свою искренность и старается остановить атаку: на помощь Советам он посылает своих бойцов, чтобы расстрелять летящие бомбардировщики. Некоторые оказываются сбиты, но остальные долетают до цели. Большая часть советского генералитета все еще уверена, что американцы обманывают. И наконец, чтобы остановить полномасштабный ядерный обмен, президент решается на последнее средство, какое допускает «око за око», и отдает приказ бомбить Нью-Йорк теми же бомбами, что и Москву. Вот такая дичь случается из-за сбоев информации. Эта книга меня, желторотого юнца, напугала тогда до дрожи в коленках, и я, выходя из дома в своем родном Нью-Йорке, то и дело поглядывал на небо – не летят ли бомбардировщики.

*** Особенно хитрая стратегия эксплуатации названа «павловской». Когда играется дилемма заключенного, то выгода для игрока убывает в следующем порядке: 1 – если он предает, а его оппонент наивно сотрудничает, 2 – если оба сотрудничают, 3-если оба предают, 4 – если он наивно сотрудничает, а его оппонент предает Павловский характер предполагает в основе своем сотрудничество, чередующееся с редкими случайными актами предательства. Правило поведения получается такое: если напарник и в случае обмана, и в случае сотрудничества ведет себя двумя первыми, выгодными для вас, способами, то нужно повторять свой предыдущий ход; если напарник отвечает двумя последними, невыгодными для вас, способами, то меняйте свое поведение. Это значит, что если вы играете против стратегии «всегда сотрудничай» или «Великодушной око за око», то ваш точечный обман не накажут совсем или это будет случаться редко, а следовательно, вы сможете время от времени использовать своего напарника.

Источник: Р. Сапольски. Биология добра и зла: Как наука объясняет наши поступки. – М.: Альпина нон-фикшн, 2020. – С. 310-315.

ЧТО ТАКОЕ БАЗА ЗНАНИЙ?

Концентрированная книга издательства LIVREZON складывается из сотен и тысяч проанализированных источников литературы и масс-медиа. Авторы скрупулёзно изучают книги, статьи, видео, интервью и делятся полезными материалами, формируя коллективную Базу знаний. 

Пример – это фактурная единица информации: небанальное воспроизводимое преобразование, которое используется в исследовании. Увы, найти его непросто. С 2017 года наш Клуб авторов собрал более 80 тысяч примеров. Часть из них мы ежедневно публикуем здесь. 

Каждый фрагмент Базы знаний относится к одной или нескольким категориям и обладает точной ссылкой на первоисточник. Продолжите читать материалы по теме или найдите книгу, чтобы изучить её самостоятельно.  

📎 База знаний издательства LIVREZON – только полезные материалы.

Следующая статья
Естественные науки
Микромир под прицелом: нобелевские методы исследования, когда объект изучения не виден
Исследователю нередко приходится изучать то, что не видно его глазу. Это могут быть отдельные молекулы (ДНК или любой белок), внутриклеточные структуры (ядро или органеллы) или микроорганизмы вроде бактерий или вирусов. В этой статье представлены Нобелевские открытия по физиологии и медицине, которые позволили исследователям преодолеть этот барьер и увидеть то, что раньше было скрыто. Представьте, что вы пытаетесь изучить нечто, чего не видите. Это может быть крошечная молекула, сложная внутриклеточная структура или даже целый микроорганизм. Как доказать ...
Естественные науки
Микромир под прицелом: нобелевские методы исследования, когда объект изучения не виден
Бизнес и экономика
Уставы Пахомия: переход от индивидуальной практики к зачаткам корпоративной культуры в IV веке
Естественные науки
Мозг работает, а тело дряхлеет? Скрытая угроза умственного труда: как уберечь здоровье и не стать заложником кресла
Бизнес и экономика
Один в поле не воин, или как собирать рацпредложения на предприятии
Бизнес и экономика
Чем полезно разделение труда: выдержки из Адама Смита
Психология и психофизиология
Деньги, внимание, любовь, престиж – что мотивирует нас больше всего и почему
Теория Творчества
Культура как фактор развития науки
Теория Творчества
Как спрогнозировать научное открытие: перечитываем Томаса Куна
Бизнес и экономика
Что делать, если не получилось делегировать? Схема передачи работы другому сотруднику
Бизнес и экономика
Решает ли бизнес-проблемы теория ограничений системы Элияху Голдратта?
Психология и психофизиология
Формула самоуважения по Уильяму Джеймсу, сформулированная в 1890 году
Бизнес и экономика
Конвергенция как основа для инноваций – Питер Друкер
Естественные науки
Прогулки в детских больницах: распорядок, организация, особенности
Педагогика и образование
Как формируется интерес к обучению
Гуманитарные науки
Как совершенствовать собственную личность?
Бизнес и экономика
Как преодолеть сопротивление инновациям в компании