Парадокс конвертов губит природную симметрию случая

Игра с двумя конвертами и деньгами в них – лишь наглядная модель одной проблемы в теории игр и теории вероятности, решить которую безуспешно пытаются уже много лет (фото с сайта tokyo-stories.com).

Двое исследователей из Австралии нашли перспективный подход к 80-летней загадке, объяснение которой может иметь последствия для массы теоретических и прикладных областей: от наглядного понимания некоторых парадоксов термодинамики и оптимизации работы технических систем до улучшения электронных схем и составления победной стратегии игры на фондовом рынке.

Называется эта загадка «Парадокс (проблема) двух конвертов» (Two envelopes problem). В различных вариациях и формулировках она известна математикам с 1930 года, хотя именно в облике двух конвертов была описана только в конце 1980-х.

Итак, играем. Вам предлагаются два конверта с деньгами (взвешивать, ощупывать и просвечивать их, понятно, нельзя). Вы знаете только, что в одном из них содержится сумма ровно вдвое большая, чем во втором, но в каком и какие именно суммы — совершенно неизвестно. Вам позволено открыть любой конверт на выбор и взглянуть на деньги в нём. После чего вы должны выбрать — взять себе этот конверт или обменять его на второй (уже не глядя).

Вопрос — как вам поступить, чтобы выиграть (то есть получить большую сумму денег)? Кажется, что шанс на выигрыш и проигрыш всегда одинаков (50%) вне зависимости от того, оставите ли вы себе открытый конверт или возьмёте вместо него второй. Ведь вероятность нахождения большей суммы в конверте A изначально такая же, как вероятность, что более внушительные деньги лежат в конверте B. И открытие одного из конвертов (A) ничего не говорит вам о том — видите вы наибольшую или наименьшую сумму из двух предложенных. Однако вычисление средней ожидаемой «стоимости» второго конверта говорит об ином.

В идеале конверты должны быть одинаковыми, дабы исключить отвлекающие от сути проблемы рассуждения игрока о том, в какой из двух конвертов ведущий захотел бы положить большую сумму, а в какой – меньшую (фото с сайта Wikimedia Commons).

Допустим, вы увидели $10. Стало быть, в другом конверте лежат либо $5, либо $20 с вероятностью 50 х 50. По теории вероятности средневзвешенная сумма в конверте B равна: 0,5 х $5 + 0,5 х $20 = $12,5. Разумеется, открыв альтернативный конверт, вы увидите не эту сумму, а либо 20, либо 5 долларов, просто по условиям игры. Но 12,5 — такова (по вычислениям), как кажется, будет средняя сумма выигрыша на кон при проведении достаточно большого числа раундов, если вы всегда будете менять конверты.

И этот результат не зависит от первоначальной суммы денег. Ведь в разных раундах могут использоваться разные пары (10 и 20, 120 и 60, 20 и 40, 120 и 240 и так далее). То есть в общем виде, если в конверте А лежит сумма С, то статистически ожидаемая сумма в конверте B составит 0,5 х С/2 + 0,5 х 2С = 5/4 С.

Таким образом, теория говорит, всегда выгодно менять первоначальный свой выбор (12,5 больше 10), хотя в отдельных раундах вы будете проигрывать. Но против такого вывода восстаёт интуиция, которая просто кричит о принципиальном равенстве конвертов. Ведь поменяв их вы можете начать все рассуждения сначала (не открывая второй) и поменять снова.

На разрешение данного парадокса не один раз претендовали различные учёные. Более того, идут даже споры о том, как понимать — в чём тут заключается сам парадокс. Но математическое сообщество до сих пор не пришло к консенсусу, так что задача осталась открытой.

Теперь же свою разгадку (вернее, подход вплотную к её окончательному разрешению) и своё видение подводных камней данной проблемы предложили Марк Макдоннел (Mark McDonnell) из университета Южной Австралии (University of South Australia) и Дерек Эбботт (Derek Abbott) из университета Аделаиды (University of Adelaide). Не расставив ещё всех точек над i, эти исследователи, как они считают, поняли, в чём заключалась принципиальная ошибка предшественников.

Сам Дерек (ключевая фигура в данном деле) признаёт, что первый намёк на решение парадокса возник не у него, а у профессора из Стэнфорда Томаса Ковера (Thomas M. Cover), признанного специалиста по теории информации и статистике. В 2003 году Эбботт работал в Британии (кстати, на своей родине). И вот как-то, обедая вместе с Ковером, он обсуждал с ним загадку двух конвертов. Томас и предложил оригинальную стратегию выигрыша, превосходящую в эффективности даже правило «всегда меняй конверты».

Томас Ковер занимается теорией информации 35 лет. Неудивительно, что некоторые противоинтуитивные, казалось бы, вещи становятся для него просто понятными и очевидными (фото Stanford University).

Заключается она в следующем. Нужно менять или не менять конверты в каждом заходе случайным образом, но с вероятностью, которая зависит от суммы, увиденной в первом конверте. То есть чем меньше сумма в конверте А, тем с большей вероятностью следует сменить конверт и наоборот, несколько большая сумма в А говорит о том, что скорее следует оставить первый конверт себе.

Тогда, в 2003-м, Дерек посчитал идею своего коллеги бредом и отказался продумывать такую стратегию. И учёного можно понять: рассудите сами, увиденная сумма не говорит человеку ровным счётом ничего о намерении, условно, ведущего (который раскладывает деньги), ведь игрок не знает — в каком вообще диапазоне играет его оппонент. Может быть, от 10 центов до 100 долларов, а может, от 5 долларов до ста миллионов. И увиденные, к примеру, однажды $25 равнозначно могут (в рамках всей партии) оказаться и сущей мелочью, и самой большой поставленной на кон суммой. И оттого неясно — стоит ли менять конверт в данном раунде игры или нет.

Однако, раскинув мозгами, Эбботт увидел за «стратегией Ковера» (так австралийские математики и назвали данный приём) глубокий философский и даже физический смысл. «Видимый парадокс возник потому, что нельзя избавиться от ощущения, что открытие конверта и наблюдение $10 на самом деле ещё не говорит вам ничего. И поэтому казалось странным, что ожидаемое значение вашего выигрыша в случае смены конверта составляет $12,5, — пояснил Эбботт. — Но мы объясняем этот казус с точки зрения нарушения симметрии. До открытия конвертов ситуация является симметричной, поэтому не имеет значения, будете вы менять потом конверт или нет. Однако после того как вы открываете конверт и используете стратегию Ковера, вы нарушаете симметрию (сразу после открытия конверта А оба конверта уже не равноценны), а затем обмен конвертов позволяет вам получить выгоду в долгосрочном плане (при большом числе заходов)».

Всё это напоминает ситуацию с «редукцией» кота Шрёдингера к одному из двух состояний (мёртв или жив), хотя до открытия коробки с ядом он находится в суперпозиции возможных состояний. Это проблема влияния наблюдателя на результат наблюдения. Чувствуете, что мы подбираемся к неким основам Природы?

Ныне свыше 20 миллионов компьютерных симуляций, проведённых Макдоннелом и Эбботтом, показали, что стратегия Ковера позволяет получить больше денег в игре с конвертами, чем простой обмен. А ещё, открыли австралийские учёные, предопределённый обмен, когда игрок выбирает альтернативный конверт только в том случае, если увиденная в первом сумма меньше заранее и наугад выбранного им самим (игроком) значения, тоже работает. И это так же противоинтуитивно, поскольку о минимальной планке «переключения» знает игрок, но не те, кто кладёт деньги в конверты.

Чтобы досконально понять, как это так получается, можно посмотреть статью авторов исследования в Proceedings of the Royal Society A. Для нас же важно общее объяснение тайны этой игры. И здесь нам потребуется обратиться к аналогиям из мира физики и не только.

Первая — «Броуновский храповик» (Brownian ratchet), придуманный знаменитым физиком Ричардом Фейнманом. Это мысленное устройство, являющее собой частный случай не менее знаменитого Демона Максвелла, отряжённого злостно нарушать второе начало термодинамики, то есть производить полезную работу без разности температур двух источников, а лишь за счёт внутренней (тепловой) энергии единственного объекта (сосуда с газом).

Устройство броуновского храповика (иллюстрация с сайта wikipedia.org).

Устроен и действует фейнмановский храповик так (смотрите рисунок вверху). Имеются две камеры (ящика) с молекулами газа (они показаны красными кружками). Камеры соединяет миниатюрный вал (работающий без трения), на одном конце которого имеется колесо с лопастями (слева), а на противоположном — шестерёнка с храповым механизмом (справа). Между ними на валу — груз на верёвочке.

Храповик разрешает валу вертеться в одном направлении, но запрещает проворачиваться в другом. Броуновское движение молекул в левой камере приводит к хаотичным ударам их по лопастям, но поскольку двигаться лопасти могут только в одну сторону, эти удары постепенно сдвигают колесо, производя работу по поднятию груза за счёт только одной тепловой энергии молекул в первой камере.

«Хитрость с броуновским храповиком заключается в том, что он опять-таки использует идею разрушения симметрии», — говорит Эбботт. Данное устройство извлекает (вроде бы) полезную работу из броуновского движения, так же, как игрок «извлекает» повышение своего благосостояния из случайного обмена конвертов с нарушенной симметрией (по принципу Ковера). Неравноценная ситуация с вероятностями выигрыша и проигрыша в парадоксе конвертов — аналог храповика Фейнмана.

Правда, физически такой храповик не может существовать, даже если бы умелые нанотехнологи его смогли бы построить. Почему так — объяснил сам Фейнман. Защёлка храпового механизма должна быть сама достаточно небольшой, чтобы двигаться в ответ на удары отдельных молекул по лопастям «мельницы». А потому защёлка будет не менее хорошо колебаться и от собственного броуновского движения, время от времени раскрываясь и позволяя валу сдавать назад.

Фейнман высчитал, что если температуры (Т1 и Т2) в камерах равны — средняя сумма движений вперёд будет уравновешена средней суммой движений назад, так что сумма будет равна нулю. Если же T2 будет меньше Т1, то действительно можно было бы наблюдать движение данных колёс вперёд. Но в этом случае энергия будет добываться из градиента температур, в согласии с законами физики.

С деньгами всё несколько проще. Но броуновский храповик помогает нам понять принцип работы новой стратегии «обмана» envelopes problem. Ещё интереснее аналогия парадокса двух конвертов с другим математическим феноменом — парадоксом Паррондо (Parrondo’s paradox).

Дерек Эбботт (на снимке) считается ведущим исследователем парадокса Паррондо (фото с сайта wikipedia.org).

Звучит он так: «Взяв две (основанные на случае) игры, каждая из которых имеет более высокую вероятность проигрыша, чем победы, можно построить выигрышную стратегию, играя в эти игры поочерёдно».

Пример тут таков. Допустим, у нас есть начальный капитал. Далее мы пошагово прибавляем к нему $1 или вычитаем $1 в зависимости от результата бросания монеток (орёл-решка, угадали или нет). Но монетки не обычные, а ассиметричные, так что вероятность выпадения одной из сторон отлична от 50%.

Далее, у нас в игре с капиталом имеется на самом деле две игры — А и В. Причём в игре А используется монета 1 с вероятностью нашего выигрыша 0,5 — e, где е — чуть больше нуля. Понятно, что при большом числе бросков игра А — всегда проигрышна для нас.

В игре B имеются две (тоже несимметричные) монеты (2 и 3), существенно отличные по вероятности нашего выигрыша друг от друга: например (1/10) — е и (3/4) — е. Кроме того, заранее вводится наугад выбранное число М. И правило: если текущий капитал кратен М — в данном раунде бросаем монету 2, если не кратен — монету 3.

Всё тот же Эбботт ранее показал, что при М = 3 и е = 0,005 игра В — проигрышна так же, как и А. Ещё анализ говорит о том, что вероятность применения в очередном раунде «плохой» монеты округлённо составляет 0,6 против 0,4 для «хорошей», отсюда и проигрыш в сумме многих попыток. Но вот парадокс: чередование игр А и В позволяет нарастить капитал, несмотря на проигрышность обеих! Да, вовсе не любое чередование ведёт к победе. А только некоторые комбинации, к примеру, такая — ABBABB и так далее.

Для рассеивания иллюзии парадокса (а он таков только для наших поверхностных суждений, на деле же — закономерный итог теории вероятности, что показали модели с применением сложных принципов анализа) следует понимать, что в комбинации двух игр обе становятся связанными. Эту почти мистическую связь организует как раз число М. Ведь с его введением ход игры В начинает быть зависимым и от хода игры А. Если бы связи не было — любая комбинация игр всё равно приводила бы к проигрышу.

Тут и начинает брезжить свет в проблеме конвертов. Отдельные две игры с монетками являются проигрышными только при статистическом распределении результатов всех бросков партии, отличном от того, который формируется, когда объединяются эти две игры. Введение числа М и связи выбора монеты с капиталом (который, один-единственный, уменьшается и увеличивается как в игре А, так и в игре В) смещает вероятность распределения всех бросков в состояние, при котором появляется положительное ожидание (результата). А «конверты» и «Паррондо» — суть родственные парадоксы. Сам Дерек называет решение проблемы двух конвертов прорывом в области анализа парадокса Паррондо (имеющего массу проявлений в жизни). А главная ошибка ряда предшественников Дерека – высчитывание вероятности определённых событий с независимыми исходными переменными, которые независимыми на деле не являются.

И здесь пора перейти к третьей аналогии — из области финансов. «Volatility pumping» — «Накачка волатильности». Это не мифическая «золотая» программа для игры на бирже, но упрощённая модель, показывающая некоторые полезные особенности выигрышной стратегии игры с акциями (товарами, облигациями и прочим).

Понятно, что если игрок располагает информацией о приобретаемых финансовых инструментах (состояние компании, судебные дела против её менеджеров, урожай апельсинов в этом году или открытие нового месторождения нефти), он может составлять свой портфель осознанно. Но если ему не известно ничего, кроме текущей цены акции (или иного приобретения), и того, куда цена сейчас движется? Ни того, будет ли цена ещё падать, или позже начнётся рост? Ни того — является ли нынешняя цена максимальной, минимальной или позже будет огромный провал.

Как это похоже на выбор из двух конвертов: больше во втором сумма, чем та, что вы держите в руках, или меньше? «Насос волатильности» предполагает достаточно хаотичную куплю-продажу активов с небольшим лагом (купили дешевле — продали дороже), без всякого беспокойства о том, получили ли вы в данный момент самую большую выгоду от сделки или упустили шанс стать ещё богаче. И это очень похоже на случайную смену конвертов с некоторым «градиентом» в зависимости от величины наблюдаемой суммы (опять стратегия Ковера).

Марк Макдоннел (на снимке), как и его напарник по исследованию Эбботт, полагает, что открытые в ходе «раскалывания» парадокса двух конвертов закономерности позволят многие любопытные процессы объяснить на единой математической основе, а это даст толчок к новым исследованиям в различных сферах – от математики и теории информации непосредственно до физики и техники (фото University of South Australia).

И это также похоже на принцип работы броуновского храповика. И этот же принцип схож с ситуацией, когда требуется улучшить работу технической системы при неполных данных об условиях её работы. «Вызывает удивление то, что наш анализ показывает — всегда можно увеличить полученный (в игре с конвертами) капитал, используя метод Ковера, ничего не зная о допустимом пределе суммы в раундах, равно как о статистическом распределении купюр по раундам», — говорит Дерек.

Но можно ли, допустим, применить следствие из парадокса Паррондо (или объяснения феномена конвертов) к фондовому рынку, то есть получить доход, комбинируя акции вроде игры АВВАВВ? Увы, парадокс требует, чтобы доходность по меньшей мере от одного инструмента зависела от величины текущего суммарного капитала (как выбор монеты от кратности уже выигранной суммы числу М), а это фикция. Или нет?

Умение разглядеть истинные связи между явлениями там, где связей, казалось бы, нет — очень ценное свойство учёного. Оно помогает объяснить процессы, выглядящие для поверхностного наблюдателя как невероятные. Так от пресловутой игры с двумя конвертами ниточка тянется ко множеству других областей, в которых проявляется взаимодействие объектов с асимметрией случайности, не важно, порождается ли такая асимметрия храповым механизмом, открытием конверта А или законами рынка.

И не зря, к примеру, Эбботт также известен как исследователь стохастического резонанса — парадоксального, на первый взгляд, явления усиления полезного (периодического) сигнала в нелинейных системах при добавлении к нему белого шума. Это интересное явление ныне находит применение в электронных системах.

Смотрите, какая красивая аналогия. Откуда «природа» знает, какую часть импульса усиливать? Это так же неизвестно, как и то, в каком из двух конвертов большая сумма денег. Однако, при ряде условий, вероятность правильного усиления оказывается выше, чем вероятность подавления полезной составляющей добавленными помехами. Так же как вероятность выигрыша в «конверты» может быть сознательно повышена, в пику кажущейся неопределённости исхода этой простой игры. Но какие уж тут игрушки.



Воспоминания моллюсков выводят узоры на растущих раковинах

9 апреля 2009

Стартовала первая в мире рекламная кампания стоимостью в триллионы долларов

2 апреля 2009

Обезьяны познали ценность денег

24 декабря 2008

Британские учёные расшифровали химию справедливости

6 июня 2008

Учёные затрясли вирусы до смерти

6 февраля 2008
  • Георгий Ходарев  20 февраля, 22:29
    Потому, что статистика двух попыток всегда будет больше статистики одной попытки . С двух раз угадать легче, чем с одной.
    ОтветитьНравится
  • На мой взгляд, нет здесь никакого парадокса, есть неверная постановка задачи и неправильный подсчет вероятностей.
    Давайте попробуем описать задачу правильно. Есть сумма (S), которая распределена между двумя конвертами, в одном конверте находится 1/3S, а в другом 2/3S.
    При случайном выборе из этих конвертов средневзвешенная сумма нашего выигрыша составит 0,5*1/3S+0.5*2/3S=0.5S — то есть половину от общей суммы находящихся в конвертах.
    Обратите внимание, что выигрыш нужно оценивать не по отношению к содержимому любого из конвертов, а к общей сумме, участвующей в игре, нам же интересно получить большую часть именно от этой суммы.
    То есть правильно описать приведенную задачу следует так:
    У нас есть $30, в одном конверте находится $10, в другом 20$.
    Мы случайным образом выбираем конверт, вскрываем его и выбираем другой.
    Если в открытом конверте $10 мы выиграем $20.
    Если в открытом конверте $20, то нам достанется $10.
    Средневзвешенная сумма нашего выигрыша составит 0,5*10+0,5*20= 15
    То есть половину от общей суммы в конвертах – никакого парадокса не наблюдается.
    В рассматриваемом в статье примере мы открыли конверт и увидели там $10, в этом случае возможны 2 варианта — в розыгрыше учувствует либо $15, либо $30.
    При первом варианте мы получим, открыв второй конверт, $5- что составляет 1/3 общей суммы, а при втором найдем во втором конверте $20 – что составляет 2/3 от общей суммы.
    Средневзвешенная сумма нашего выигрыша в отношении к общей сумме составит
    0,5*1/3S+0.5*2/3S= 0.5S (где S величина переменная)- то есть, никакого парадокса нет.
    Подставлять же в эту формулу значение S нельзя, так как это 2 разные суммы, 2 разных случая. При множественно повторении нашего опыта наш выигрыш будет приближаться к половине от общей разыгрываемой суммы, как и при случайном выборе конвертов без замены.
    Таким образом, парадокс вызван тем, что вероятность выигрыша считается относительно суммы находящейся в одном конверте, хотя верно оценивать выигрыш по отношению к общей разыгрываемой сумме, то есть это всего лишь кажущийся парадокс, не дающий в реальности никакого преимущества.
    ОтветитьНравится
  • Сергей Давыдов  21 февраля, 19:09
    Суть этого парадокса в неправильном применении статистической формулы — средняя арифметическая величина. Поскольку суммы в конвертах заданы отношением «в два раза», то речь идёт об относительных величинах и для расчёта математического ожидания должна применяться средняя геометрическая, и тогда парадокс исчезает. Если бы суммы в конвертах различались абсолютно, то есть «на столько-то единиц», тогда средняя арифметическая применялась бы правильно, и не возникал «парадокс».
    Итак:
    Пусть сумма в первом конверте равна А, а сумма в конверте В больше или меньше в два раза. Тогда ожидаемая сумма во втором конверте В равна ((А*0.5)*(А*2))^(0.5), что равно А.
    Пусть сумма в первом конверте равна А, а сумма в конверте В больше или меньше на Х единиц. Тогда ожидаемая сумма во втором конверте В равна ((А-Х)+(А+Х))/2, что тоже равно А.
    Это элементарно, Ватсон.
    ОтветитьНравится
  • Клим Самгин  14 июля, 18:50
    Ребята, Вы , конечно молодцы, все правильно: переменные , постоянные, геометрические, арифметические, относительные и т.д. Но ларчик открывается гораздо проще )) Речь идет об элементарном подлоге понятий. Нет игры вот и  нет симметрии )) Какая же это игра когда игрок в обоих случаях выигрывает ))). Вот если при второй попытке игрок терял бы все, вот вам и средняя «А», ну а если почестному, то игрок должен был бы ставить ставку равную желаемому удвоению, вот вам и равновесный 0. Вообще говоря, этот парадокс – детский лепет какой-то, Ожидать симметрии в изначально заданных асимметричных условиях??? Как в этом рассмотрели парадокс – непонятно!!
    ОтветитьНравится