Tag Archives: вероятность

Как и когда вы умрете

как вы умрете Натан Яу, автор сайта FlowingData и нескольких книг, статистик по профессии, представляет любопытные интерактивные графики, построенные на статистических данных.

На первом – показана вероятная причина смерти от различных причин (данные американские, поэтому могут отличаться от причин российского происхождения).

Вот, например, белая женщина, которой сегодня 45 лет и причина ее смерти, допустим, в 95 лет – сердечно-сосудистое заболевание, на первом месте, и рак, на втором. Только 7% ее ровесниц доживет до такого возраста.

график причины смертности

А вот белый мужчина 21 года, который, если и умрет в 32 года, то, с очень большой вероятностью, – от внешних причин.

причина смерти на графике

Вы сами можете поиграться со своими данными здесь.

Напоминание о смерти (mortality salience) – неплохо изученный вопрос в психологии, и в умеренных дозах вполне полезен для психического здоровья как человека, так и общества.

Другой график касается вопроса «сколько лет осталось жить». Также основан на американских данных.

На примере данные женщина 27 лет. С вероятностью в 75% она проживет еще 50 и более лет.

сколько лет осталось прожить

Можно поиграться и «узнать» свои результаты здесь.

Такой прогноз кажется абстрактным, и он таковым является. Но интересно, насколько повысится персонализация и точность таких прогнозов, учитывая растущие горы данных? Если по человеку снимаются данные о качестве его сна, давлении, характеристиках пульса, маршрута до работы с точной статистикой аварий на нем, наложенные на его генетические данные, историю болезни и сотни других параметров, то результаты будут становиться точнее. И одновременно, самоценность и статичность такого результата будет падать, ибо никому не нужна дата и время своей смерти, но способы ее избегания. Возможностей таких будет становиться все больше и больше.

Например, если человек проживает в стране третьего мира, то он может улучшить свои значения, переехав в страну с лучшей санитарией, медициной и социальной средой. Это самый простой пример, а сложные возможности будут оперировать не столь очевидными связями.

Между тем, диктаторские страны с развитой коррупцией имеют и статистику, подтасованную под благоприятную картинку. Верить ей нельзя, и это ведет и к уменьшению персонализированных данных по человеку, и к уменьшению способов снижения рисков для жизни. И это нормально, так как в таких странах цена жизни людей, не принадлежащих к верхушке, исчезающее мала. Получается, что технологии увеличивают ценность человеческой жизни, просто по факту своего применения.

Русский реализм

Risk Savvy Герд Гигерензер в своей новой книге (Gigerenzer, 2014) упоминает русских, в любопытном контексте.

Гигерензер – директор Центра адаптивного поведения и когнитивных способностей в Институте Развития Человека имени Макса Планка в Берлине. Он занимается многими интересными вещами, и в частности, психологией принятия решений и оценкой вероятностей событий.

В книге приводится пример с ситуацией регулярной проверки грудей женщин (маммографией) и простаты у мужчин (на PSA). Очень часто организации, призывающие к таким проверкам, заявляют о том, что такие проверки ведут к 20% снижения риска смертности от рака груди или простаты. Но это риск относительный, а не абсолютный. Вот как они его выводят: из каждой тысячи женщин, которые не участвуют в таких ежегодных проверках, начиная с возраста в 50 лет, около пяти умрут в течение десяти лет от рака груди. А из каждой тысячи женщин, которые участвуют, умрут только около четырех. Снижение с пяти до четырех и дает эти относительные 20%. У мужчин – аналогичная ситуация с проверкой на PSA: снижение идет с 3,7 человек до 3. Но это, как утверждает Гигерензер, сознательная дезинформация.

Для того чтоб понять, как такая искаженная информация влияет на людей, он с коллегами (Gigerenzer, Mata & Frank, 2009) провел исследование в девяти в европейских странах. Ученые опросили более десяти тысяч человек в Австрии, Франции, Германии, Италии, Голландии, Испании, Польше, Великобритании и России. Мужчин спрашивали о пользе регулярной проверки PSA, а женщин – маммографии.

восприятие пользы Как видно из графика выше, русские оказались наиболее точными – только 77% мужчин переоценивают пользу от таких проверок. Для сравнения – 99% британцев верят в искаженную информацию, что такое сканирование приведет к 20% снижению их смертности. Фактически, идея, которую им внедрили в головы, звучит даже так: «регулярная проверка на PSA приведет к снижению вероятности моей смерти на 20%». Но это не так.

В целом, во всех европейских странах, только 11% мужчин и 8% женщин реалистично оценивают пользу от сканирования. Русские лидируют в реализме: 23% мужчин и 18% женщин. Гигерензер полагает, что дело не в том, что русские лучше других разбираются в теории вероятности и статистике, а в том, что они получают меньше ложной информации. Но мы-то знаем, что является настоящей причиной :)

Шутки шутками, но Гигерензер в своей книге показывает, на множестве других примеров, как такого рода некорректные представления весьма опасны для жизни, и предлагает начать этим интересоваться и понимать риски, которые нас окружают, реально их представлять, и предпринимать необходимые действия. Рекомендую к прочтению.

Gigerenzer, G., Mata, J., & Frank, R. (2009). Public knowledge of benefits of breast and prostate cancer screening in Europe. Journal of the National Cancer Institute, 101(17), 1216–20. doi: 10.1093/jnci/djp237.

Gigerenzer, G. (2014). Risk savvy: how to make good decisions. New York: Viking.

Диаграмма адаптирована из книги.

Теорема Бейза в картинках

Теорема Бейза Я писал ранее о проблемах тестирования на наркотики, используя теорему Бейза. Вот недавно познакомился с более понятным способом ее представления. Судя по статистике обращений, эта тема задевает многих молодых людей, у которых был показан положительный результат теста на наркотики, в то время как человек их никогда не употреблял. Это может иметь катастрофические последствия для судьбы человека, в то время как необходимость и польза от этих тестов для общества еще должна быть аргументирована чем-то более весомым, нежели сейчас.

Итак, допустим, что у нас есть тест на определение какого-то наркотика в организме человека, и мы хотим проверить большую группу людей, например всех студентов учебных заведений города.
Есть данные, что число наркоманов в России – 2%. Эта цифра спорная, разумеется, но лучше ничего нет.
Допустим, что чувствительность теста – 99%. Это хорошая чувствительность. Эта чувствительность говорит нам, что из 100 человек, точно употреблявших наркотики, тест выявит 99 человек, и одного он «упустит».
Нам надо знать еще одну цифру – специфичность теста. Она не всегда указывается на тестах, и если она не указана, это говорит о том, что с тест не может сказать одну важную вещь. Специфичность теста, например в 99%, говорит о том, что среди 100 людей, точно не употреблявших наркотики, 99 человек покажут отрицательные результаты, а один покажет ложноположительный результат.

Итак, мы проверяем 10000 человек на наркотики, имея тест с чувствительностью в 99%, и со специфичностью 99%, а базовая величина наркоманов равна 2%.
Мы создаем такую таблицу:Вписываем в нее число людей, которых мы будем проверять: Популяция Вписываем число людей, которые, согласно статистике, употребляют наркотики, 2%, то есть 200 человек:
Число людей. принимающих наркотики

Вписываем число людей, которые не употребляют: 10000 – 200 = 9800: Число людей, не употребляющих наркотики Теперь мы определяем, сколько людей определит чувствительность теста. Поскольку чувствительность равна 99%, то положительный тест покажут 198 человек (99% от 200): Число людей с положительным результатом теста на наркотики Соответственно, ложноотрицательный (человек наркотики употреблял, но тест его не выявил) — 2 человека: Число людей с ложноотрицательным результатом Теперь, специфичность теста. Она равна у нас 99%, и из 9800 людей, не употреблявших наркотики, он покажет отрицательный тест у 99% людей, то есть у 9702 студентов: Специфичность теста - кто не употребляет и результат отрицательный И он покажет ложноположительный результат (наркотики не употребляли, но тест определил, что употребляли) у 98 человек:Теперь заполним все итоговые колонки: Заполненные ячейки таблицы Теперь мы переходим к самому интересному. Вопрос такой: какова вероятность того, что человек не употреблял наркотики, но тест показал положительный результат? Нам надо разделить 98 на 296.

Получается 33%. То есть, один из трех людей, не употреблявших наркотики, может быть заподозрен в наркомании!

Соответственно, вероятность того, что тест будет позитивным в случае, если человек действительно употреблял наркотики, будет 198 делить на 296, то есть 67%.

Разумеется, этого недостаточно для принятия решения. И нужен повторный тест. Повторный тест теперь будет оперировать превалирующим процентом не в 2% от популяции, а в 67%, для тех, кто не согласен с результатами теста. И там точность вырастает драматически:
Результаты второго теста

Теперь, для человека, который не употреблял наркотики, вероятность того, что он опять получит положительный результат, составляет 33 делить на 6666 = 0,5%. Для тех, кто употреблял и тест положительный – 99,5%. Это уже серьезная вероятность.

Теорема Бейза применима ко многим ситуациям в нашей жизни: тестам на заболевания, на допинг в спорте, в спам-фильтрах, в судебных процессах, и во многом другом. Она может использоваться и для предсказаний поведения в будущем, например, вероятность того, что кто-то совершит преступление или вылетит из школы. Однако надо учитывать, что чем меньше превалирующее значение имеет такое поведение, тем выше будет вероятность ошибки.

Если число наркоманов составляло бы 10% населения, то тест был бы гораздо точнее. Если у человека плохие оценки в школе, но число исключенных из нее составляет доли процента, то вероятность того, что по оценкам человека можно предсказать его вылет из школы, весьма мала. С другой стороны, если 30% учащихся школы заканчивают свою юность в тюрьме, то точность предсказания будущего увеличивается.

Как верно сказал Nat Napoletano: «Вы не должны прожить свою жизнь, не поняв теорему Бейза».

Фото в начале статьи из Википедии.

Понимание неопределенности

Микроморт – единица риска, обозначающая вероятность смерти, равную одному шансу на миллион. Микроморты полезны для измерения и лучшего представления рискованности различных видов деятельности. Термин был придуман Рональдом Говардом (Ronald Howard) и образован от слияния двух слов: микро – одна миллионная, и mortality (англ.) – смертность.
По-другому 1 микроморт можно представить как русскую рулетку, когда смерть наступит в случае, если подброшенные одновременно 20 монеток покажут решку или орла. Статья в википедии.

ЗА каждый прожитый день мы получаем 39 микромортов (при продолжительности жизни в 70 лет), просто за то, что мы живы. Три сигареты добавят 2 микроморта (шансы получить сердечно-сосудистое заболевание и рак легких). Скушать 100 стейков (шашлыков), пожаренных на огне, стоит тоже 1 микроморт (шанс умереть от рака, вызванного бензопиреном). Один микроморт в Великобритании оценивается в 1,6 фунтов стерлингов (порядка 77 рублей).

Это очень полезная концепция, потому что позволяет представить себе риски, которые иначе очень трудно воспринять. Вот как выглядит рискованность различного вида перемещений и их риска (картинка в самом верху). Как видите, мы получаем 1 микроморт за поездку в 250 миль (400 километров) на автомобиле, а за то же самое расстояние на мотоцикле мы заполучим суточную дозу!

Более подробно про эти и другие интересные вещи – на сайте Understanding Uncertainty. Там много полезной и интерактивной анимации, в том числе, с возможностью введения своих данных.

Стань голосующим против Партии воров и жуликов!

it's up to you 1958 Массовые проявления политической воли в виде голосования необходимы для существования демократии, но, с точки зрения собственных интересов, голосование для индивидуума – иррациональное поведение. Вероятность того, что голос отдельного избирателя повлияет как-то на лично его жизнь или политический расклад в стране, драматично статистически ниже того, что он погибнет под колесами автомашины, идя на избирательный участок. Но есть слабо измеряемое желание людей чувствовать себя социально значимыми, представлять, что от его желания и способностей, от его выбора что-то зависит. Выборы представляются человеку как возможность выразить себя, как значимое осознанное поведение. Иррациональность при этом, кстати, никуда не девается.

В одном исследовании (Gelman & Heyman, 1999) было показано отличие существительного атрибута от глагольного атрибута: дети считали, что “ребенок-поедатель морковки” любит морковку больше, чем “ребенок, который есть много морковки”. Интересно, правда? И вот психологи из Стэнфорда, Гарварда и Университета Калифорнии в Ирвине (Bryan et al., 2011) решили проверить, как это работает на выборах.

Участников экспериментов просили ответить на один из двух видов вопросника. В одной версии вопросы были связаны с существительным атрибутом – “Как важно для вас быть избирателем на предстоящих выборах?”. А в другой версии вопросы были связаны с глагольным атрибутом – “Как важно для вас голосовать на предстоящих выборах?”. Было проведено три эксперимента, и результаты последних двух вы можете видеть на графике (адаптирован из Bryan et al., 2011).

Результаты экспериментов по увеличению явки избирателей Так, например, в Калифорнии, исследователи спрашивали людей, зарегистрированных на выборах, но еще не голосовавших, не хотят ли они пройти избирательный опрос, и после получения согласия, давали им “глагольную” или “существительную” версию вопросника. Все это происходило за день до выборов или уже утром, в день выборов. После этого психологи использовали официальные данные штата Калифорния по каждому участнику, голосовал он или нет. Ученые также использовали данные переписи, чтобы определить базовую вероятность того, пойдет человек голосовать или нет, на основании его демографических показателей: возраста, пола и уровня образования. Это, кстати, статистически значимый предсказатель, будет ли человек голосовать или нет. Так, например, эта вероятность в Калифорнии на тех выборах составляла 63,9%, а фактическая составила 79,4%. Явка участников в “глагольном” условии – 81,8% . а в “существительном” условии – 95,5%.

Исследователи объясняют высокую явку даже в “глагольном” условии в сравнении с базовой вероятностью тем, что, во-первых, люди, которые соглашаются участвовать в подобном избирательном опросе, вероятнее всего будут голосовать. Во-вторых, ряд исследований показывает, что такой опрос сам по себе вызывает рост явки избирателей.

Описание будущего поведения способом, который дает желаемую идентичность, увеличивает мотивацию и вероятность такого поведения. Разумеется, можно использовать этот феномен как технику для созидания желаемого “я”. И тогда, вместо вопроса “Что я хочу делать?” надо спросить “Кем я хочу стать?”

Bryan, C. J., Walton, G. M., Rogers, T., & Dweck, C. S. (2011). Motivating voter turnout by invoking the self. Proceedings of the National Academy of Sciences. Doi:10.1073/pnas.1103343108.

Gelman, S.A., & Heyman, G. D. (1999). Carrot-eaters and creature-believers:The effects of lexicalization on children’s inferences about social categories. Psychological Science, 10:489–493.