Tag Archives: теорема Бейза

Теорема Бейза в картинках

Теорема БейзаЯ писал ранее о проблемах тестирования на наркотики, используя теорему Бейза. Вот недавно познакомился с более понятным способом ее представления. Судя по статистике обращений, эта тема задевает многих молодых людей, у которых был показан положительный результат теста на наркотики, в то время как человек их никогда не употреблял. Это может иметь катастрофические последствия для судьбы человека, в то время как необходимость и польза от этих тестов для общества еще должна быть аргументирована чем-то более весомым, нежели сейчас.

Итак, допустим, что у нас есть тест на определение какого-то наркотика в организме человека, и мы хотим проверить большую группу людей, например всех студентов учебных заведений города.
Есть данные, что число наркоманов в России – 2%. Эта цифра спорная, разумеется, но лучше ничего нет.
Допустим, что чувствительность теста – 99%. Это хорошая чувствительность. Эта чувствительность говорит нам, что из 100 человек, точно употреблявших наркотики, тест выявит 99 человек, и одного он «упустит».
Нам надо знать еще одну цифру – специфичность теста. Она не всегда указывается на тестах, и если она не указана, это говорит о том, что с тест не может сказать одну важную вещь. Специфичность теста, например в 99%, говорит о том, что среди 100 людей, точно не употреблявших наркотики, 99 человек покажут отрицательные результаты, а один покажет ложноположительный результат.

Итак, мы проверяем 10000 человек на наркотики, имея тест с чувствительностью в 99%, и со специфичностью 99%, а базовая величина наркоманов равна 2%.
Мы создаем такую таблицу:таблица для расчета вероятностейВписываем в нее число людей, которых мы будем проверять:ПопуляцияВписываем число людей, которые, согласно статистике, употребляют наркотики, 2%, то есть 200 человек:
Число людей. принимающих наркотики

Вписываем число людей, которые не употребляют: 10000 – 200 = 9800:Число людей, не употребляющих наркотикиТеперь мы определяем, сколько людей определит чувствительность теста. Поскольку чувствительность равна 99%, то положительный тест покажут 198 человек (99% от 200):Число людей с положительным результатом теста на наркотикиСоответственно, ложноотрицательный (человек наркотики употреблял, но тест его не выявил) – 2 человека:Число людей с ложноотрицательным результатомТеперь, специфичность теста. Она равна у нас 99%, и из 9800 людей, не употреблявших наркотики, он покажет отрицательный тест у 99% людей, то есть у 9702 студентов: Специфичность теста - кто не употребляет и результат отрицательныйИ он покажет ложноположительный результат (наркотики не употребляли, но тест определил, что употребляли) у 98 человек:ложноположительный результат Теперь заполним все итоговые колонки: Заполненные ячейки таблицыТеперь мы переходим к самому интересному. Вопрос такой: какова вероятность того, что человек не употреблял наркотики, но тест показал положительный результат? Нам надо разделить 98 на 296. Вероятность

Получается 33%. То есть, один из трех людей, не употреблявших наркотики, может быть заподозрен в наркомании!

Соответственно, вероятность того, что тест будет позитивным в случае, если человек действительно употреблял наркотики, будет 198 делить на 296, то есть 67%.

Разумеется, этого недостаточно для принятия решения. И нужен повторный тест. Повторный тест теперь будет оперировать превалирующим процентом не в 2% от популяции, а в 67%, для тех, кто не согласен с результатами теста. И там точность вырастает драматически:
Результаты второго теста

Теперь, для человека, который не употреблял наркотики, вероятность того, что он опять получит положительный результат, составляет 33 делить на 6666 = 0,5%. Для тех, кто употреблял и тест положительный – 99,5%. Это уже серьезная вероятность.

Теорема Бейза применима ко многим ситуациям в нашей жизни: тестам на заболевания, на допинг в спорте, в спам-фильтрах, в судебных процессах, и во многом другом. Она может использоваться и для предсказаний поведения в будущем, например, вероятность того, что кто-то совершит преступление или вылетит из школы. Однако надо учитывать, что чем меньше превалирующее значение имеет такое поведение, тем выше будет вероятность ошибки.

Если число наркоманов составляло бы 10% населения, то тест был бы гораздо точнее. Если у человека плохие оценки в школе, но число исключенных из нее составляет доли процента, то вероятность того, что по оценкам человека можно предсказать его вылет из школы, весьма мала. С другой стороны, если 30% учащихся школы заканчивают свою юность в тюрьме, то точность предсказания будущего увеличивается.

Как верно сказал Nat Napoletano: “Вы не должны прожить свою жизнь, не поняв теорему Бейза”.

Фото в начале статьи из Википедии.