Я как-то писал здесь про историю из документального фильма The Age of Big Data, в которой один ученый, занимающийся кочевыми племенами в Китае, оказался «втянут» в криминологию. Как оказалось, поведение кочевников очень похоже на поведение банд Лос-Анджелеса, и встал вопрос, можно ли предсказывать поведение криминальных групп, и значит, и преступления, ими совершаемые? У полиции были огромные массивы данных о совершенных преступлениях с множеством параметров (место, время, число участников, характер, и проч.). Требовалась модель, и они ее нашли у другого ученого. Он занимался предсказыванием афтершоков землетрясений. Сами землетрясения успешно предсказывать пока не получается, а афтершоки – вполне.
Таким образом, модель, предсказывающая поведение коры Земли после землетрясения стала обрабатывать данные о преступлениях и выдавать координаты вероятных криминальных актов. Точность пока не особо высока, но система работает. Представляете, гангстеры прикидывают, куда спрятать угнанные тачки, и один предлагает местечко, про которое никто не знает. Они туда приезжают, а там уже полиция, которой система сообщила это же место. Полицейские роняют от удивления пончики, но испытывают удовлетворение.
Данных у нас у всех сейчас полно, и вопрос, что с ними делать, часто натыкается, в том числе, и на то, какую модель использовать. В недавнем эпизоде шоу Last Week Tonight With John Oliver, ведущий говорил о тестировании и экзаменах в американских школах.
На картинке выше Джон указывает на реальную формулу, которую используют для оценки работы учителей в штате Флориде. По сути, учитель получает лучшие оценки, если его ученики получают лучшие оценки. Звучит логично, но не все так просто: эта формула в одной части предсказывает оценки учащегося. Так, например, она предсказывает, что ученик должен, к примеру, получить 99 баллов (из 100). Если ученик наберет 95 баллов и станет, по факту, лучшим учеником в школе – учителю зачтется минус, ведь его ученик недобрал 4 балла. В некоторых случаях формула предсказывала недостижимую, в принципе, оценку.
В целом, получается, эта модель оценки работы учителя не особо хороша. А для чего она хороша и откуда взялась? Сама модель родилась в ходе исследований по предсказанию репродуктивности рогатого скота! Как заметил Оливер, что в таком случае можно сказать: «согласно формуле ваш ребенок либо сдал алгебру на отлично, либо родил здорового теленка. Мы не знаем».
Если вы научились хорошо предсказывать события в одной области, то вполне можно попробовать использовать успешную модель и в других областях. В конце концов, как сказал один философ «что угодно может быть репрезентацией чего угодно». И конечно, иногда будут получаться глупости.