С тех пор как наша социальная активность, увлечения и покупки стали регистрироваться цифровыми сервисами, специалисты научились предсказывать характеристики личности человека. Методы и модели предсказаний становятся все более точными – в немалой мере за счет того, что их можно тестировать и тренировать на обширном материале, который предоставляют социальные сети.
Поговорка «рыбак рыбака видит издалека» справедливо указывает нам, что люди группируются по интересам. Если большинство ваших друзей – рыбаки, то, с очень большой вероятностью, вы тоже рыбак. Это феномен так называемой самосегрегации. Например, было обнаружено, что у мужчин 65% друзей – мужчины, у женщин 70% – женщины, а у гомосексуалистов, как мужчин, так и женщин, большинство друзей из круга ЛГБТ.
Двое выпускников Массачусетского технологического института решили оттолкнуться от этих, казалось бы, очевидных фактов и проверить гипотезу: можно ли определить сексуальную ориентацию человека по его друзьям.
Исследователи написали поискового робота, который собрал данные с личных страниц Facebook у студентов или выпускников MIT, получив таким образом информацию о шести тысячах студентов. Чуть больше четырех тысяч из них указали в своем профиле сексуальную ориентацию. Разбив всех людей на шесть групп: гетеросексуалов, бисексуалов и гомосексуалистов обоих полов, ученые стали смотреть, какой у каждого человека процент друзей из других групп.
Пользователи часто закрывают свой профиль, но это не мешает получить нужную информацию: ведь у человека обязательно есть друзья с публично открытыми данными. Происходит выявление так называемой имплицитной, скрытой, дружбы (в отличие от эксплицитной, открытой, дружбы). В результате исследователи нашли сильную позитивную корреляцию между имплицитными и эксплицитными связями: в среднем у человека с публично открытым профилем 112,7 эксплицитных друзей и 96,3 имплицитных.
Построив логистическую регрессивную модель, исследователи смогли обнаружить порог 1,89%: если у мужчины в Facebook более чем 1,89% друзей – открытые геи, то модель классифицировала его самого как гомосексуалиста. Дальше авторы успешно протестировали свою модель на списке геев, которых они знали лично. В список вошли люди, которые имели страницы в Facebook, но закрытые для всех, кроме друзей. Тем не менее только по ассоциативным связям с другими людьми удалось точно определить их сексуальную ориентацию. Правда, исследователи не смогли добиться хороших результатов с лесбиянками – либо из-за небольшого процента участников исследования, либо по причине фундаментально иного построения связей у этой категории пользователей.
Но, как показывает резонансное исследование, опубликованное в марте 2013 года в журнале Proceedings of the National Academy of Sciences, для понимания человека и прогнозирования его характерных особенностей можно обойтись и более простыми способами. Ученые из Кембриджского университета научились на основе анализа лайков пользователей в Facebook определять возраст, пол, специальность, уровень образования, политические взгляды и личностные характеристики человека.
В качестве одного из инструментов исследования взяли Facebook-приложение myPersonality – ведь многие любят проходить тестирования и отвечать на вопросы о своих увлечениях, привязанностях и взглядах. В руках ученых оказались данные о более чем 50 тысячах добровольцев, ответивших на вопросы психологических тестов и предоставивших доступ к своим лайкам и информации профиля. Дальше ученые создали около 10 миллионов пар «пользователь – лайк» и присваивали каждой паре значение – единица, если пользователю нравилось, например, искусство или BMW, и ноль, если он не ставил лайк Бараку Обаме или каналу Discovery. Для предсказания числовых показателей (возpаст или IQ) ученые использовали линейную регрессию, а для дихотомных переменных (пол, сексуальная ориентация и прочее) – логистическую регрессию.
Проще говоря, специалисты из Кембриджа создали математическую модель, которая сравнивала то, что понравилось пользователям в соцсети, с точной и достоверной информацией о самих пользователях, а затем могла предсказывать характеристики человека уже только по лайкам.
Итак, лайки могут предсказать:
расу человека – на 95%; пол человека – на 93%; гомосексуальность – на 88%, (у лесбиянок – на 75%); употребление наркотиков – на 65%; одинок человек или состоит в отношениях – на 67%; были ли родители человека вместе до того, как ему исполнился 21 год, – на 60%; курение сигарет – на 73%; употребление алкоголя – на 70%; политическую принадлежность (демократ или республиканец) – на 85%; вероисповедание (христианин или мусульманин) – на 82%. Развод родителей до того, как ребенку исполнился 21 год, показан в исследовании как важный фактор, во многом определяющий жизнь человека. И он мог быть предсказан с точностью до 60% только по лайкам! Пользователи, родители которых развелись до того, как они достигли 21 года, ставили лайки статусам, так или иначе связанным с отношениями, – иными словами, они чуть дороже ценят отношения и уделяют им больше внимания.
Еще несколько любопытных фактов:
- лайки, поставленные Бритни Спирс и сериалу «Отчаянные домохозяйки», оказались «средними по силе» предсказателями гомосексуальности;
- те, кому нравится бренд Hello Kitty, – с большой вероятностью приверженцы Демократической партии, христиане, и старше 35 лет. Такие пользователи имеют высокий показатель открытости и низкие показатели эмоциональной стабильности, социализации и организации личной жизни;
- если вам нравятся фильмы «Властелин Колец» или «Крестный Отец», музыка Моцарта – вероятно, у вас высокий IQ;
- те, кто ставит лайки Индиане Джонсу, Иисусу Христу и Саре Пейлин, чуть больше удовлетворены жизнью, чем остальные;
- Оскара Уайльда, Леонардо да Винчи, Платона и Леонарда Коэна лайкают артистичные и либеральные во взглядах люди;
- вам присущ дух состязательности, если вам нравятся: фраза «Я ненавижу всех!», атеизм, Фридрих Ницше, Юлий Цезарь или Prada;
- пользователи, состоящие в отношениях, лайкали скрапбукинг, а одинокие – Марию Шарапову.
Исследователи предупреждают нас: если комбинировать такие данные с другой активностью пользователей, регистрируемой цифровыми устройствами и сервисами, то расширится и круг предсказаний, и их точность. По результатам исследования уже сделано специальное фейсбук-приложение YouAreWhatYouLike: за один клик оно анализирует лайки пользователя и выдает его вероятные характеристики по 5 параметрам.
Легко представить себе, как эти данные можно использовать уже сейчас: слегка невротичному, одинокому человеку реклама автомобиля на Facebook будет в первую очередь обещать безопасность и возможность уехать куда-то прочь, а компанейскому и веселому – предложит большой размер машины (чтобы вместить много друзей) и акцентирует внимание на ее спортивности и цвете. Чем больше лайков, тем меньше личного, частного пространства, скрытого от чужих глаз. Рекламная эффективность Facebook-инструментария, доказанная учеными, сильнее любых этических барьеров.
Первоначально опубликовано на slon.ru