Как дата-журналистам использовать анонимизацию для защиты персональных данных

В ходе работы над историей у журналистов часто возникает необходимость скрывать личность источника. Договоренность об этом была необходимой предпосылкой множества журналистских работ, которые имели влияние на общество. Тем не менее, поиск баланса между публикацией информации, необходимой для журналистского материала, и защитой лица, стоящего за этой информацией, может оказаться нелегкой задачей, особенно когда личная безопасность источника – под угрозой.

Эти проблемы особенно обостряются в наш век, когда сбор данных становится повсеместным. Достижения в области вычислительной техники сделали возможным обработку больших объемов данных, что, в свою очередь, способствует попыткам монетизировать данные или использовать их для слежки. Во многих случаях неприкосновенность частной жизни рассматривается как препятствие, а не как необходимое требование. Недавняя история изобилует примерами нарушений конфиденциальности: использование личных данных Cambridge Analytica для таргетинга рекламы или непрерывный сбор наших данных с помощью интеллектуальных устройств. Из-за множества нарушений безопасности и утечек данных, надежды на конфиденциальность, похоже, становятся совсем призрачными.

Объемы данных, доступные журналистам, беспрецедентно велики, и эти данные все чаще используются в журналистских материалах. Но, как и в случае с конфиденциальными источниками, журналист должен уметь определить, какую информацию публиковать, чтобы без необходимости не раскрывать персональные данные. Какие-то личные сведения, конечно, могут быть нужны, но вряд ли в большинстве статей вам нужно идентифицировать каждого из людей в наборе данных. Можно защитить их конфиденциальность с помощью разных методов деидентификации и анонимизации.

Определение персональной информации

Формальное определение личной информации (персональных данных) появилось только с реформой законодательства в конце двухтысячных. Журналистам уже долгое время приходилось определять, поставит ли раскрытие данных, намеренное или случайное, конфиденциальность частных лиц под угрозу. После того, как в 2006 году AOL опубликовала в интернете миллионы поисковых запросов, и журналисты смогли воссоздать персональные данные исходя исключительно из истории поиска человека, в том числе выяснив конфиденциальные сведения о состоянии здоровья и предпочтениях некоторых людей при поиске партнеров для свиданий. Аналогично, после разоблачения Эдвардом Сноуденом слежки со стороны Агентства национальной безопасности (NSA), многие исследователи показали, как метаданные соединений — информация, генерируемая нашими мобильными устройствами, — могут использоваться для идентификации пользователей или слежки.

При использовании в качестве источника истории набора данных, журналисты оказываются в новой нестандартной ситуации, когда им приходится самостоятельно оценивать конфиденциальность имеющейся информации. Для этого сперва нужно понять, что является персональной информацией, а что нет.

Персональные данные, позволяющие установить личность (Personally identifiable infromation = PII) – в юридических документах в зависимости от страны называются «персональные данные» или «персональная (личная) информация». Обычно под ними подразумевают всё, что позволяет напрямую идентифицировать человека. Однако важно отметить, что существует целый спектр уровней идентифицируемости и конфиденциальности персональных данных, позволяющих установить личность. Например, имена или адреса электронной почты имеют высокую ценность с точки зрения идентифицируемости, но относительно низкую степень конфиденциальности, поскольку их публикация обычно не подвергает человека опасности. Данные о местоположении или данные из личной медицинской карты, возможно, в меньшей степени идентифицируемы, но в большей степени конфиденциальны. Для иллюстрации рассмотрим идентифицируемость и конфиденциальность различных типов персональных данных, позволяющих установить личность.

Персональные данные заметно различаются по идентифицируемости и конфиденциальности. Иллюстрация: Datajournalism.com

Степень, в которой информация позволяет определить личность и является конфиденциальной, зависит как от контекста, так и от результата сопоставления данных. Если имя человека находится в списке поклонников страницы на Facebook, то риск, связанный с его разглашением, небольшой. Однако если это имя находится в списке политических диссидентов, то риск для конфиденциальности, связанный с публикацией, резко возрастает. Ценность информации также меняется в сочетании с другими данными. Набор данных, содержащий историю покупок, может быть сложно связать с каким-либо конкретным лицом; однако в сочетании с информацией о местоположении или номерами кредитных карт может возрасти как идентифицируемость, так и конфиденциальность. (Тут можно вспомнить, как бывшего президента России Дмитрия Медведева выдали … обычные кроссовки – прим.ред.)

В 2016 году Департамент здравоохранения Австралии опубликовал деидентифицированные фармацевтические данные для исследовательских целей; но ученые смогли расшифровать одно из деидентифицированных полей. Таким образом, появилась возможность раскрытия персональной информации. Австралийский Уполномоченный по вопросам конфиденциальности провёл расследование этого дела. Еще один пример: в 2016 году журналисты Buzzfeed, расследующие мошенничество со стороны профессиональных теннисистов, опубликовали анонимизированные данные, использованные при подготовке их материала. Группе студентов бакалавриата удалось реидентифицировать (заново идентифицировать) теннисистов, о которых шла речь, используя общедоступные сведения. Эти примеры показывают, что для определения конфиденциальности набора данных журналисту следует тщательно оценить как содержащуюся в нем информацию, так и ту информацию, которая уже является общедоступной.

Казалось бы, имена теннисистов анонимизированы. Тем не менее, в исходниках BuzzFeed содержались и другие данные, допускающие возможность повторной идентификации. Иллюстрация: Datajournalism.com

Что такое деидентификация?

Чтобы скрыть личность источника, журналист может сослаться на анонимность, или использовать псевдоним — например, в публикациях о Уотергейтском скандале использовался псевдоним Глубокая Глотка. При работе с информацией процесс удаления персональных данных называется деидентификацией, обезличиванием или анонимизацией, в зависимости от законодательства разных стран. Методы деидентификации данных использовались журналистами еще задолго до появления интернета. К примеру, в публикуемых документах из утечек вымарывали имена. Сегодня для защиты конфиденциальности в цифровой среде журналистам доступны новые методы и инструменты деидентификации, которые упрощают анализ и использование все больших объемов данных.

Цель деидентификации сведений — избежать возможной реидентификации (т.е. повторной идентификации после публикации – прим.ред.); иными словами, нужно анонимизировать данные, чтобы их нельзя было использовать для установления личности. Есть некоторое общее законодательное регулирование анонимизации данных, но для каждой отдельно взятой отрасли она обычно определяется по-своему. Например, первичная медицинская документация в Соединенных Штатах должна соответствовать Акту об обмене данными и подотчетности медицинского страхования (HIPAA), который требует анонимизации прямых идентификаторов, таких как имена и фамилии, адреса и номера социального страхования, перед публикацией для общего пользования. В Европейском союзе, согласно Общему регламенту по защите данных (General Data Protection Regulation – GDPR), требуется анонимизация как прямых идентификаторов (имен, фамилий, физических адресов и адресов электронной почты), так и косвенных идентификаторов (должностей и почтовых индексов).

Работая над материалом, журналисты принимают решение, какая информация необходима для материала, а какую можно опустить. Часто оказывается, что чем ценнее информация, тем выше ее конфиденциальность. Например, исследователям в области здравоохранения требуется доступ к данным о диагностике и другим медицинским данным, но если эти данные связаны с конкретным лицом, их конфиденциальность может быть очень высока. Чтобы сохранить баланс между полезностью и конфиденциальностью данных, принимая решение о том, что публиковать, журналисты могут использовать целый ряд методов деидентификации.

Вымарывание данных

Пример отредактированного документа ЦРУ с купюрами. Иллюстрация: Wikimedia.

Самый простой способ деидентификации набора данных — удаление или вымарывание любых персональных или конфиденциальных данных. Несмотря на очевидный недостаток — возможную потерю информативности — вымарывание чаще всего используется для прямых идентификаторов, таких как имена, фамилии, адреса или номера социального страхования, которые обычно не связаны с сутью материала.

Тем не менее, с развитием технологий и растущей доступностью данных, потенциал идентификации по косвенным идентификаторам будет расти. Поэтому журналистам не следует полагаться на редактирование или вымарывание данных как на единственное средство деидентификации.

Псевдонимизация

В некоторых случаях полное удаление информации ограничивает полезность сведений. Одно из возможных решений — псевдонимизация, то есть замена идентифицируемых данных псевдонимами, которые генерируются случайным образом или с помощью алгоритма. Наиболее распространенными методами псевдонимизации являются хеширование и шифрование. Хеширование выполняется с помощью математических функций, благодаря которым данные преобразуются в нечитаемые хэши. Шифрование же подразумевает двунаправленное алгоритмическое преобразование данных. Основное различие между этими двумя методами заключается в том, что зашифрованные данные можно расшифровать с помощью ключа, тогда как хеширование информации необратимо. Многие системы баз данных, например MySQL и PostgreSQL, позволяют осуществлять как хеширование, так и шифрование данных.

Псевдонимизация данных сыграла важную роль в расследовании Offshore Leaks, проведенной Международным центром расследовательной журналистики (ICIJ). Учитывая огромный объем данных, которые необходимо было обработать, журналисты применили уникальные коды, связанные с каждым физическим или юридическим лицом, фигурировавшим в просочившихся документах. Эти псевдонимизированные коды использовались для отображения связей между просочившимися документами, даже в тех случаях, когда имена физических или юридических лиц не совпадали.

Информация считается псевдонимизированной, если ее нельзя связать с физическим лицом без использования дополнительных данных. В то же время, из-за возможности комбинировать псевдонимизированные данные с другими наборами данных, псевдонимизация потенциально становится слабым методом деидентификации. Даже само по себе многократное использование одного и того же псевдонима в наборе данных может снизить его эффективность, так как вероятность найти взаимосвязи между переменными растет с каждым появлением псевдонима. Наконец, в некоторых случаях сами алгоритмы, используемые для создания псевдонимов, могут быть взломаны третьими лицами или имеют внутренние уязвимости, поэтому журналистам следует осторожнее использовать псевдонимизацию для сокрытия персональных данных.

Статистический шум

Как вымарывание данных, так и псевдонимизация связаны с риском повторной идентификации, поэтому их часто сочетают с методами статистического шума, такими как k-анонимизация. В нём для заданного количества лиц будут использованы одни и те же косвенные идентификаторы, что усложнит процесс реидентификации. Рекомендуется использовать не менее 10 записей с уникальными комбинациями идентификаторов. Распространенными методами введения статистического шума в набор данных являются генерализация, например, замена названия страны материком, и группирование, то есть преобразование чисел в диапазоны. В дополнение к методам статистического шума часто используются вымарывание данных и псевдонимизация, чтобы обеспечить отсутствие уникальных комбинаций идентификаторов в наборе данных. В следующем примере данные в некоторых столбцах обобщены или отредактированы с целью предотвращения реидентификации отдельных записей.

Добавление статистического шума для предотвращения реидентификации. Иллюстрация: Datajournalism.com

Агрегирование данных

Когда нет необходимости сохранения исходных данных, журналисты могут прибегать к деидентификации путем агрегирования. Вместо публикации полного набора, можно публиковать данные в форме сводок без указания каких-либо прямых или косвенных идентификаторов. Главное в агрегировании обеспечить, чтобы наименьшие сегменты агрегированных данных были достаточно большими и не могли указать на конкретных лиц. Это особенно актуально, когда в агрегированных данных возможно объединение по нескольким измерениям.

Рабочие процессы деидентификации

Для журналистов, стремящихся сдать материал в срок, деидентификация может показаться второстепенной в сравнении с более важными задачами, например, оценкой качества данных или выбором варианта визуализации набора данных. Тем не менее, обеспечение конфиденциальности частных лиц должно занимать значимое место в журналистской работе, хотя бы потому, что неправильное обращение с персональными данными может подорвать доверие к материалу. Кроме того, возможное нарушение законодательства о конфиденциальности может повлечь ответственность, особенно если издание занималось сбором или обработкой данных. Поэтому деидентификация должна стать частью рабочего процесса журналистики данных, что подразумевает ответ на следующие вопросы:

  1. Содержит ли ваш набор данных персональную информацию?

Бывает, что набор данных, с которым вы работаете, — это метеосводки или общедоступная спортивная статистика. В таком случае вам не нужно беспокоиться о деидентификации. В других случаях наличие имен, фамилий или номеров социального страхования делает риски для конфиденциальности очевидными. Однако зачастую, чтобы понять, можно ли установить личность на основании этих данных, требуется тщательный анализ. Это особенно актуально при работе с утечками, как объясняют в своей обширной статье Сьюзен МакГрегор и Элис Бреннан. Помимо наличия прямых идентификаторов, журналисты должны обращать пристальное внимание на косвенные идентификаторы: IP-адреса, занимаемые должности и географические данные. Общее правило: любая информация, касающаяся человека, должна рассматриваться как угроза конфиденциальности, и обрабатываться соответствующим образом.

  1. Насколько ваши данные конфиденциальны и идентифицируемы?

Персональная информация несет в себе различные риски в зависимости от контекста, в котором она существует, в том числе, от того, возможно ли объединить ее с другими данными. Это означает, что журналистам необходимо оценить две вещи: 1) насколько идентифицируемым является этот фрагмент и 2) насколько эта информация затрагивает конфиденциальность человека. Спросите себя: поставит ли связь человека с журналистским материалом под угрозу его безопасность или репутацию? Можно ли сопоставить имеющиеся данные с другими доступными наборами данных, чтобы установить личность человека? Если да, то перевешивают ли преимущества публикации этих данных риски для конфиденциальности? Чтобы уравновесить общественный интерес, связанный с публикацией, и риск нарушения конфиденциальности из-за раскрытия персональных данных, требуется индивидуальный подход.

  1. Как будут публиковаться данные?

Журналисту, пишущему для печатного издания в доинтернетовскую эпоху, не нужно было беспокоиться о том, каким образом будут опубликованы данные, ведь никто не может отправлять дополнительные запросы к иллюстрациям или вырезкам со статистикой. Однако интерактивная визуализация и другие современные инструменты, характерные для журналистики данных, позволяют аудитории подробно изучать данные, использованные для журналистского материала. Например, многие журналисты выбирают открытость исходников и публикуют на GitHub как программный код, так и данные. При этом, в целях заботы о конфиденциальности, все данные должны быть тщательно очищены от персональной информации. Что касается визуализации, некоторые журналисты защищают конфиденциальность, используя предварительно агрегированные данные, что обфусцирует исходный набор данных (то есть их можно использовать, но подробности скрыты). При этом важно проверить, превышают ли агрегированные образцы минимальный порог идентифицируемости.

  1. Какой метод деидентификации подходит для ваших данных?

Учитывая все особенности имеющихся данных, журналистам часто приходится прибегать к сочетанию различных методов деидентификации. Для защиты конфиденциальности прямых идентификаторов — при правильной реализации — обычно достаточно редактирования данных и псевдонимизации. Для косвенных идентификаторов, возможно, следует добавить статистический шум путем группирования данных или обобщения информации, которая не представляет большого значения для журналистского материала. Агрегирование данных — лучший вариант для данных с высокой конфиденциальностью. Для того, чтобы этот подход сработал, журналист должен удостовериться, что диапазон данных достаточно широк, а агрегированные переменные распределены достаточно равномерно, чтобы предотвратить случайное раскрытие персональной информации.

Подавая пример

После того, как данные публикуются в интернете, возможности их изменить или исправить больше нет. Даже если вы считаете, что ваш набор данных очищен от каких-либо персональных данных, остается риск, что кто-то сможет объединить ваши данные с другим источником и реидентифицировать людей, или взломать ваш алгоритм псевдонимизации и раскрыть персональную информацию. Риски реидентификации будут продолжать расти с развитием таких новых технологий, как машинное обучение и распознавание шаблонов, благодаря которым появляются новые возможности комбинирования и преобразования данных.

Помните, что кажущиеся обезличенными данные могут быть использованы для идентификации, стоит только правильно подобрать данные, с которыми их можно объединить. В известной истории о том, как Netflix предложил приз за лучший алгоритм рекомендаций, из имеющихся данных были удалены все персональные идентификаторы. Однако исследователям удалось сопоставить личные кинопредпочтения с данными IMDb.com и других онлайн-источников, чтобы идентифицировать людей в «анонимизированном» наборе данных Netflix.

Несмотря на ограничения сегодняшних методов деидентификации, журналисты всегда должны прилагать максимум усилий для защиты конфиденциальности.

Пример в этом подает ICIJ – при обработке огромных объемов личных данных Консорциум всегда помнит о конфиденциальности. Работая с «Панамским архивом» журналисты защищали анонимность источника утечки, используя псевдоним Джон Доу, и тщательно оценивали, как публиковать персональную информацию, содержащуюся в просочившихся документах. Ничто не мешает и другим журналистам, независимо от тематики и предварительной подготовки, предпринимать аналогичные шаги, чтобы сохранить баланс между конфиденциальностью и общественным интересом к своим материалам.

Существует множество примеров негативных последствий раскрытия личных данных, когда не были приняты меры по обеспечению конфиденциальности — например, личные драмы после утечки информации с сайта Ashley Madison [сайт знакомств для тех, кто уже состоит в браке] или массовое раскрытие конфиденциальных данных, связанных с Wikileaks. Журналистам следует стремиться избегать таких ошибок и всегда подавать пример ответственной работы с данными в своих материалах.

Войтех Седлак – ученый, специализирующийся на работе с данными, который в настоящее время работает в SumOfUs , организации, которая пытается обуздать растущую мощь корпораций. Ранее он работал в Mozilla и OpenMedia, внимательно следит за RStudio, измеряет резервы и сообщества открытых данных, а также является большим поклонником аналитических методов с открытым исходным кодом.