Что такое PhotoDNA и как она работает?

12 сентября, 2021 Дядя Влад

Интернет упростил многие вещи: от общения с друзьями и семьей до получения работы и даже работы удаленно. Преимущества этой подключенной системы компьютеров огромны, но есть и обратная сторона.

В отличие от национальных государств, Интернет – это глобальная сеть, которую не может контролировать ни одно правительство или орган власти. Следовательно, незаконные материалы попадают в Интернет, и невероятно сложно предотвратить страдания детей и поймать виновных.

Однако технология PhotoDNA, совместно разработанная Microsoft, – это шаг к созданию более безопасного онлайн-пространства для детей и взрослых.

Что такое PhotoDNA?

PhotoDNA – это инструмент для идентификации изображений, впервые разработанный в 2009 году. Хотя в первую очередь это сервис, поддерживаемый Microsoft, он был разработан совместно профессором Хани Фаридом из Дартмутского колледжа, экспертом в области анализа цифровых фотографий. Цель PhotoDNA – выявить незаконные изображения, в том числе материалы о сексуальном насилии над детьми, широко известные как CSAM.

По мере того, как смартфоны, цифровые камеры и высокоскоростной Интернет становятся все более обычным явлением, растет и количество CSAM, обнаруженных в Интернете. В попытке идентифицировать и удалить эти изображения, наряду с другими незаконными материалами, база данных PhotoDNA содержит миллионы записей для известных изображений жестокого обращения.

Системой управляет Microsoft, а база данных поддерживается Национальным центром пропавших без вести и эксплуатируемых детей (NCMEC) в США, организацией, занимающейся предотвращением жестокого обращения с детьми. Изображения попадают в базу данных после того, как они были отправлены в NCMEC.

Хотя это не единственный сервис для поиска известного CSAM, PhotoDNA является одним из наиболее распространенных методов, включая многие цифровые сервисы, такие как Reddit, Twitter и большинство продуктов, принадлежащих Google.

На первых порах PhotoDNA нужно было физически устанавливать локально, но сейчас Microsoft управляет облачным сервисом PhotoDNA Cloud. Это позволяет небольшим организациям без обширной инфраструктуры выполнять обнаружение CSAM.

Как работает PhotoDNA?

Когда пользователи Интернета или правоохранительные органы сталкиваются с изображениями злоупотреблений, о них сообщается NCMEC через CyberTipline . Они каталогизируются, и информация передается правоохранительным органам, если это еще не было. Изображения загружаются в PhotoDNA, который затем приступает к созданию хэша или цифровой подписи для каждого отдельного изображения.

Чтобы получить это уникальное значение, фотография преобразуется в черно-белую, разделяется на квадраты, и программа анализирует полученную штриховку. Уникальный хеш добавляется в базу данных PhotoDNA, совместно используемую физическими установками и облаком PhotoDNA.

Поставщики программного обеспечения, правоохранительные органы и другие доверенные организации могут внедрять сканирование PhotoDNA в свои продукты, облачное программное обеспечение или другие носители данных. Система сканирует каждое изображение, преобразует его в хеш-значение и сравнивает его с хешами базы данных CSAM.

Если совпадение обнаружено, ответственная организация получает уведомление, и подробности передаются в правоохранительные органы для судебного преследования. Изображения удаляются из службы, а учетная запись пользователя закрывается.

Важно отметить, что никакая информация о ваших фотографиях не сохраняется, служба полностью автоматизирована без участия человека, и вы не можете воссоздать изображение из хеш-значения.

С 2015 года организации могут использовать PhotoDNA и для анализа видео.

В августе 2021 года Apple отказалась от большинства других крупных технологических компаний и объявила, что они будут использовать свой собственный сервис для сканирования iPhone пользователей на предмет наличия CSAM .

Понятно, что эти планы вызвали значительную негативную реакцию из-за того, что они выглядели нарушающими позицию компании по защите конфиденциальности, и многие люди беспокоились, что сканирование постепенно будет включать не-CSAM, что в конечном итоге приведет к лазейке для правоохранительных органов.

Использует ли PhotoDNA распознавание лиц?

В наши дни мы достаточно знакомы с алгоритмами. Эти закодированные инструкции показывают нам актуальные, интересные сообщения в наших социальных сетях, поддерживают системы распознавания лиц и даже решают, предложить ли нам собеседование или поступить в колледж.

Вы могли подумать, что в основе PhotoDNA лежат алгоритмы, но автоматизировать обнаружение изображений таким образом было бы очень проблематично. Например, это было бы невероятно инвазивным, нарушило бы нашу конфиденциальность, и это не говоря уже о том, что алгоритмы не всегда правильные.

У Google, например, были хорошо задокументированные проблемы с программным обеспечением для распознавания лиц. Когда Google Фото впервые был запущен, в нем чернокожие люди были неправильно классифицированы как гориллы. В марте 2017 года комитет по надзору палаты представителей услышал, что некоторые алгоритмы распознавания лиц ошибались в 15% случаев и с большей вероятностью могли неправильно идентифицировать чернокожих.

Эти типы алгоритмов машинного обучения становятся все более распространенными, но их сложно контролировать должным образом. По сути, программное обеспечение принимает собственные решения, и вам нужно перепроектировать, как оно пришло к определенному результату.

Понятно, что, учитывая тип контента, который ищет PhotoDNA, эффект неправильной идентификации может быть катастрофическим. К счастью, система не полагается на распознавание лиц и может находить только предварительно идентифицированные изображения с известным хешем.

Использует ли Facebook PhotoDNA?

Как владелец и оператор крупнейших и самых популярных социальных сетей в мире, Facebook каждый день имеет дело с большим количеством пользовательского контента. Хотя трудно найти надежные текущие оценки, анализ, проведенный в 2013 году, показал, что каждый день на Facebook загружается около 350 миллионов изображений.

Вероятно, сейчас это будет намного выше, поскольку к сервису присоединилось больше людей, компания управляет несколькими сетями (включая Instagram и WhatsApp), и у нас есть более легкий доступ к камерам смартфонов и надежному Интернету. Учитывая его роль в обществе, Facebook должен сокращать и удалять CSAM и другие незаконные материалы.

К счастью, компания решила эту проблему на раннем этапе, выбрав услугу Microsoft PhotoDNA в 2011 году. С момента объявления более десяти лет назад было мало данных о том, насколько это эффективно. Однако 91% всех отчетов CSAM в 2018 году были получены из Facebook и Facebook Messenger.

Делает ли PhotoDNA Интернет безопаснее?

Сервис, разработанный Microsoft, несомненно, является важным инструментом. PhotoDNA играет решающую роль в предотвращении распространения этих изображений и может даже помочь детям из групп риска.

Однако главный недостаток системы заключается в том, что она может искать только предварительно идентифицированные изображения. Если PhotoDNA не хранит хеш-код, он не может идентифицировать оскорбительные изображения.

Снимать и загружать изображения оскорблений в высоком разрешении в онлайн стало проще, чем когда-либо, и злоумышленники все чаще переходят на более безопасные платформы, такие как Dark Web и приложения для обмена зашифрованными сообщениями, чтобы делиться незаконными материалами. Если вы раньше не сталкивались с Dark Web, стоит прочитать о рисках, связанных со скрытой стороной Интернета.