ИИ будет обучаться на госданных: какие существуют риски

Для проверки искусственного интеллекта на содержание угроз безопасности российское правительство разработает новое программное обеспечение. Тестировать его планируется на ИИ, обученном на государственных данных. Как в разговоре с «Реальным временем» заявили эксперты, идея чревата многими рисками. Однако, что касается борьбы с возможными негативными последствиями, спикеры разошлись во мнениях. Так, например, остается вопрос о наличии альтернативного тестирования. Подробнее — в материале.

Обучение ИИ на госданных

Российское правительство начнет проверять системы искусственного интеллекта на содержание угроз безопасности государства и обороны России. Для этого планируется разработать специальное программное обеспечение.

Для этого в период с 2025 по 2026 год планируется провести научно-исследовательскую разработку принципов анализа моделей ИИ, обученных на госданных, а в 2027—2028 годах — создать и внедрить первую версию программы, которая будет анализировать такие модели. К 2030 году планируется обеспечить подтверждение безопасности пяти систем для их использования в экономике данных.

Согласно документу, до 2030 года на эти цели выделят 8,1 млрд рублей. За реализацию проекта отвечает Федеральная служба безопасности.

Сейчас у коммерческих компаний нет доступа к госданным. Пока что речь идет только об информации, необходимой бизнесу для оказания услуг. По мнению Дмитрия Черноуса, руководителя группы консалтинга MTS AI, это позволит создавать модели ИИ, учитывающие особенности страны или региона.

С 1 января будет применяться ГОСТ, закрепляющий требования к защите данных при применении ИИ.

«Мы будем доверять все больше задач ИИ»

Идея обучать искусственный интеллект на госданных влечет за собой риски. Однако есть способы снизить вероятность угрозы, рассказал «Реальному времени» генеральный директор «Технократии» Илья Долгополов.

— Если ставить вопрос, безопасно ли обучать модели ИИ на госданных, то сначала нужно ответить на вопрос: а на каких конкретно данных? Но то, что относят к госданным в контексте данной новости, не является обязательным для обучения ИИ. Знание номера телефона или паспорта гражданина не добавляет ценности при обучении. Для обучения нужен контент и описание поведенческих сценариев. Если данные будут обезличены до такой степени, что невозможно будет с высокой точностью определить их принадлежность к конкретным гражданам или группе граждан, то можно говорить об относительной безопасности, — считает он.

Второй важный вопрос — как именно будет применяться ИИ в госсервисах, уверен Долгополов. Поскольку нейросети могут галлюцинировать, не стоит слепо опираться на результат их работы. Однако если эта технология выступает в качестве ассистента, а человек проверяет его работу, риски снижаются.

— Третий важный контекст — кому принадлежит ИИ. Если к ИИ, обученному на госданных, имеют доступ только госсервисы — это опять же снижает риск, — добавил он.

Идея обучать искусственный интеллект на госданных влечет за собой риски. Однако есть способы снизить вероятность угрозы. *Мария Зверева / realnoevremya.ru*

Спикер выразил мнение, что есть и альтернативы для обучения ИИ. Так, например, бизнес-сегмент обучает собственные модели на том, что собирает и обрабатывает сам без доступа к госданным:

— Значит, альтернативы есть. Я считаю, что при обучении ИИ на госданных исполнитель этой работы должен обосновать требования к раскрытию чувствительных данных. Чем чувствительнее данные, тем меньшее количество исполнителей должно к ним допускаться и меньшему кругу лиц предоставляться доступ к такому ИИ.

В целом само решение создать ПО для проверки ИИ является естественным:

— Появляется новая отрасль или технология, развивается хаотично и стремительно, набирает критическую массу и значимость, наступает момент регуляторики. Вопрос лишь в том, что регулировать ИИ пока не научились нигде в мире. Нет даже принципиального понимания, как это делать. Поэтому в первую очередь я бы направил усилия не на регуляторику, а на разделение данных на те, что важны для обучения, и те, что не обязательны для него. Большая часть госданных публична, а та, что является анонимной, не является обязательной для обучения. Главное — поддерживать баланс между функциональностью и безопасностью пользователей.

«Это необходимое зло»

Другой собеседник «Реального времени» — СЕО GO Digital Азамат Сиражитдинов выразил мнение, что, несмотря на все риски решения, более безопасных альтернатив нет.

— Давайте начнем с того, что такое нейросеть. В отличие от других программ, ИИ не является алгоритмом. Никто не знает, какое решение он примет в той или иной ситуации. Это не алгоритм. Пока не проведется тестирование, никто не сможет предположить хоть какие-то риски. Если не знать, как нейросеть работает с конкретными данными, нельзя гарантировать безопасность, — пояснил он.

Эксперт добавил, что если использовать ИИ планируется на госданных, то, соответственно, и обучать их нужно на той же информации.

— Что если создать фейковые данные? Представьте: вы учите школьников, что 1+1=3. Что вы получите с этого? Что детей можно обучить? Это вы и так знаете. Также и с нейросеткой — ее надо обучать на настоящих данных, — подчеркнул он.

Можно было бы проводить тест на данных бизнес-сектора, однако тогда ИИ будет ориентирован на конкретную компанию, добавил Сиражитдинов.

— В целом такое ПО необходимо в обязательном порядке, но это будет выглядеть как детектор лжи, — рассказал собеседник издания. — Нейросеть — это не алгоритм, а некая пародия на человека. У вас есть нейроны в мозгу, и исходя из поступающей информации не очень понятным образом формируется решение на то или иное внешнее влияние. У вас возникает реакция. То же самое и с ИИ. У него нет алгоритма действия.

Соответственно, нейросеть в некоторой степени сможет обмануть ПО, как и детектор лжи не всегда распознает обман человека:

— Более того, учитывая, что нейросеть получает открытые данные из интернета, соответственно, если ПО начнет проверять нейросеть, она сможет попросту «загуглить» информацию о том, как обмануть этот «детектор лжи». Вполне возможно, что она вообще проникнет в периметр предприятия, на котором создавали ПО, разберется в его алгоритмах и поймет, как его обходить.

В чем же тогда смысл самого программного обеспечения? «Иначе невозможно. Это все равно что и вопросы о том, зачем разрабатывать ядерное оружие. Просто бесконечный виток эволюции, в который мы сами себя затащили. Это необходимое зло», — сказал Азамат Сиражитдинов.

Елизавета Пуншева
https://realnoevremya.ru/articles/323144-ii-poluchit-dostup-k-gosdannym-kakie-suschestvuyut-riski