Google научила нейросети «забывать» личные данные пользователей при обучении

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Новость | ИИ, сервисы и приложения

Гонка за создание всё более мощных нейросетей упёрлась в неожиданный барьер — дефицит качественных данных для обучения. В поисках нового «топлива» для своих моделей технологические гиганты всё чаще обращаются к огромным массивам информации из интернета, среди которой неизбежно оказываются и конфиденциальные данные пользователей. Команда Google Research представила элегантное решение этой проблемы — технологию, которая позволяет ИИ учиться на наших данных, не запоминая их.

Автор: LeVK

Ключевая проблема современных больших языковых моделей (LLM) — их склонность к «непреднамеренному запоминанию». Хотя ответы нейросети всегда отчасти случайны, иногда она может почти дословно воспроизвести фрагмент информации, на которой обучалась. Если в обучающий набор попали чьи-то личные переписки, медицинские записи или финансовые отчёты, такой «сбой» может привести к катастрофической утечке. Для разработчиков же головной болью становится случайное цитирование моделью материалов, защищённых авторским правом.

Представьте, что нейросеть в ответ на безобидный вопрос вдруг цитирует чей-то личный имейл — именно от таких сценариев и призвана защитить новая технология.

Решение, предложенное Google, называется дифференциальной приватностью. Суть метода заключается в добавлении в процесс обучения математически выверенного «шума». Этот шум намеренно искажает исходные данные ровно настолько, чтобы модель могла уловить общие закономерности и паттерны, но не смогла запомнить конкретные детали. В результате нейросеть учится писать тексты в определённом стиле, но не сможет процитировать конкретное предложение из обучающего примера.

Однако у этого подхода была обратная сторона — «зашумление» данных снижало точность модели и требовало значительно больших вычислительных ресурсов. До сих пор никто не мог точно сказать, как найти баланс между приватностью и производительностью. Команда Google первой смогла вывести так называемые «законы масштабирования» для приватных нейросетей.

Исследователи установили, что качество работы модели зависит от трёх ключевых факторов — вычислительного бюджета (мощности «железа»), бюджета данных (объёма информации) и бюджета приватности (количества добавленного «шума»). Проще говоря, чем больше «шума» вы добавляете для защиты данных, тем больше вычислительных мощностей и объёма обучающей выборки потребуется, чтобы сохранить качество ответов на прежнем уровне.

Эта работа легла в основу VaultGemma. Но главное достижение Google — не сама модель, а опубликованная научная статья, в которой подробно описаны выведенные законы. Теперь у разработчиков по всему миру есть своего рода «рецепт», позволяющий находить идеальный баланс и создавать эффективные и при этом безопасные языковые модели. Однако, с учетом дефицита вычислительных мощностей в индустрии, сложно сказать, пойдут ли ведущие вендоры на увеличение затрат ради приватности в своих флагманских LLM.

Источник: Arstechnica

Автор не входит в состав редакции iXBT.com (подробнее »)
Об авторе
Наношу добро, причиняю пользу, благодарен за лайки и содержательные (дополняющие статьи) комментарии. bq5m8xvvs1swal6c

0 комментариев

Добавить комментарий

Сейчас на главной

Новости

Публикации

Серфинг без капли воды: как оазис Уакачина стал курортом для тех, кто боится утонуть

Хочется ловить волну, но вот проблема: только оказавшись в водоёме глубже пары метров, вам даётся исключительно стиль топориком ко дну? В таком случае вам стоит узнать про самое необычное место для...

Астрономы доказали существование трех популяций сливающихся черных дыр: неразлучные пары, случайные встречи и «каннибалы»

Астрофизики получают информацию о слияниях черных дыр благодаря детекторам гравитационных волн. Когда два сверхплотных объекта сталкиваются, они вызывают возмущение пространства, которое...

Туер «Енисей»— один из последних в мире: почему он до сих пор работает на Казачинском пороге, хотя на всех остальных реках России и Европы такие суда давно исчезли

На реке Енисей есть участок, который веками оставался серьёзным препятствием для судоходства. Это Казачинский порог — природная «плотина» из скальных выступов и каменистых гряд,...

Наши предки вылуплялись из яиц: окаменелость возрастом 250 млн лет подтвердила спорную гипотезу палеонтологов

Эволюционная история млекопитающих неразрывно связана с процессом размножения. Долгое время биологи опирались на устоявшееся положение: древние предки современных млекопитающих, известные как...

Фильм «Белое солнце пустыни»: как он стал негласным талисманом космонавтов

У советских и российских космонавтов сложилась необычная, но неизменная традиция: перед стартом обязательно смотреть фильм «Белое солнце пустыни» — начало ритуала существует ещё с...

Обзор USB-тестера FNIRSI FNB-C2: с поддержкой PD 3.1 и мощностью 240 Вт

Новая модель USB-тестера FNIRSI FNB-C2 — это не просто компактный измерительный прибор, а полноценный инструмент для диагностики современных устройств питания. Он предназначен для...