Google научила нейросети «забывать» личные данные пользователей при обучении

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Новость | ИИ, сервисы и приложения

Гонка за создание всё более мощных нейросетей упёрлась в неожиданный барьер — дефицит качественных данных для обучения. В поисках нового «топлива» для своих моделей технологические гиганты всё чаще обращаются к огромным массивам информации из интернета, среди которой неизбежно оказываются и конфиденциальные данные пользователей. Команда Google Research представила элегантное решение этой проблемы — технологию, которая позволяет ИИ учиться на наших данных, не запоминая их.

Автор: LeVK

Ключевая проблема современных больших языковых моделей (LLM) — их склонность к «непреднамеренному запоминанию». Хотя ответы нейросети всегда отчасти случайны, иногда она может почти дословно воспроизвести фрагмент информации, на которой обучалась. Если в обучающий набор попали чьи-то личные переписки, медицинские записи или финансовые отчёты, такой «сбой» может привести к катастрофической утечке. Для разработчиков же головной болью становится случайное цитирование моделью материалов, защищённых авторским правом.

Представьте, что нейросеть в ответ на безобидный вопрос вдруг цитирует чей-то личный имейл — именно от таких сценариев и призвана защитить новая технология.

Решение, предложенное Google, называется дифференциальной приватностью. Суть метода заключается в добавлении в процесс обучения математически выверенного «шума». Этот шум намеренно искажает исходные данные ровно настолько, чтобы модель могла уловить общие закономерности и паттерны, но не смогла запомнить конкретные детали. В результате нейросеть учится писать тексты в определённом стиле, но не сможет процитировать конкретное предложение из обучающего примера.

Однако у этого подхода была обратная сторона — «зашумление» данных снижало точность модели и требовало значительно больших вычислительных ресурсов. До сих пор никто не мог точно сказать, как найти баланс между приватностью и производительностью. Команда Google первой смогла вывести так называемые «законы масштабирования» для приватных нейросетей.

Исследователи установили, что качество работы модели зависит от трёх ключевых факторов — вычислительного бюджета (мощности «железа»), бюджета данных (объёма информации) и бюджета приватности (количества добавленного «шума»). Проще говоря, чем больше «шума» вы добавляете для защиты данных, тем больше вычислительных мощностей и объёма обучающей выборки потребуется, чтобы сохранить качество ответов на прежнем уровне.

Эта работа легла в основу VaultGemma. Но главное достижение Google — не сама модель, а опубликованная научная статья, в которой подробно описаны выведенные законы. Теперь у разработчиков по всему миру есть своего рода «рецепт», позволяющий находить идеальный баланс и создавать эффективные и при этом безопасные языковые модели. Однако, с учетом дефицита вычислительных мощностей в индустрии, сложно сказать, пойдут ли ведущие вендоры на увеличение затрат ради приватности в своих флагманских LLM.

Источник: Arstechnica

Автор не входит в состав редакции iXBT.com (подробнее »)
Об авторе
Наношу добро, причиняю пользу, благодарен за лайки и содержательные (дополняющие статьи) комментарии.

0 комментариев

Добавить комментарий

Сейчас на главной

Новости

Публикации

Как 1280 человек породили все население Земли: история изоляции гоминин, которую приняли за вымирание

Сегодня численность нашего вида превышает восемь миллиардов особей. Мы занимаем все доступные экологические ниши, контролируем ресурсы планеты и физически меняем ее ландшафт. С точки зрения...

А что, если у темной материи два состояния? Как новая гипотеза объясняет гамма-аномалию Млечного Пути

Астрофизические наблюдения показывают, что эта темная материя составляет около 85% всей материи во Вселенной. Она не излучает свет, не отражает его и не участвует в электромагнитном взаимодействии,...

Обзор проектора FlixTone D9W Ultra: справится даже днем!

Мир мультимедийных проекторов постоянно пополняется новыми моделями и относительно недавно небольшой китайский бренд FlixTone представил 3 модели: D9W Mini, D9W Ultra и D10s. Все они отличаются...

Плавающие города Филиппин: почему народ Баджо веками живет на воде и боится только пиратов

Города на воде раньше казались лишь элементом научной фантастики на страницах книг и сценариев блокбастеров. Но сейчас, со скачком технологий и поднятием уровня моря, Южная Корея официально...

Мощный, со складной трубкой и циклоном: обзор аккумуляторного пылесоса Redkey F11

На рынке устройств для уборки уже много проверенных решений. Например, для самой качественной уборки без потери мощности, должна быть реализована система циклонной фильтрации, для уборки под...

Выбираем смартфон за 10-20 тысяч рублей весной 2026 года: каждому по потребности

В сегодняшней подборке я покажу вам несколько смартфонов в ценовом диапазоне «10-20 тысяч рублей». Эти модели призваны опровергнуть стереотип о том, что в бюджетном классе сложно смартфон с...