Для работы проектов iXBT.com нужны файлы cookie и сервисы аналитики. Продолжая посещать сайты проектов вы соглашаетесь с нашей Политикой в отношении файлов cookie

Google научила нейросети «забывать» личные данные пользователей при обучении

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com

16 сентября 2025, 10:26 | Новость | ИИ, сервисы и приложения

Гонка за создание всё более мощных нейросетей упёрлась в неожиданный барьер — дефицит качественных данных для обучения. В поисках нового «топлива» для своих моделей технологические гиганты всё чаще обращаются к огромным массивам информации из интернета, среди которой неизбежно оказываются и конфиденциальные данные пользователей. Команда Google Research представила элегантное решение этой проблемы — технологию, которая позволяет ИИ учиться на наших данных, не запоминая их.

Ключевая проблема современных больших языковых моделей (LLM) — их склонность к «непреднамеренному запоминанию». Хотя ответы нейросети всегда отчасти случайны, иногда она может почти дословно воспроизвести фрагмент информации, на которой обучалась. Если в обучающий набор попали чьи-то личные переписки, медицинские записи или финансовые отчёты, такой «сбой» может привести к катастрофической утечке. Для разработчиков же головной болью становится случайное цитирование моделью материалов, защищённых авторским правом.

Представьте, что нейросеть в ответ на безобидный вопрос вдруг цитирует чей-то личный имейл — именно от таких сценариев и призвана защитить новая технология.

Решение, предложенное Google, называется дифференциальной приватностью. Суть метода заключается в добавлении в процесс обучения математически выверенного «шума». Этот шум намеренно искажает исходные данные ровно настолько, чтобы модель могла уловить общие закономерности и паттерны, но не смогла запомнить конкретные детали. В результате нейросеть учится писать тексты в определённом стиле, но не сможет процитировать конкретное предложение из обучающего примера.

Однако у этого подхода была обратная сторона — «зашумление» данных снижало точность модели и требовало значительно больших вычислительных ресурсов. До сих пор никто не мог точно сказать, как найти баланс между приватностью и производительностью. Команда Google первой смогла вывести так называемые «законы масштабирования» для приватных нейросетей.

Исследователи установили, что качество работы модели зависит от трёх ключевых факторов — вычислительного бюджета (мощности «железа»), бюджета данных (объёма информации) и бюджета приватности (количества добавленного «шума»). Проще говоря, чем больше «шума» вы добавляете для защиты данных, тем больше вычислительных мощностей и объёма обучающей выборки потребуется, чтобы сохранить качество ответов на прежнем уровне.

Эта работа легла в основу VaultGemma. Но главное достижение Google — не сама модель, а опубликованная научная статья, в которой подробно описаны выведенные законы. Теперь у разработчиков по всему миру есть своего рода «рецепт», позволяющий находить идеальный баланс и создавать эффективные и при этом безопасные языковые модели. Однако, с учетом дефицита вычислительных мощностей в индустрии, сложно сказать, пойдут ли ведущие вендоры на увеличение затрат ради приватности в своих флагманских LLM.

Источник: Arstechnica

0 комментариев

Добавить комментарий

Сейчас на главной

Новости

В сеть попали изображения новых Sony Inzone Buds в полупрозрачном корпусе до презентации

Аудио и звук
18 минут назад
0

Представлен ультрафиолетовый принтер eufyMake E1 от Anker с поддержкой 3D-текстуры для печати на различных материалах

3D-печать
38 минут назад
0

В Египте нашли древний памятник с изображением римского императора в образе фараона

Наука и космос
42 минуты назад
0

Xiaomi, Vivo и Oppo пересматривают стратегию Ultra-сегмента на фоне роста себестоимости и ценового давления

Смартфоны и телефоны
49 минут назад
0

Ветеринары выяснили, почему грибковые инфекции ушей у собак перестают поддаваться лечению

Наука и космос
1 час назад
0

Публикации

Обзор TCOMAS WA300 360 White — СЖО достойное шоу «Тачка на прокачку»

Обзор
43 минуты назад
Платформа ПК

Если вы застали эпоху MTV и помните легендарное шоу «Тачка на прокачку» (Pimp My Ride), то наверняка в вашу душу запала их коронная фишка — установка мониторов и игровых приставок в...

Спорный вариант, но если привыкнуть... Обзор игрового QD-OLED монитора MSI MAG 321UPX и все что нужно знать + видеообзоры

Обзор
44 минуты назад
Мониторы и видеокарты

QD-OLED-мониторы давно перестали быть экзотикой, но всё ещё остаются нишевым и спорным решением. MSI MAG 321UPX — как раз из таких устройств. Это 31,5-дюймовый игровой монитор на Samsung...

Обзор паровой роторной швабры Felfri FSC-001 с 10 насадками в комплекте

Обзор
44 минуты назад
Техника для дома

Паровая роторная швабра Felfri FSC-001. Мощность 1400 Вт, давление пара 3 бар, объем резервуара для воды 550 мл, в комплекте 12 насадок, время нагревания 20 секунд, а время непрерывной работы 25 минут

Обзор и тестирование QD-OLED-монитора Gigabyte MO27Q2A: современный подход

Обзор
58 минут назад
Мониторы и видеокарты

Настольные OLED-мониторы становятся всё дешевле, а базовые наборы технологий в таких решениях лишь расширяются и улучшаются с каждым новым поколением. Это всё и приводит к мыслям о покупке вместо LCD

Обзор робота пылесоса Dreame Matrix10 Ultra – универсальный воин чистоты

Обзор
58 минут назад
Техника для дома

При первом взгляде на него: а что, так можно было сделать? Теперь в станцию очистки встроен конвейер для трех разных типов моющих насадок (мопов), и это впечатляет.

Проехался на велосипеде Shulz VHS Player: обзор сингла с нотками ностальгии

Обзор
1 час назад
Авто и транспорт

Изучаем сингл Shulz, который призван внести заметное дизайнерское разнообразие в категорию городских велосипедов с одной скоростью.