Пользователи Steam всё-таки нашли списки с запрещёнными словами. Есть и те, за которые могут забанить

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Мнение | Игры

На днях пользователи Steam обратили внимание на то, что в файлах торговой площадки есть текстовые файлы, предназначенные для фильтрации сообщений. Правда на эти документы датируются осенью 2020 года. То есть, этим данным уже 3 года! Из этого можно сделать предположение, что они обновляются в реальном времени без отображения последней редактуры, либо не обновлялись вовсе. Я решил быстренько глянуть что там такого интересного и преподнести это вам.

Источник: steam.ru

Итак! Все данные разделены на 3 категории:

  • filter_banned_*язык* — слова, за которые можно забанить аккаунт;
  • filter_clean_*язык* — разрешенные слова, использование которых в определённых контекстах может вызвать вопросы при проверке;
  • filter_profanity_*язык* — слова, не являющиеся основанием для бана, но будут подвергаться цензуре. В основном, здесь представлены нецензурные выражения.

Под каждую категорию у Valve заготовлено по 29 текстовых документов, каждый из которых содержит в себе слова для определённого языка. Некоторые из этих файлов вообще пустые, а другие, наоборот, готовы похвастаться настолько обширным словарным запасом, что могут превзойти все остальные 28 документов.

Вот так выглядит список японских слов, за которые можно получить бан. И да, я ничего не редактировал!

Ещё одной особенностью этих списков является то, что модераторы стараются выявлять зашифрованные оскорбления.

Просмотрев все эти файлы, я обратил внимание на следующие моменты:

  • Наиболее богатым на сквернословие оказался польский язык. Valve нашла у них 6 843 матерных слова. Только по словам, за которые можно заработать бан он оказался лишь на втором месте;
  • Наибольшее количество запрещённых слов оказалось в индонезийском языке. Модераторы внесли в список 354 слова;
  • К тому же, модераторы стараются следить за активностью «недоброжелателей», которые стараются использовать «шифровки» в виде оскорблений. Некоторые из них вносятся в списки, но что они значат — неизвестно;

n+([ehiy]+|ay|ey|io|[il]+)[bgq$]+h?(a+|aer|a+h+|a+r+|e+|ea|eoa|e+r+|ie|ier|let|lit|o|or|r+|u|uh|uhr|u+r+|ward|y+)s*

Если я правильно понял, то это оскорбление как-то связано с темнокожими людьми.

  • Русский язык оказался намного беднее индонезийского и польского языков как в оскорблениях, так и в мате. В нашем языке модераторы нашли лишь 116 слов, за которые можно забанить аккаунт и ещё 1 987 слов, которые будут подвергаться режиму цензуры;
  • Для украинского языка были сделаны отдельные языковые фильтры. Вот только они делят с нами одни и те же места в топе т.к. украинские наборы слов являются полной копией русских фильтров. В списках полностью отсутствуют характерные украинские слова и выражения.

Если у вас есть желание взглянуть на эти списки, то знайте, что все эти 3 года данные находились в папке «Steam/resourse» и вряд ли переедут куда-то в ближайшее время. В ней же есть картинки отображением звёзд для оценивания пользовательских работ, функциональные иконки, локализация самой площадки и многое другое, что связано с дизайном и функционалом площадки Гейба Ньюэлла.

PCДругойДругая
Автор не входит в состав редакции iXBT.com (подробнее »)
Об авторе
Высказываю непопулярное мнение на популярные (и не очень) темы. YouTube: https://youtube.com/@danya_shepard?si=TC5lhQGbPffAf5HD

8 комментариев

Добавить комментарий

L
Чёт я не понял. Я не совсем те слова ожидал встретить в русском списке…
DanyaShepard
Читайте внимательнее название файлов. Это Clean-фильтр. Я мог бы вставить списки с матами и оскорблениями, но тогда модерация iXBT не пропустила бы блог. А так, там по всем трём фильтрам наборы одинаковые.
S
Что-то я не понял, это слова, которые проверяются в чатах и рецензиях? А почему тогда эти списки находятся в локальных ресурсах? Что, если вручную отредактировать эти файлы, то списки фильтруемых слов реально поменяются?
DanyaShepard
Не задумывался об этом, но скорее всего, это повлияет только на работу Вашего фильтра и не более. К тому же это не отменяет того, что за эти слова можно будет получить бан или то, что они будут зацензурены у других людей.
UPD: Проверил. Файлы спокойно выпиливаются при включенном стиме, но цензура не убирается. К тому же эти файлы быстро восстанавливаются, когда делайте полный перезапуск. В процессе запуска он проверяет наличие всех файлов и догружает чего не хватает. А ещё Steam откатывает все изменения, которые были сделаны в файлах.
S
Тогда, скорее всего, эти файлы просто кэшируют содержимое сервера, а их нетронутость наверное проверяется по хэшу. На этих файлах экономия конечно копеечная, но, если это общий подход для целой кучи разных данных, то смысл есть.
DOK
«Наиболее богатым на сквернословие оказался польский язык. Valve нашла у них 6 843 матерных слова»
шта? у них кроме «курвы» нет больше ничего
Korzh
Вы просто не умеете его готовить :)
LaNocheOscura
Самое интересное в filter_profanity_english
167 позиций, из них 87 на русском языке.

Добавить комментарий

Сейчас на главной

Новости

Публикации

Этот ИИ видит сны и вырабатывает цифровой дофамин: как искусственный гиппокамп и гормоны избавляют нейросети от галлюцинаций

На сегодняшний день индустрия разработки искусственного интеллекта столкнулась с серьезной системной проблемой. Создание мультимодальных нейросетей — программ, способных одновременно...

Ученые воссоздали ландшафт ранней Земли и вживую проследили за спонтанной сборкой первых структур жизни

Происхождение жизни на Земле — это в первую очередь проблема физики и гидродинамики, а не только чистой химии. В современной астробиологии одной из ведущих моделей формирования первых...

Озеро Киву: почему купание в райском водоёме несёт смертельную опасность

Есть в мире водоёмы, в которые не пускают, желая сохранить первозданную природу. Есть с повышенной кислотностью или температурой, но озеро Киву в Африке на вид напоминает воплощение лучшего...

ИИ в медицине: как искусственный интеллект превосходит специалистов в постановке диагнозов

За последние два года искусственный интеллект показал, что может ставить медицинские диагнозы точнее, чем самые опытные врачи. Это не предположение, а выводы из нескольких независимых исследований....

Обзор аэрогриля FELFRI FF-AF-03: две чаши, а значит, быстрее, плюс расширенная комплектация

Аэрогрили становятся неотъемлемыми помощниками на кухне: они готовят быстро и практически без масла, а значит — делают блюда более полезными. Эта модель выделяется на фоне аналогичных...

Glock: история одного из наиболее распространённых служебных пистолетов

Glock — семейство австрийских самозарядных пистолетов, появившееся в начале 1980-х годов и ставшее одной из самых распространённых платформ служебного оружия в мире. Его конструкция...