Пользователи Steam всё-таки нашли списки с запрещёнными словами. Есть и те, за которые могут забанить

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Мнение | Игры

На днях пользователи Steam обратили внимание на то, что в файлах торговой площадки есть текстовые файлы, предназначенные для фильтрации сообщений. Правда на эти документы датируются осенью 2020 года. То есть, этим данным уже 3 года! Из этого можно сделать предположение, что они обновляются в реальном времени без отображения последней редактуры, либо не обновлялись вовсе. Я решил быстренько глянуть что там такого интересного и преподнести это вам.

Источник: steam.ru

Итак! Все данные разделены на 3 категории:

  • filter_banned_*язык* — слова, за которые можно забанить аккаунт;
  • filter_clean_*язык* — разрешенные слова, использование которых в определённых контекстах может вызвать вопросы при проверке;
  • filter_profanity_*язык* — слова, не являющиеся основанием для бана, но будут подвергаться цензуре. В основном, здесь представлены нецензурные выражения.

Под каждую категорию у Valve заготовлено по 29 текстовых документов, каждый из которых содержит в себе слова для определённого языка. Некоторые из этих файлов вообще пустые, а другие, наоборот, готовы похвастаться настолько обширным словарным запасом, что могут превзойти все остальные 28 документов.

Вот так выглядит список японских слов, за которые можно получить бан. И да, я ничего не редактировал!

Ещё одной особенностью этих списков является то, что модераторы стараются выявлять зашифрованные оскорбления.

Просмотрев все эти файлы, я обратил внимание на следующие моменты:

  • Наиболее богатым на сквернословие оказался польский язык. Valve нашла у них 6 843 матерных слова. Только по словам, за которые можно заработать бан он оказался лишь на втором месте;
  • Наибольшее количество запрещённых слов оказалось в индонезийском языке. Модераторы внесли в список 354 слова;
  • К тому же, модераторы стараются следить за активностью «недоброжелателей», которые стараются использовать «шифровки» в виде оскорблений. Некоторые из них вносятся в списки, но что они значат — неизвестно;

n+([ehiy]+|ay|ey|io|[il]+)[bgq$]+h?(a+|aer|a+h+|a+r+|e+|ea|eoa|e+r+|ie|ier|let|lit|o|or|r+|u|uh|uhr|u+r+|ward|y+)s*

Если я правильно понял, то это оскорбление как-то связано с темнокожими людьми.

  • Русский язык оказался намного беднее индонезийского и польского языков как в оскорблениях, так и в мате. В нашем языке модераторы нашли лишь 116 слов, за которые можно забанить аккаунт и ещё 1 987 слов, которые будут подвергаться режиму цензуры;
  • Для украинского языка были сделаны отдельные языковые фильтры. Вот только они делят с нами одни и те же места в топе т.к. украинские наборы слов являются полной копией русских фильтров. В списках полностью отсутствуют характерные украинские слова и выражения.

Если у вас есть желание взглянуть на эти списки, то знайте, что все эти 3 года данные находились в папке «Steam/resourse» и вряд ли переедут куда-то в ближайшее время. В ней же есть картинки отображением звёзд для оценивания пользовательских работ, функциональные иконки, локализация самой площадки и многое другое, что связано с дизайном и функционалом площадки Гейба Ньюэлла.

PCДругойДругая
Автор не входит в состав редакции iXBT.com (подробнее »)
Об авторе
Высказываю непопулярное мнение на популярные (и не очень) темы. YouTube: https://youtube.com/@danya_shepard?si=TC5lhQGbPffAf5HD

8 комментариев

Добавить комментарий

L
Чёт я не понял. Я не совсем те слова ожидал встретить в русском списке…
DanyaShepard
Читайте внимательнее название файлов. Это Clean-фильтр. Я мог бы вставить списки с матами и оскорблениями, но тогда модерация iXBT не пропустила бы блог. А так, там по всем трём фильтрам наборы одинаковые.
S
Что-то я не понял, это слова, которые проверяются в чатах и рецензиях? А почему тогда эти списки находятся в локальных ресурсах? Что, если вручную отредактировать эти файлы, то списки фильтруемых слов реально поменяются?
DanyaShepard
Не задумывался об этом, но скорее всего, это повлияет только на работу Вашего фильтра и не более. К тому же это не отменяет того, что за эти слова можно будет получить бан или то, что они будут зацензурены у других людей.
UPD: Проверил. Файлы спокойно выпиливаются при включенном стиме, но цензура не убирается. К тому же эти файлы быстро восстанавливаются, когда делайте полный перезапуск. В процессе запуска он проверяет наличие всех файлов и догружает чего не хватает. А ещё Steam откатывает все изменения, которые были сделаны в файлах.
S
Тогда, скорее всего, эти файлы просто кэшируют содержимое сервера, а их нетронутость наверное проверяется по хэшу. На этих файлах экономия конечно копеечная, но, если это общий подход для целой кучи разных данных, то смысл есть.
DOK
«Наиболее богатым на сквернословие оказался польский язык. Valve нашла у них 6 843 матерных слова»
шта? у них кроме «курвы» нет больше ничего
Korzh
Вы просто не умеете его готовить :)
LaNocheOscura
Самое интересное в filter_profanity_english
167 позиций, из них 87 на русском языке.

Добавить комментарий

Сейчас на главной

Новости

Публикации

Десять лет назад вышел по-настоящему большой смартфон Xiaomi Mi Max: почему таких больше не делают

Раньше мир смартфонов был более разнообразным. По крайней мере, если говорить о диагоналях экранов. На выбор предлагались как компакты с дисплеями на 4-4,5 дюйма, так и планшетофоны с панелями на 6...

ЭШ-100/100: зачем СССР построил этот гигантский экскаватор и что с ним стало

В истории советской тяжёлой промышленности были машины, которые поражали воображение своими масштабами и становились символами инженерной мощи. Одной из таких машин стал шагающий экскаватор...

Готовимся к лету: обзор швейцарских дайверских часов с функцией GMT от Le Jour

Швейцарский бренд часов Le Jour не фокусируется на какой-либо одной категории: в ассортименте есть интересные модели, стилизованные под винтаж, автоматические часы-хронографы, пилотские версии и,...

Инженеры создали трехстороннюю молнию: как технология превращает гибкий пластик в несущий каркас

Как создать конструкцию, которая занимает минимум места при хранении, но при необходимости быстро превращается в прочный каркас, способный выдерживать серьезные физические нагрузки? Обычно...

Автобус, который запомнился, причины популярности ПАЗ-672

Многие помнят ПАЗ-672, этот автобус занял особое место в истории советского общественного транспорта и превратился в один из самых узнаваемых символов своей эпохи. Серийное производство модели,...

Kefine Arnar — только драйв и эмоции — обзор гибридных внутриканальных наушников на базе планара и арматуры

Сегодня на обзоре очередная новинка от уже хорошо зарекомендовавшей себя компании Kefine. Новая модель Arnar является гибридной, но от классического набора драйверов ее отличает то, что за низкие...