Пользователи Steam всё-таки нашли списки с запрещёнными словами. Есть и те, за которые могут забанить
На днях пользователи Steam обратили внимание на то, что в файлах торговой площадки есть текстовые файлы, предназначенные для фильтрации сообщений. Правда на эти документы датируются осенью 2020 года. То есть, этим данным уже 3 года! Из этого можно сделать предположение, что они обновляются в реальном времени без отображения последней редактуры, либо не обновлялись вовсе. Я решил быстренько глянуть что там такого интересного и преподнести это вам.
Итак! Все данные разделены на 3 категории:
- filter_banned_*язык* — слова, за которые можно забанить аккаунт;
- filter_clean_*язык* — разрешенные слова, использование которых в определённых контекстах может вызвать вопросы при проверке;
- filter_profanity_*язык* — слова, не являющиеся основанием для бана, но будут подвергаться цензуре. В основном, здесь представлены нецензурные выражения.
Под каждую категорию у Valve заготовлено по 29 текстовых документов, каждый из которых содержит в себе слова для определённого языка. Некоторые из этих файлов вообще пустые, а другие, наоборот, готовы похвастаться настолько обширным словарным запасом, что могут превзойти все остальные 28 документов.
Ещё одной особенностью этих списков является то, что модераторы стараются выявлять зашифрованные оскорбления.
Просмотрев все эти файлы, я обратил внимание на следующие моменты:
- Наиболее богатым на сквернословие оказался польский язык. Valve нашла у них 6 843 матерных слова. Только по словам, за которые можно заработать бан он оказался лишь на втором месте;
- Наибольшее количество запрещённых слов оказалось в индонезийском языке. Модераторы внесли в список 354 слова;
- К тому же, модераторы стараются следить за активностью «недоброжелателей», которые стараются использовать «шифровки» в виде оскорблений. Некоторые из них вносятся в списки, но что они значат — неизвестно;
n+([ehiy]+|ay|ey|io|[il]+)[bgq$]+h?(a+|aer|a+h+|a+r+|e+|ea|eoa|e+r+|ie|ier|let|lit|o|or|r+|u|uh|uhr|u+r+|ward|y+)s*
Если я правильно понял, то это оскорбление как-то связано с темнокожими людьми.
- Русский язык оказался намного беднее индонезийского и польского языков как в оскорблениях, так и в мате. В нашем языке модераторы нашли лишь 116 слов, за которые можно забанить аккаунт и ещё 1 987 слов, которые будут подвергаться режиму цензуры;
- Для украинского языка были сделаны отдельные языковые фильтры. Вот только они делят с нами одни и те же места в топе т.к. украинские наборы слов являются полной копией русских фильтров. В списках полностью отсутствуют характерные украинские слова и выражения.
Если у вас есть желание взглянуть на эти списки, то знайте, что все эти 3 года данные находились в папке «Steam/resourse» и вряд ли переедут куда-то в ближайшее время. В ней же есть картинки отображением звёзд для оценивания пользовательских работ, функциональные иконки, локализация самой площадки и многое другое, что связано с дизайном и функционалом площадки Гейба Ньюэлла.







8 комментариев
Добавить комментарий
UPD: Проверил. Файлы спокойно выпиливаются при включенном стиме, но цензура не убирается. К тому же эти файлы быстро восстанавливаются, когда делайте полный перезапуск. В процессе запуска он проверяет наличие всех файлов и догружает чего не хватает. А ещё Steam откатывает все изменения, которые были сделаны в файлах.
шта? у них кроме «курвы» нет больше ничего
167 позиций, из них 87 на русском языке.
Добавить комментарий