Миллиард человек, 50 000 иероглифов и одна QWERTY-клавиатура. Как Китай решил главную технологическую загадку своего языка с помощью системы Пиньинь

✦ ИИ  Этот пост, предположительно, был создан при помощи искусственного интеллекта
Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Статья | Оффтопик

Сегодня миллиард человек без проблем переписывается в мессенджерах, пишет статьи и даже программирует, используя иероглифы. Как это стало возможным? Ответ кроется в гениальном изобретении XX века, построившем фонетический мост между древними символами и современными технологиями. Так начинается история о Пиньинь — системе, спасшей китайский язык для цифрового мира.

Китайская механическая пишущая машинка. Именно так выглядела «клавиатура», пытавшаяся вместить тысячи иероглифов, до цифровой революции Пиньинь.
Автор: Immanuel Giel Источник: commons.wikimedia.org

Проблема: море символов

Чтобы понять масштаб вызова, нужно осознать природу китайской письменности. Её корни уходят вглубь веков — древнейшие памятники, надписи на костях животных для гаданий, датируются XIV—XI вв.еками до нашей эры. В этой системе каждый символ, или иероглиф, несёт в себе не только звук, но и смысл.

Простейшие иероглифы по сути своей являются пиктограммами. Одна черта (一) означает «один», две (二) — «два». Символ 木 (mù) — стилизованное изображение дерева. Логика продолжается в идеограммах, где символы объединяются для создания нового значения: два дерева 林 (lín) образуют «рощу», а три 森 (sēn) — «лес».

Однако подавляющее большинство иероглифов устроены куда хитрее, представляя собой фонетико-семантические комплексы. Они состоят из двух компонентов: первый, ключ (или радикал), указывает на общую смысловую категорию вроде «воды», «человека» или «дерева» второй, фонетик, даёт подсказку о произношении слова. Например, иероглиф для слова «дуб» (橡, xiàng) содержит ключ «дерево» (木) и фонетик «слон» (象), который тоже произносится как xiàng. Вы видите, что речь о дереве, и догадываетесь, как это произнести.

Общее количество иероглифов исчисляется десятками тысяч. Хотя для повседневной жизни достаточно 3-4 тысяч, система всё равно остаётся невероятно громоздкой. Апофеозом сложности стал иероглиф biáng — символ для названия лапши из провинции Шэньси, состоящий из 42 черт, и это в упрощенном варианте. А иногда насчитывают 56, 57 или даже 62, в зависимости от того, как считать некоторые сложные компоненты. Такая система красива, но абсолютно несовместима со стандартной клавиатурой.

Вывеска ресторана лапши «Бьянг-Бьянг» в Сиане. Иероглиф biáng считается одним из самых сложных в китайском языке: его упрощенная версия состоит из 42 черт, а традиционная (как на фото) — почти из 60.
Автор: Myheimu Источник: commons.wikimedia.org

Решение: революция Пиньинь

Выход был найден в середине XX века с созданием системы Пиньинь (拼音), что дословно означает «соединение звуков». Система романизации Пиньинь позволяет записывать звучание китайских иероглифов с помощью латинского алфавита.

Принцип её работы гениально прост. Вы хотите написать «привет», 你好 (nǐ hǎo). На обычной QWERTY-клавиатуре вы набираете слоги ni hao. Программа предлагает список иероглифов, соответствующий этому произношению, и вы выбираете нужный вариант — 你好.

Вот как работает ввод иероглифов на практике. Пользователь набирает произношение латиницей (nihao), и система (IME) предлагает список всех возможных вариантов-омофонов. Первый, самый частый — 你好 (привет). Остается лишь нажать цифру «1» или пробел, чтобы выбрать его.
Автор: pchyolka

Пиньинь стал фонетическим мостом, который позволил миллиарду человек войти в цифровую эру, не отказываясь от своей тысячелетней письменности. Но чтобы им пользоваться, нужно понимать ключевые особенности фонетики мандарина. Главным фонетическим отличием служит не звонкость, а придыхание. В китайском нет противопоставления звонких и глухих согласных, зато есть глухие с придыханием и без. Например, буква b (как в Beijing) читается как русское [п], в то время как p — тот же звук, но с сильным выдохом. Принцип применяется и к парам d/t и g/k.

Второй столб китайской фонетики составляют тоны. Значение слога кардинально меняется в зависимости от его интонации. В мандарине их четыре: первый — высокий и ровный; второй — восходящий, похожий на вопросительную интонацию; третий — сложный, нисходяще-восходящий, хотя в беглой речи он часто звучит просто как низкий, «скрипучий» тон; четвёртый же — резкий и нисходящий, как утверждение или приказ. Ошибка в тоне может быть критичной: название провинции Шаньси (Shānxī, 1-й тон) отличается от соседней Шэньси (Shǎnxī, 3-й тон) только интонацией.

Четыре тона мандарина: как звучат и как пишутся. Схема слева показывает изменение высоты голоса. Символы справа — как эти тоны обозначаются в системе Пиньинь. Обратите внимание: форма значка над буквой (диакритика) интуитивно повторяет контур своего тона.
Автор: Ph. Immel Источник: commons.wikimedia.org

За пределами клавиатуры: как устроен язык

Решив главную технологическую загадку, заглянем глубже в устройство самого языка. Грамматика китайского обманчиво проста. На первый взгляд её почти нет: слова не изменяются по падежам, числам или родам, а глаголы не спрягаются. Порядок слов, как правило, строгий: подлежащее-сказуемое-дополнение (Я ем рис — 我吃饭, Wǒ chī fàn).

На деле же грамматическая сложность перенесена из морфологии в синтаксис. Время, вид и модальность выражаются с помощью служебных частиц. Например, частица 了 (le) после глагола указывает на завершённость действия (Я съел), а 在 (zài) перед ним — на действие в процессе (Я ем прямо сейчас). Некоторые слова и вовсе обладают удивительной двойственностью: 在 (zài) выступает и как глагол «находиться», и как предлог «в». Поэтому фраза 我在学校 (Wǒ zài xuéxiào) дословно значит «Я нахожусь в школе», и никакого дополнительного глагола-связки не требуется.

Лексика китайского языка часто строится на принципе конструктора, особенно при создании понятий из противоположностей. Соединив 大 (dà, большой) и 小 (xiǎo, маленький), мы получим 大小 (dàxiǎo, «размер»). Точно так же 多 (duō, много) и 少 (shǎo, мало) вместе образуют 多少 (duōshǎo, «сколько»).

Важно помнить, что «китайский» язык не является монолитом. То, что мы разбираем, — путунхуа, стандарт, основанный на северных диалектах. Но в Китае существуют и другие синитические языки, такие как кантонский. Разница между ними настолько велика, что носители мандарина и кантонского не поймут друг друга на слух, хотя письменность у них общая. Стандартизация языка была необходима, чтобы жители огромной страны могли эффективно общаться.

Лингвистическая карта синитических языков в Китае. Огромная территория, закрашенная коричневым цветом, — это ареал распространения мандарина, на основе которого создан официальный язык путунхуа. Однако юг и восток страны представляют собой лоскутное одеяло из множества других, часто невзаимопонятных языков, таких как кантонский (розовый), у (светло-зеленый) и минь (голубой).
Автор: Wyunhe Источник: commons.wikimedia.org

Заключение

Китайский язык служит живым примером того, как древняя система может адаптироваться к вызовам современности. Пиньинь не заменил иероглифы, а стал для них ключом, открывшим доступ в цифровой мир. Такая синергия фонетического и идеографического письма представляет собой уникальное явление, которое продолжает формировать будущее языка, на котором говорит каждый шестой житель планеты.

Изучение китайского — не просто заучивание символов. Оно учит мыслить иначе и открывает доступ к культуре с тысячелетней историей, которая сегодня активно формирует наше общее будущее.

Изображение в превью:
Автор: Immanuel Giel
Источник: commons.wikimedia.org
Автор не входит в состав редакции iXBT.com (подробнее »)
Об авторе
Пишу статьи на различные темы.

Сейчас на главной

Новости

Публикации

Доступный, тонкий, стильный: обзор QI повербанка Baseus PicoGo AM41

Компания Baseus представила новинку среди повербанков. Повербанк PicoGo AM41 магнитится на айфон или другой смартфон с поддержкой стандарта MagSafe, заряжает по беспроводной зарядке, а также может...

Можно ли собрать мощный аудио усилитель в маленьком корпусе

Мощная аудиотехника ассоциируется и с габаритными корпусами. Но усилители мощности класса D сделали в свое время в этой индустрии революцию компактности и энергоэффективности. Сегодня попробуем...

Не опять, а снова: обзор робота-пылесоса Roborock QR598 + видеообзор

Рынок роботов-пылесосов давно уже перестал быть чем-то необычным, но каждая новая модель может вызывать интерес. Roborock QR598 является полным братом-близнецом Roborock Qrevo S, который уже был у...

Почему маркетплейсы дают скидку за оплату картой «своего» банка

Уверен, вы с таким сталкивались, и не раз. Заходишь на условный Ozon или Яндекс Маркет, с энтузиазмом накидываешь полную корзину всего самого нужного (и не очень), переходишь к оплате и видишь...

✦ ИИ  Почему сидеть на 20 тоннах керосина безопаснее, чем лететь с пустым баком: инженерный парадокс

Кажется безумием заливать 20 тонн горючего в вибрирующие крылья. Но именно это решение не даёт лайнеру развалиться от перегрузок. Почему полный бак безопаснее пустого? Разбор парадокса.