Как Яндекс новую версию поиска запускал

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Обзор | Лайв им. alexmero

23 августа 2017 года самый популярный в России отечественный поисковый сервис Яндекс запустил новую версию поиска. В её основе которой лежит алгоритм «Королёв», который сопоставляет смысл запроса и веб-страницы с помощью нейронной сети. Теперь поисковик должен стать несколько «человечнее» и лучше понимать образные и не слишком прямолинейные запросы пользователей. 

На официальной презентации, которая была полностью оформлена в космической тематике, состоялась 22 августа в столичном планетарии на Баррикадной. Подробности о новинке и её разработке нам поведали Андрей Стыскин, Руководитель Яндекс.Поиска, Александр Сафронов, Руководитель службы релевантности Яндекс.Поиска и Ольга Мегорская, Руководитель отдела обработки данных Яндекс.Поиска. 

Научить поиск поиску 

Нейронные сети нынче в тренде: их учат распознавать картинки, а также рисовать их, улучшать фотографии, писать тексты и ещё куче самых разных штук. Нейросеть — система обучаемая. Это программное и аппаратное воплощение математической модели, построенной по образу и подобию нервных клеток живых организмов — нейронов. А главное, нейронная сеть способна учиться и оттачивать навыки. 

В прошлом году Яндекс сделал первый шаг к поиску по смыслу, внедрив алгоритм «Палех». Тот сопоставлял смысл запроса и заголовка веб-страницы в реальном времени. «Королёв» пошёл дальше: он использует нейронную сеть, которая анализирует не только заголовок, а вообще всю страницу целиком. Чтобы справиться со столь непростой вычислительной задачей Яндекс определяет суть страницы заранее, на этапе индексирования. Благодаря этому количество страниц, которые поиск сравнивает по смыслу с запросом, выросло со 150 документов до 200 тысяч. Другая важная особенность «Королёва» в том, что помимо сопоставления смысла запроса и страницы, он учитывает ещё и смысл других запросов, по которым люди на неё переходят.

Естественно, чтобы научить нейронную сеть оценивать смысловую близость запроса и документа, нужно «натаскивать» её на огромном количестве примеров. Конечно, их даёт общая статистика: на какие сайты люди переходят по запросам, сколько времени там проводят, какие переходы делают. Поисковая статистика миллионов людей учит Яндекс понимать смысловые связи, вроде [картина где небо закручивается] — это явно про знаменитую картину Ван Гога, а [ленивая кошка из Монголии] — манул.
«Поиск — это очень сложная система. Тысячи инженеров работают над тем, чтобы она понимала человека и помогала решать его задачи. В „Королёве“ мы объединили машинный интеллект и усилия миллионов людей. Наши пользователи улучшают поиск вместе с нами, задавая вопросы и помогая обучать наши алгоритмы», — объяснил Андрей Стыскин, руководитель Поиска Яндекса.

Процесс обучения нейронной сети не пустили на самотёк. Ей, как, например, любому школьнику, нужны специальные упорядоченные упражнения для тренировки и оттачивания навыков. Если раньше Яндекс изучал и оценивал качество поиска с помощью сотни своих работников асессоров, то для подготовки нейросети понадобилось гораздо больше людей. Поэтому были созданы Яндекс.Толоки. (Толока — форма взаимопомощи, которую когда-то практиковали в деревнях.) Это сервис, где любой желающий может выполнять задания и получать за них вознаграждение. Сейчас в Яндекс.Толоке зарегистрировано более миллиона пользователей, которые выставили уже более двух миллиардов оценок. На презентацию позвали лучшего толокера проекта, чтобы торжественно вручить награду: им стал Илья Михаленко из Челябинска. 

Что в итоге? 

Можно долго рассуждать о теории, но что мы имеем на практике? Если коротко и по делу, то раньше поисковик ориентировался именно на слова поискового запроса, а теперь нейросеть научилась понимать не самые очевидные запросы, где нужно, словно человеку, мыслить образно и ассоциативно, вычленять важное из контекста.

К примеру, вам нужно вспомнить название фильма по обрывочным воспоминаниям о сюжете. Имена актёров не знаете, режиссёра тоже. Что делать? Идти на форум киноманов? Теперь можно просто забить свои соображения в окошко поиска и Яндекс отыщет нужный фильм!

Или другая показательная задачка: найти картинку по описанию. Раньше поисковик ориентировался на название и комментарии к изображению или на содержание текста, который оно иллюстрирует. Нейросеть способна ориентироваться непосредственно на картинку. Если с запросом [собаки в космосе] проблем не предвидится, то с кошками дела обстоят сложнее. Единственный документально подтверждённый суборбитальный полёт представителя этого вида был осуществлён Францией в 1963 году. К всеобщему разочарованию, героиню Фелисетт поснимать после миссии не удалось, — она моментально сбежала из капсулы после приземления. А что наш поиск? Он выдаёт не только фотографии домашних пушистиков в тематических костюмах и иллюстрации художников, но и показательный снимок кота в стиральной машинке, который человеческое воображение вполне могло бы представить как иллюминатор шаттла. Теперь и нейросеть научилась делать подобные выводы. 

Улучшилось и восприятие системой поиска человеческой речи. Нейронная сеть понимает привычные нам формулировки гораздо лучше и реагирует всё адекватнее и адекватнее. К примеру, теперь многие занятые родители могут переложить почётную миссию отвечать на многочисленные вопросы своих маленьких «почемучек» на Яндекс! 

Пуск!

Торжественный запуск нового алгоритма на сцену планетария поднялась вся команда Яндекс.Поиска, которая участвовала в разработке «Королёва». С 22 числа можно вовсю пробовать новые возможности чутких понимающих нейросетей! 

Финалом мероприятия стал самый настоящий звонок на орбиту. Присутствующие увидели сеанс связи с настоящими космонавтами, которые лично ответили на некоторые популярные запросы по тематике, которые получал в своё время поисковик. В итоге теперь мы знаем, что плакать в космосе можно, но неудобно, а «Белое солнце пустыни» космонавты смотрят для прохождения теста на память: запоминают самые мелкие детали сюжета и отвечают на каверзные вопросы. 

Автор не входит в состав редакции iXBT.com (подробнее »)

17 комментариев

V
А у яндекса, что — поиск есть? И они еще и обновились недавно? — чудны дела Твои…
lexxvlad
хотел плюс нажать, нажал минус. сорри
mpanius
Не любят у нас Яндекс, ох не любят
Rimlyanin
Дык, классика же:
Яндекс: найдется все
Гугл: А ничего и не терялось

P.S.
http://askpoint.org/wp-content/uploads/2012/04/naidetsa-vse.png
http://seodemotivators.ru/wp-content/uploads/837676_bog-u-menya-net-otvetov-_demotivators_ru-750x638.jpg

P.P.S. А как картинку в коменты вставить?
mpanius
Пока никак, на очереди после «сообщить модератору о нарушении» и кнопки «ответить с цитированием»
Rimlyanin
О, а будет даже кнопка цитирования? Вот только зачем она? Я и так справляюсь.
mpanius
Народ в комментах iXBT.com просит, там привыкли к старой системе. 
Да и на мобиле так не очень удобно цитировать.  
Rimlyanin
ам привыкли к старой системе.
которая была завязана на конференцию?
mpanius
Не, она была отдельная. 
Просто там была кнопка «ответить с цитатой», и те кто привык очень страдают 
Rimlyanin
А, то может я отстал от жизни, но мне почему то помнилось что раньше комментарии под статьями были завязаны на тему в конференции.
mpanius
В новостях были другие
mpanius
Возвращать как было мы, конечно, не будем. 
Rimlyanin
Вопрос: Здарова! Я тут собаку назвал яндекс, бросаю палку и говорю ищи, а она не ищет сидит тупыми глазами на меня смотрит и не поймет что делать, что мне делать?:)
Ответ: Назови её гугл .
E
Хорошая попытка, Яндекс. Но, нет!
Ф
Критикунам: см. от Луки 4:24.

Добавить комментарий

Сейчас на главной

Новости

Публикации

Обзор ЦАПа Akliam PD5: один из лучших бюджетных ЦАПов

Говоря о направлениях бюджетного звука, я вскользь упомянул, что действительно качественные решения совмещают в себе и техничность, и прекрасную мелодику. Ну, а в качестве примера назвал героя...

Проверил 5 нейросетей для генерации музыки: как звучит нейрогитара и сколько стоит в коммерческих целях?

Говорят, современные нейросети способны на многое — от написания сценариев для фильмов до предсказания биржевых трендов. Но ещё недавно искусственный интеллект считался бездарным и...

Бесшумная механическая клавиатура Zone 51 Garnet: обзор с разборкой

Почти полноразмерная (98%) клавиатура с бесшумными переключателями KTT Peach Silent. Колпачки из PBT пластика выполненные методом двойного литья. Подключение проводное. Имеется RGB подсветка с...

Как эффективно избавиться от сныти на участке

На первый взгляд, сныть может показаться лишь невинным дополнением к вашему дачному участку: с ее сочной зеленью и нежными белыми соцветиями, она словно приглашает пчел на пиршество. Но не стоит...

Почему Франция пыталась ввести 10-ти часовые сутки и что из этого могло получиться?

Все мы привыкли к системе исчисления времени, в основе которой 24 часа, состоящих из 60 минут. Привыкли — ключевое слово! Но когда речь заходит о том, что пора научить ребенка понимать,...

Обзор портативной акустической системы УРАЛ Гагарин ГР-001: младшенькая в «легендарной» линейке

В линейке портативной акустики от производителя Урал пополнение. Гагарин ГР-001 самая младшенькая, но в то же время может показать свою мощь. Эта компактная беспроводная колонка с 2 по 10 Вт...