"Яндекс" представил поисковый алгоритм "Палех", использующий нейросети для понимания сложных запросов
03 нояб 2016 11:00 #47775
от ICT
ICT создал тему: "Яндекс" представил поисковый алгоритм "Палех", использующий нейросети для понимания сложных запросов
Компания "Яндекс" 2 ноября представила новый поисковый алгоритм под названием "Палех", который использует в работе нейросети и способен находить страницы, которые соответствуют не только ключевым словам, но и смыслу запроса пользователя. "Каждый день поиск "Яндекса" отвечает примерно на 280 миллионов запросов. Какие-то из них, например "ВКонтакте", люди вводят в поисковую строку практически каждую секунду. Какие-то запросы уникальны - их задают один раз, и они, возможно, больше никогда не повторятся. Уникальных и просто редких запросов очень много - около ста миллионов в день", - говорится в сообщении, опубликованном в
блоге
компании. Своим названием новый алгоритм обязан специфике графика частотного распределения запросов в "Яндексе", который представляют в виде птицы с клювом, туловищем и длинным хвостом. Так, короткий "клюв" включает самые распространенные и часто задаваемые запросы. Запросы средней частотности образуют "туловище" птицы. Наконец, низкочастотные запросы по отдельности встречаются чрезвычайно редко, но вместе составляют существенную часть поискового потока и поэтому складываются в длинный "хвост". "Новый алгоритм позволяет поиску Яндекса лучше отвечать на сложные запросы из "длинного хвоста". Такой хвост есть у сказочной Жар-птицы, которая часто появляется на палехской миниатюре. Поэтому мы дали алгоритму название "Палех", - поясняют в компании. Сложные запросы из хвоста можно разделить на несколько групп. Например, одна из них представляет собой запросы пользователей, которые
общаются
с поисковиком как с живым собеседником, а другая - запросы тех, кто пытается вспомнить название книги или фильма по содержанию, например "фильм про человека который выращивал картошку на другой планете" ("Марсианин"). "Особенность запросов из "длинного хвоста" в том, что обычно они более сложны для поисковой системы. Запросы из "клюва" задают многократно, и для них есть масса разнообразной пользовательской статистики. Чем больше знаний о запросах, страницах и действиях пользователей накопил поиск, тем лучше он находит релевантные результаты. В случае с редкими запросами поведенческой статистики может не быть - а значит, "Яндексу" гораздо труднее понять, какие сайты хорошо подходят для ответа, а какие не очень. Задача осложняется тем, что далеко не всегда на релевантной страничке встречаются слова из запроса - ведь один и тот же смысл в запросе и на странице может быть выражен совершенно по-разному", - говорится в сообщении. Новый алгоритм решает эту задачу при помощи нейронных сетей, которые были обучены на накопленной базе текстов поисковых запросов и заголовках веб-страниц. В результате нейросеть научилась понимать смысловое соответствие между запросом и заголовками страниц. "Компьютеру проще работать с числами, чем с буквами, поэтому поиск соответствий между запросами и веб-страницами сводится к сравнению чисел. Мы научили нейронную сеть переводить миллиарды известных "Яндексу" заголовков веб-страниц в числа - а точнее, в группы из трехсот чисел каждая. В результате все документы из базы данных Яндекса получили координаты в трехсотмерном пространстве", - говорится в сообщении. Представить такое пространство и описанную систему координат достаточно трудно, поэтому для упрощения в компании предлагают представить, что каждой веб-странице соответствует группа не из трехсот, а из двух чисел. Тогда получится, что каждое число - это определенная координата по одной из двух осей, а каждая веб-страница просто соответствует точке на двумерной координатной плоскости. Такой способ обработки запроса и его сопоставления с вероятными ответами в компании назвали семантическим вектором. "Технология семантических векторов обладает огромным потенциалом. Например, переводить в такие векторы можно не только заголовки, но и полные тексты документов - это позволит еще точнее сопоставлять запросы и веб-страницы. В виде семантического вектора можно представить и профиль пользователя в интернете - то есть его интересы, предыдущие поисковые запросы, переходы по ссылкам", - говорится в релизе. По мнению создателей алгоритма, далекая цель состоит в том, чтобы получить на основе нейронных сетей модели, способные "понимать" семантическое соответствие запросов и документов на уровне, сравнимом с уровнем человека.
Ссылка на источник
Пожалуйста Войти или Регистрация, чтобы присоединиться к беседе.
Похожие статьи
Тема | Релевантность | Дата |
---|---|---|
"Яндекс" запустил поисковый алгоритм "Королев" | 20.19 | Среда, 23 августа 2017 |
Google улучшил поисковый алгоритм | 16.22 | Воскресенье, 27 октября 2019 |
«Яндекс» подвёл итоги чемпионата по спортивному программированию «Яндекс.Алгоритм» | 12.6 | Пятница, 29 июля 2016 |
Проект Tkeycoin представил новейший алгоритм майнинга | 11.64 | Вторник, 30 октября 2018 |
"Яндекс" отказался удовлетворить 73% запросов по праву на забвение | 11.6 | Вторник, 29 марта 2016 |
"Яндекс.Маркет" научился подбирать одежду по фотографиям при помощи нейросети | 11.33 | Понедельник, 25 июля 2016 |
«Яндекс.Алгоритм-2016»: регистрация открыта | 11.27 | Четверг, 21 апреля 2016 |
«Яндекс» отменяет алгоритм оценки сайтов ТИЦ, с которым работал 19 лет | 11.03 | Среда, 22 августа 2018 |
«Яндекс» представил конструктор для настройки корпоративного «Яндекс.Браузера» | 10.35 | Вторник, 04 июля 2017 |
Яндекс представил автомобильную интеллектуальную платформу «Яндекс.Авто» | 10.35 | Вторник, 19 сентября 2017 |