Как ранжирует сайты Яндекс
5 минут
6958
Ранжирование сайтов в Яндексе
Полезность документов, которые находит поисковая система, сильно различается. Одной из важнейших задач Яндекса является обеспечение такого упорядочивания результатов поиска (ранжирования), при котором документы, наиболее подходящие запросу, расположены в начале поисковой выдачи.
Решение данной задачи требует введения системы оценки качества поиска и ее регулярного применения для улучшения правил ранжирования документов.
Для ранжирования результатов используется релевантность — свойство документа, определяющее степень его соответствия поисковому запросу. Позиция документа тем выше, чем больше его релевантность.
Релевантность вычисляется на основе формулы ранжирования — функции от множества факторов. Фактором называется численная характеристика запроса, документа или пары запрос-документ, позволяющая оценить уместность результата в выдаче по запросу (например, количество слов поискового запроса в тексте документа, принадлежность запроса к некоторой категории и т. п.). В случае с персонализированным поиском релевантность документа может зависеть от пользователя, отправившего запрос.
Множество проиндексированных документов и потребности пользователей постоянно меняются. Поэтому формула ранжирования требует регулярного обновления. Для изменения формулы используются методы машинного обучения. На основе экспертных данных выявляются зависимости между характеристиками документов и порядком их включения в поисковую выдачу. Выявленные зависимости используются для внесения изменений в формулу.
Оценка качества поиска
Экспертными данными для машинного обучения являются оценки, характеризующие уместность и корректность порядка следования документов в поисковой выдаче по конкретным запросам. Подготовку оценок обеспечивают асессоры.
Помимо применения в машинном обучении, оценки асессоров также используются для оценки качества поиска — удовлетворенности пользователей результатами поисковой выдачи и порядком их следования.
Для количественного измерения качества поиска используются метрики — рассчитанные по набору формул числа, отражающие определенные характеристики набора поисковых ответов. Переменными в таких формулах могут выступать в том числе оценки асессоров. Значения метрик позволяют оценивать качество текущих правил ранжирования и сравнивать их с новыми.
Если значения метрик для новой формулы выше, чем для используемой, она запускается для ограниченного количества пользователей. Достоверность результатов таких экспериментов проверяется методами теории вероятности. По достоверным результатам может приниматься решение о выкладке новой формулы для всех пользователей.
Таким образом, формирование хороших правил ранжирования и оценка качества поиска — связанные задачи, которые требуется решать в комплексе.
Источник: api.yandex.ru