Новый алгоритм ранжирования страниц «Снежинск» от Яндекса или математический подход к гаданию на кофейной гуще |
|
|
| Разное о SEO и поисковой оптимизации сайтов |
| Автор: Administrator |
| 17.11.2009 14:52 |
![]() Итак, как Вы все, наверное, уже знаете, 10 ноября команда Яндекс анонсировала свой последний поисковый алгоритм ранжирования страниц в поисковой выдаче под чудным названием «Снежинск». До сегодняшнего дня все поисковые СЕО оптимизаторы лишь пугали друг друга этим дивным словом, да дивились на тестовую выдачу в buki, однако не прошло и недели, как новую выдачу ввели в строй (ночь на 17.11.2009), что тут же наглядно отразилось на позициях продвигаемый сайтов и страниц по многим запросам. Бедные оптимизаторы судорожно стали искать логику и выстаивать догадки и предположения, пытаясь разгадать хитроумную систему ранжирования по новому алгоритму. Что всю выдачу «перетрясло» стало видно невооруженным взглядом, тот же Seopult, к примеру, показал апдейт выдачи 54,29% (шторм), чего на своей памяти я не припомню. Алгоритм «Снежинск» - актуальная необходимость или большой эксперимент?Алгоритм «Снежинск» - это алгоритм ранжирования поисковой выдачи, как многие уже догадались. Для тех, кто обычно пребывает сугубо в «танке», поясню, что это набор определенных вычислений которые позволяют поисковой системе определить, на сколько тот или иной документ в его поисковой базе соответствует тому или иному запросу (релевантность документа). Затем, на основании результата этих вычислений, расставить документы в порядке убывания этого значения, после того как пользователь вводит свой запрос (поисковая выдача по запросу). Как и любой алгоритм, «Снежинск» основан на методах, которые в свою очередь были давно описаны в презентации доклада от Yandex team «Greedy function optimization in learning to rank» на RuSSIR-2009. В этом прелестном документе главным образом очень много математики и очень мало внятных и понятных обычным оптимизаторам вещей, которые привыкли действовать главным образом за счет опыта и интуиции. Попробуем немного вникнуть в суть дела алгоритма ранжирования Снежинска. Как построить функцию ранжирования или «жадный» алгоритм обученияОсновная задача любой поисковой системы понятна из её определения – это поиск. Для того, что бы искать, системе необходимо найти такую функцию ранжирования, которая определяла бы и находила наиболее соответствующие (релевантные) документы по любому запросу пользователя. Построить такую функцию вручную нереальная задача даже Эйлеру, Лейбницу, Ломаносову и Пифагору, даже на секунду представив – работающим вместе. Это задача, по своей сути, для «Искусственного интеллекта», а это уже, если не из совсем фантастики, то, как минимум, из нашего будущего. Решение, конечно же, есть, и оно далеко не сложное. Функцию просто необходимо обучить на заранее отобранных людьми данных, которые в данном случае принимаются за «эталонную выборку». Для обучения функции Яндекс в «Снежинске» пошел по принципу: «от добра-добра не ищут», и использовал так называемый жадный (greedy) алгоритм, особенности его оптимизаторам не так и важны, а основное и главное свойство заключается в очень высокой быстроте работы даже при огромных массивах данных для анализа. Обучение функции ранжирования и влияние факторов, коэффициентов и параметровОбъясню «на пальцах», основываясь на презентации алгоритма «Снежинск» Яндексом. Делается обучающая выборка «запрос-документ», этим парам в свою очередь присваивается значение релевантности, в определенном диапазоне. Эту релевантность назовем «эталонной релевантностью» именно она и используется для обучения функции и алгоритма «Снежинск» в целом. На её основании и, как не парадоксально звучит, подгоняются значения параметров функций всего обучающего множества так, что бы выдаваемые значения были как можно ближе к принятым за эталон выдачи. Естественно поисковая система делает огромное количество вычислений, и функция получается архи сложной, и основная задача её дать понять всем, кто пытается «разгадать матрицу», что бедующее за «белыми методами продвижения». Все это конечно благая и разумная идея, но первых блинов без комьев, как мы знаем, не бывает, что многие уже заметили. Еще недавно Яндекс заявлял о влиянии 163 различных факторов на ранжирование страниц (алгоритм «Арзамас»), теперь функция ранжирования состоит суммы функций, которых по заявлениям несколько тысяч, на каждую из которых, в свою очередь, влияет еще и свой коэффициент. Функция ранжирования по алгоритму «Снежинск» имеет вид: F = k1*f1 + k2*f2 + … + kn*fn В итоге получаем: результат функции ранжирование (F) это и есть значение релевантности, f – функции ранжирования количеством n (которых несколько тысяч теперь) и, собственно, сами коэффициенты (k). Обучение функции и есть подгонка этих коэффициентов для достижения эталонного результата. Понятно, что не только без пол литра, тут даже без косяка афганских шишек, даже зная результат и некоторые значения, переменные ни вычислить, ни определить нереально. Что бы окончательно взорвать мозг простого оптимизатора Яндекс дает пример такой функции: F = 3:14*log7(f9(q; d)) + ef66(q;d) + … Правда, ведь, ничего сложного? Как видно логики в этих функциях очень мало, да и ощущение такое, что нас хотят специально запутать. Из этого примера нам, простым оптимизаторам, главное вынести-то основное, что заставляет нас думать и идти к намеченной цели. А главное здесь то, что каждая из суммирующихся функций оказывает в общей массе очень незначительное влияние на результат, что очевидно. Конечно, вклад каждой в итоговую релевантность занимает какую-то определенную долю в каждом случае, однако итак понятно, что не было бы смысла так усложнять алгоритм, что бы в итоге 5,10,30, пусть 50 функций давали бы слишком большую итоговую долю от суммы. Т.е. реально любой фактор, например, возраст домена, трастовость, количество вхождений ключевого слова в анкор, возраст ссылки или, что-либо другое может являться параметром в десятках или сотнях функций. А, судя по математическим функциям, реальный вклад в суммарное значение может даже уменьшаться при увеличении самого значения фактора! Вот тебе, бабушка и Юрьев день или «Снежинск». Алгоритм «Снежинск», делаем выводыИтак, уже понятно, что:
Еще немного о «Снежинске» вместо заключения.Подсмотрел интересную мысль и спешу поделиться её с Вами. У коэффициентов, которые оказывают влияние на суммирующиеся функции, есть очень интересная особенность, которую необходимо отметить. На эти коэффициенты не накладывается никаких ограничений, Значит, их значение может быть и отрицательными, получается, что при вычислении ранжирование это слагаемое может давать отрицательный вклад в общий результат выдачи по Снежинску. Например, для каждого значения тИЦ в общей формуле, существует функция, параметром для которой будет количество ссылок с сайтов с таким же тИЦ, определенной трастовости и возрастом домена-донора. Учитывая, что при вычислении используются и логарифмы и еще черт знает что, может выйти так, что, к примеру, при тИЦ=200 вклад в общую сумму будет положительный, при тИЦ=220 уже значение может получиться отрицательным, а при тИЦ=250 снова положительным. Причем значение не будет завесить ни от каких прочих факторов, а само наличие отрицательной функции при таком их количестве экспериментальным путем не представляется возможным, не зная всей функции в целом. |
Комментарии
Только голову прикрывай от таких взлетов и падений звезд. А главное по кэшу видно, что ничего в них не меняется.
Если звезды зажигают - значит это кумо-нибудь нужно… Цитировать
Новый алгоритм яндекса просто обескураживает, вообще ничего не ясно! Цитировать
Мне кажется, что это все лабуда!
А вот однозначно то, что при всех обещаниях новый алгоритм заметно тормозит с формированием выдачи и судя по отчетным данным многих систем мониторинга позиций информация в xml заливается ОЧЕНЬ медленно. Цитировать
RSS лента комментариев этой записи.