Новый алгоритм ранжирования страниц «Снежинск» от Яндекса или математический подход к гаданию на кофейной гуще

Печать E-mail
Метки: Снежинск алгоритм ранжирования Яндекс поисковая программа поисковое продвижение СЕО SEO
( 0 Votes )
Разное о SEO и поисковой оптимизации сайтов
Автор: Administrator   
17.11.2009 14:52
Лучшая система размещения статей
DotFun.Ru кризис с юмором!
новый алгоритм поискового ранжирования Яндекс- Снежинск
Итак, как Вы все, наверное, уже знаете, 10 ноября команда Яндекс анонсировала свой последний поисковый алгоритм ранжирования страниц в поисковой выдаче под чудным названием «Снежинск». До сегодняшнего дня все поисковые СЕО оптимизаторы лишь пугали друг друга этим дивным словом, да дивились на тестовую выдачу в buki, однако не прошло и недели, как новую выдачу ввели в строй (ночь на 17.11.2009), что тут же наглядно отразилось на позициях продвигаемый сайтов и страниц по многим запросам.

Бедные оптимизаторы судорожно стали искать логику и выстаивать догадки и предположения, пытаясь разгадать хитроумную систему ранжирования по новому алгоритму. Что всю выдачу «перетрясло» стало видно невооруженным взглядом, тот же Seopult, к примеру, показал апдейт выдачи 54,29% (шторм), чего на своей памяти я не припомню.

Алгоритм «Снежинск» - актуальная необходимость или большой эксперимент?


Алгоритм «Снежинск» - это алгоритм ранжирования поисковой выдачи, как многие уже догадались. Для тех, кто обычно пребывает сугубо в «танке», поясню, что это набор определенных вычислений которые позволяют поисковой системе определить, на сколько тот или иной документ в его поисковой базе соответствует тому или иному запросу (релевантность документа). Затем, на основании результата этих вычислений, расставить документы в порядке убывания этого значения, после того как пользователь вводит свой запрос (поисковая выдача по запросу).

Как и любой алгоритм, «Снежинск» основан на методах, которые в свою очередь были давно описаны в презентации доклада от Yandex team «Greedy function optimization in learning to rank» на RuSSIR-2009. В этом прелестном документе главным образом очень много математики и очень мало внятных и понятных обычным оптимизаторам вещей, которые привыкли действовать главным образом за счет опыта и интуиции.

Попробуем немного вникнуть в суть дела алгоритма ранжирования Снежинска.

Как построить функцию ранжирования или «жадный» алгоритм обучения


Основная задача любой поисковой системы понятна из её определения – это поиск. Для того, что бы искать, системе необходимо найти такую функцию ранжирования, которая определяла бы и находила наиболее соответствующие (релевантные) документы по любому запросу пользователя. Построить такую функцию вручную нереальная задача даже Эйлеру, Лейбницу, Ломаносову и Пифагору, даже на секунду представив – работающим вместе. Это задача, по своей сути, для «Искусственного интеллекта», а это уже, если не из совсем фантастики, то, как минимум, из нашего будущего.

Решение, конечно же, есть, и оно далеко не сложное. Функцию просто необходимо обучить на заранее отобранных людьми данных, которые в данном случае принимаются за «эталонную выборку». Для обучения функции Яндекс в «Снежинске» пошел по принципу: «от добра-добра не ищут», и использовал так называемый жадный (greedy) алгоритм, особенности его оптимизаторам не так и важны, а основное и главное свойство заключается в очень высокой быстроте работы даже при огромных массивах данных для анализа.

Обучение функции ранжирования и влияние факторов, коэффициентов и параметров


Объясню «на пальцах», основываясь на презентации алгоритма «Снежинск» Яндексом. Делается обучающая выборка «запрос-документ», этим парам в свою очередь присваивается значение релевантности, в определенном диапазоне. Эту релевантность назовем «эталонной релевантностью» именно она и используется для обучения функции и алгоритма «Снежинск» в целом. На её основании и, как не парадоксально звучит, подгоняются значения параметров функций всего обучающего множества так, что бы выдаваемые значения были как можно ближе к принятым за эталон выдачи.

Естественно поисковая система делает огромное количество вычислений, и функция получается архи сложной, и основная задача её дать понять всем, кто пытается «разгадать матрицу», что бедующее за «белыми методами продвижения».

Все это конечно благая и разумная идея, но первых блинов без комьев, как мы знаем, не бывает, что многие уже заметили.
Еще недавно Яндекс заявлял о влиянии 163 различных факторов на ранжирование страниц (алгоритм «Арзамас»), теперь функция ранжирования состоит суммы функций, которых по заявлениям несколько тысяч, на каждую из которых, в свою очередь, влияет еще и свой коэффициент.

Функция ранжирования по алгоритму «Снежинск» имеет вид:

F = k1*f1 + k2*f2 + … + kn*fn

В итоге получаем: результат функции ранжирование (F) это и есть значение релевантности, f – функции ранжирования количеством n (которых несколько тысяч теперь) и, собственно, сами коэффициенты (k). Обучение функции и есть подгонка этих коэффициентов для достижения эталонного результата.

Понятно, что не только без пол литра, тут даже без косяка афганских шишек, даже зная результат и некоторые значения, переменные ни вычислить, ни определить нереально.

Что бы окончательно взорвать мозг простого оптимизатора Яндекс дает пример такой функции:

F = 3:14*log7(f9(q; d)) + ef66(q;d) + …

Правда, ведь, ничего сложного?

Как видно логики в этих функциях очень мало, да и ощущение такое, что нас хотят специально запутать. Из этого примера нам, простым оптимизаторам, главное вынести-то основное, что заставляет нас думать и идти к намеченной цели. А главное здесь то, что каждая из суммирующихся функций оказывает в общей массе очень незначительное влияние на результат, что очевидно.
Конечно, вклад каждой в итоговую релевантность занимает какую-то определенную долю в каждом случае, однако итак понятно, что не было бы смысла так усложнять алгоритм, что бы в итоге 5,10,30, пусть 50 функций давали бы слишком большую итоговую долю от суммы.

Т.е. реально любой фактор, например, возраст домена, трастовость, количество вхождений ключевого слова в анкор, возраст ссылки или, что-либо другое может являться параметром в десятках или сотнях функций. А, судя по математическим функциям, реальный вклад в суммарное значение может даже уменьшаться при увеличении самого значения фактора! Вот тебе, бабушка и Юрьев день или «Снежинск».

Алгоритм «Снежинск», делаем выводы


Итак, уже понятно, что:
  1. Любые, появляющиеся на множестве сайтов мнения и утверждения мега сео специалистов, что «они все раскусили и поняли» не имеют под собой основания. Одни кричат, что стала важна трастовость, вторые, что возраст ссылок, третьи, что важны биржи и старые каталоги и т.д. и т.п. Теперь алгоритм слишком сложен и многообразен, влияние факторов сказывается на множестве функций одновременно, и определение прямых зависимостей стало практически невозможным.
  2. Судя по первой тестовой выдаче «Снежинск» пока имеет большие проблемы с региональной привязкой (например, в регионе поиска Москва, на вторых, третьих строчках по ВЧ и СЧ запросам попадаются явные сайты Петербурга). Об этом шумят сейчас на всех форумах, но думаю, решение этой проблемы мы увидим уже в ближайшем будущем.
  3. Алгоритм наверняка будет давать очень неплохие результаты по выдаче и, как мне показалось, основываясь на собственных проектах, не так страшен черт, как его малюют, однако! Уже сейчас, вылезает куча результатов по запросам, выдача по которым, мягко говоря, оставляющих желать лучшего. В этом случае, если обучение и подгонка коэффициентов не будет давать результата, Яндекс может пойти по пути увеличения количество функций, которые уж точно не будут менее «странными», что в конечном итоге сделает функцию не жизнеспособной (мысли вслух).
  4. Понять алгоритм в принципе задача вполне реальная. Создание очень большой обучающей выборке и её анализ (по многим-многим факторам) позволит создать собственную функцию. Теоретически при увеличении объема вводной информации вид этой «пробной» функции в итоге будет все ближе и ближе к искомой. А искомая нам и не к чему целиком, будет понятно хотя бы насколько важно и как распределяется влияние того или иного значения.

Еще немного о «Снежинске» вместо заключения.


Подсмотрел интересную мысль и спешу поделиться её с Вами. У коэффициентов, которые оказывают влияние на суммирующиеся функции, есть очень интересная особенность, которую необходимо отметить.
На эти коэффициенты не накладывается никаких ограничений, Значит, их значение может быть и отрицательными, получается, что при вычислении ранжирование это слагаемое может давать отрицательный вклад в общий результат выдачи по Снежинску.

Например, для каждого значения тИЦ в общей формуле, существует функция, параметром для которой будет количество ссылок с сайтов с таким же тИЦ, определенной трастовости и возрастом домена-донора. Учитывая, что при вычислении используются и логарифмы и еще черт знает что, может выйти так, что, к примеру, при тИЦ=200 вклад в общую сумму будет положительный, при тИЦ=220 уже значение может получиться отрицательным, а при тИЦ=250 снова положительным.

Причем значение не будет завесить ни от каких прочих факторов, а само наличие отрицательной функции при таком их количестве экспериментальным путем не представляется возможным, не зная всей функции в целом.




 

Комментарии  

 
0 #4 Diana 2010-06-25 22:26 Мой сайт www.ufahome.com по запросу связанным с квартирами на сутки в гугле в Топ-5. А яндекс отчаянно не пускает в ТОП-10, а главное постоянно как пули летают в ТОП-5 и даже ТОП-3 ГСайты - посидят там после апа и со следующим апом летят к своим 30-40 позициям.
Только голову прикрывай от таких взлетов и падений звезд. А главное по кэшу видно, что ничего в них не меняется.
Если звезды зажигают - значит это кумо-нибудь нужно…
Цитировать
 
 
0 #3 АндрейА 2010-04-22 03:15 Вот мой сайт http://www.ac-future.ru, в гугле по запросу частная школа идешь к верху, а в яшке ваабще странно как-то. То вверх подымет, а то выкинет… Ну и после обновления он мне вообще тиц сбил…
Новый алгоритм яндекса просто обескураживает, вообще ничего не ясно!
Цитировать
 
 
0 #2 Administrator 2009-11-18 10:58 Кое где слышу возгласы о том, что новый алгоритм это все приближение к буржеНету и, что это очередная попытка подсадить всех на Яндекс директ.

Мне кажется, что это все лабуда!

А вот однозначно то, что при всех обещаниях новый алгоритм заметно тормозит с формированием выдачи и судя по отчетным данным многих систем мониторинга позиций информация в xml заливается ОЧЕНЬ медленно.
Цитировать
 
 
0 #1 poultdimm 2009-11-17 22:40 Ниасилил… Цитировать
 

Добавить комментарий


Защитный код
Обновить