Текстовое содержание документа сайта – один из четырех наиболее весомых факторов, влияющих на ранжирование в поисковых системах, в частности, в Яндексе. Поисковые системы при расчете текстовой релевантности документа запросу обычно используют TF*IDF подход, основанный на оценке важности употребления слова в контексте документа. Произведение TF*IDF определяет уровень соответствия документа запросу, где множитель TF представляет собой прямую частоту вхождения термина в документ, а IDF – обратную частоту документа относительно запроса. В классическом случае для термина t[i] частоты TF и IDF определяются следующим образом.

Где ni количество вхождений термина t[i] в документ, а знаменатель представляет собой общую длину документа. Т.е. в классическом случае TF – плотность вхождения термина в документ.

Где |D| – общее количество документов (в базе поисковой системы), а в знаменателе представлено число документов (в базе поисковой системы), содержащих термин t[i]. Таким образом, чем реже употребляется слово в базе поисковой системы, тем выше у него обратная частота IDF.
Современные поисковые системы обычно используют различные модификации классической формулы. В частности Яндекс, как было получено посредством методики Миныча, в 2006-2007 годах в качестве прямой и обратной частоты вхождения термина в документ использовал

Где ni – количество вхождений термина t[i] в документ, nmax – количество вхождений самого частотного термина в пределах документа, TotalLemms – общее количество терминов в коллекции, т.е. длина поисковой базы Яндекса в словах, CF[i] – количество вхождений термина t[i] в поисковую базу, а величину p[i] часто называли весом слова. Если немного пораскинуть мозгами, то можно заметить, что в формуле прямой частоты рулит встречаемость термина в документе, т.е. чем чаще мы употребляем продвигаемый запрос, тем выше текстовая релевантность. Максимальная текстовая релевантность относительно термина t[i] достигается тогда, когда количество вхождений запроса t[i] сравнивается с самым частотным ni= nmax. Анализ формулы также показывает, что плотность вхождения ключевых слов в содержание документа никоим образом не влияет на ранжирование.
В период использования этой формулы Яндексом в подходе TF*IDF для текстового ранжирования ресурс текстовой релевантности был практически неограничен. Достаточно было написать огромный “естественный” текст на тему ключевых слов, увеличив, таким образом, автоматически количество вхождений продвигаемых запросов естественным образом, и позиции по ним сразу шли вверх.
В последнее время по некоторым весьма конкурентным запросам стали заметны следующие тенденции в текстовом содержании документов, находящихся на первых строках выдачи:
1) Стали появляться документы с огромными псевдо-естественными текстами и высокой плотностью содержания в них продвигаемых запросов (некоторые даже настолько увлекаются сочинением виртуозных текстов, которые невозможно читать, что попадают под санкции Яндекса);
2) Кроме того, стали хорошо себя чувствовать и небольшие тексты с высокой плотностью содержания ключевых запросов.
Эти тенденции наталкивают на мысли, а не поменялась ли у Яндекса формула для расчета прямой частоты TF? Может быть опять рулит старая добрая плотность ключевых запросов? Давайте проанализируем формулу TF из доклада Яндекса, представленного на РОМИПе 2006:

Где ni – количество упоминаний термина t[i] в документе, DocLength – длина документа в словах (включая тег Title), k1, k2 – некоторые постоянные числовые коэффициенты. Анализ формулы показывает:
1) Чем выше плотность вхождения термина в документ, при фиксированной длине документа, тем больше TF и выше текстовая релевантность документа этому запросу.
2) Чем больше длина документа, при фиксированной плотности вхождения запроса в документ, тем выше TF, а, следовательно, и текстовая релевантность.
Сделанные из анализа выводы неплохо согласуются с замеченными тенденциями в текстовом содержании документов, находящихся среди лидеров в поисковой выдаче Яндекса по конкурентным запросам, неправда ли? Если предположить, что в Яндексе при расчете текстовой релевантности на основании подхода TF*IDF, действительно, используется подобная формула для TF, то следующие рекомендации помогут увеличить текстовую релевантность вашей страницы продвигаемому запросу.
- “Золотое” правило продвижения: один запрос – одна страница становится еще более актуальным в такой модели для TF, поэтому старайтесь еще более жестко ему следовать.
- Пишите объемные “естественные” тексты, насыщенные ключевыми словами.
- Несмотря на то что при фиксированной длине документа рулит плотность продвигаемых запросов, не стоит делать ее заоблачной. Вероятнее всего Яндекс имеет в своем распоряжении “механизм” отлова переоптимизированных страниц, либо ему в этом помогут ваши конкуренты. Плотности до 10% будет вполне достаточно, чтобы превзойти конкурентов в текстовой составляющей и не попасть под фильтр. Кроме того формула для прямой частоты TF устроена так, что, начиная с некоторого значения, увеличение плотности практически не дает вклад в текстовую релевантность.
P.S.: Кстати, сегодня обнаружил, что мой эксперимент по измерению длины учитываемого тега Title безнадежно устарел. Похоже теперь Яндекс учитывает очень большое количество слов (или символов) в Титуле, в общем, во всем старается походить на Google.
P.S.S.: Зачитался СЕО Пресс? Подпишись на RSS.
Любопытно к прочтению:
Опубликовано
05.05.2009 в 2:04 дп в рубриках: СЕО.