Дублированный контент на одном сайте (продолжение) - блог СЕО ПРЕСС
Янв
23

Дублированный контент на одном сайте (продолжение)

Надеюсь Вы уже прочли первую часть статьи дублированный контент на одном сайте. Я как то и не думал писать продолжение, но неожиданно появились мысли, как «зайти с другой стороны» к этой проблеме и показать, как еще негативно влияет дублированный контент на продвижение сайта. 

Итак, вкратце напомню к какой мысли мы пришли в первой части: из-за дублированного котента значительная часть страниц не попадает в индекс поисковой системы (в качестве примера был рассмотрен Яндекс). За счет внутренней оптимизации этих страниц и различия в содержании можно было бы получить дополнительных целевых посетителей.

А теперь «зайдем с другой стороны» к этой проблеме, со стороны статического ранга страниц (PR, ВИЦ) и сайта в целом. В результате отсутствия значительной части страниц в индексе поисковых систем сайт и конкретные страницы недополучают определенное количество статического ранга.


Хочется понять сколько же статического ранга теряет сайт при отстутствии 421-126=295 страниц в индексе. Все расчеты будем производить для статического ранга, введенного поисковой системой Гугл (т.е. для Пейдж Ранга), поскольку Яндекс не очень любит распространяться о своем загадочном ВИЦ :)

Будем использовать классическую формулу расчета Пейдж Ранга

где
PRa – PageRank рассматриваемой страницы,
d – коэффициент затухания (означает вероятность того, что пользователь, зашедший на страницу, перейдет по одной из ссылок, содержащейся на этой странице, а не прекратит путешествие по сети, мы будем принимать его равным 0,85),
PRi – PageRank i-й страницы, ссылающейся на страницу а,
Ci – общее число ссылок на i-й странице.

Как известно, максимально возможный общий Пейдж Ранк сайта равен количеству страниц на самом сайте (см. книгу «Продвижение сайтов в поисковых системах. Спасательный круг для малого бизнеса.»). Таким образом, рассматриваемый сайт теряет целых 295 единиц статического веса (Пейдж ранга).

Замечание: 
Здесь сделаю небольшое отступление. Просьба не путать эти 295 единиц Пейдж ранга с тем PR, который показывает гугловский тулбар. Есть мнение, что зависимость тулбарного Пр (т.е. шкалы от нуля до 10) от действительной шкалы ПР логарифмическая.

Согласитесь, что цифра в 295 единиц Пейдж Ранга, да еще и не в тулбарных измерениях PR – что-то неясное и непонятное на ощупь (но тем не менее уже что-то!). Если принять мнение о логарифмической зависимости из замечания за истину, то потери тулбарного ПР для всего сайта при отсутствии 295 страниц в индексе поисковой системы Гугл составят порядка Ln (295)=5,67. Пощупали.

Теперь пощупаем Пейдж Ранг отдельных страничек. Особенно нам интересна в этом смысле главная страница сайта, она как правило в первую очередь включается в продвижение по целевым запросам.

Напомню, статический ранг страницы является одним из факторов, влияющим на ранжирование, и соответственно, чем выше этот ранг, тем выше в результатах выдачи сама страница, по запросам ей соответсвующим.

Расчет Пейдж Ранга страничек будем проводить для схемы перелинковки, при которой общий ПР сайта максимальный. Такая ситуация реализуется, например, в случае представленном на картинке (почему PR сайта в этом случае максимальный см. литературу)

  

где A - главная страница сайта, A_i – внутренние страницы сайта.

Схема расчета PR проста: присвоим каждой странице изначальное значение Пейдж Ранга в 1, хотя на самом деле, неважно, с какого значения начинать – с 1, с 0 или с 999. Даже если обозначить эту цифру несколькими миллионами, после ряда последовательных вычислительных итераций конечный результат будет тем же самым. Просто, стартуя с 1, нам понадобится меньшее количество итераций, нежели начиная отсчет с 0 или любого другого значения.

Далее запускаем итерационный процесс по классической формуле расчета Пейдж Ранга для потенциально возможного количества страниц в индексе поисковой системы, т.е. n=421. И для действительного количества в индексе на данный момент, т.е. n=126.

для количества страниц на сайте n=421 после 70 итераций получается PR(A)=193,511, PR(A_i)=0,542

для количества страниц на сайте n=126 после 70 итераций получается PR (A)=57,972, PR(A_i)=0,544.

Результат опять же представлен в единицах действительной, а не тулбарной шкалы Пейдж Ранга. Как мы видим, Пейдж Ранг внутренних страниц получается практически тем же самым при отсутствии значительного количества страниц в индексе поисковой машины. PR главных страниц различается значительно. Если перевести в тулбарную шкалу, следуя нашему предположению о логарифмической зависимости, то получится

для n=421 после 70 итераций PR(A)=Ln(193,511)=5,265

для n=126 после 70 итераций PR(A)=Ln(57,972)=4,06.

Таким образом, из-за дублирования содержания на сайте мы автоматически занижаем Пейдж Ранг главной страницы в около 1,3 раза.

Выводы: Большое количество страниц с дублированным контентом на одном сайте приводит к отсутствию значительной части этих страниц в индексе поисковых систем. Что, в свою очередь, ощутимо занижает как статический ранг сайта в целом, так и статический ранг отдельных страниц (в частности, главной страницы). А ведь статический ранг является одним из факторов, влияющих на ранжирование сайта в поисковой выдаче.

Так зачем же мы используем возможности своего сайта при продвижении не на 100%?

При поддержке: Профессиональная внутренняя оптимизация страниц от студии NextUp.

Любопытно изучить:

Понравилось? Подпишись на обновление через: Rss E-mail

Оставить комментарий:

Комментарии:

  • Денис
    говорит:
    27.01.2013 | 19:07

    Sorus_Nomad, не стоит. Ничего страшного из-за этого случиться не должно

  • Sorus_Nomad говорит:
    25.01.2013 | 05:28

    У меня такая ситуация:
    Часть новости(анонс) попадает на главную. Это т же анонс появляеться еще на двух страницах сайта (только анонс). Целиком вся статья по одному адресу. Стоит ли мне воноваться? Анонс не более одного абзаца.

  • Марина говорит:
    06.02.2012 | 20:37

    Хочу сделать статичной главную страницу, по кроме главной осталась home. Что же делать? Помогите.

  • Денис
    говорит:
    27.05.2011 | 18:51

    Vasiliy, для начала подождите пока переиндексируется страница, она в индексе, но новый вариант с Одессой в Тайтле пока не проиндексирован

  • Vasiliy говорит:
    26.05.2011 | 12:10

    на главной, кроме ссылки упоминаний о печати нету

  • Vasiliy говорит:
    26.05.2011 | 12:08

    людиии!!!! кто подскажет, поможет. проблема в следующем. есть сайт main-element.com. на нем страница main-element.com/news/perchinki/nanesenie-logotipa-na-ruchki-breloki-zazhigalki.html в итоге гугл не индексирует вторую страницу. а вместо нее выдает первую с ссылкой на вторую, по запросу печать на ручках в Одессе может кто подскажет чего сделать, чтобы он выдавал вторую.?????
    не спам честн. пишите в аську 584629783

  • kinofilmi говорит:
    13.04.2010 | 19:10

    Я так понимаю вывод: как можно меньше дублировать контент на разных страницах. НО есть одно НО – специфика движка. Например мой двиг выдает превьюшки со ссылками на внутренние страницы с разных страниц: главная, страницы, разделы, календарь, архив и т.д. То есть получается лучше этот вывод убрать, а то будет хуже.
    Единственное, что там нечеткие дубли, так сказать в перемешку = может это спасает.

  • Денис
    говорит:
    10.03.2010 | 13:16

    Валерий Матвеев, в текущий момент если выложите огромную статью с ключевиками то скорее всего попадете под фильтр Яндекса за переспам, как раз тут писал

    http://mexboy.ru/?p=954
    http://mexboy.ru/?p=1020

  • Валерий Матвеев говорит:
    10.03.2010 | 01:26

    Здравствуйте!
    Подскажите ответ на непростой вопрос: хочу выложить большую пребольшую статью (порядка 20 страниц), а через некторое время продублировать контент в виде отдельных статей, т.е. вычленить параграфы и дать названия статьям в виде этих параграфов. Цель – поднять главную статью до первой десятки по ряду ключевых запросов. Дополнительные статьи лишь для лучшего продвижения главной (ссылки с них будут на главную статью) и возможного привлечения дополнительных низкочастотных запросов. Что будет в этом случае?
    Читал, что лучше сразу сделать несколько отдельных статей, и не ваять огромный пост. Но не уверен, что отдельные статьи в виде параграфов выйдут в 1-ю десятку (маловата у них будет релевантность ключевикам, а если пихать в статьи льшь ключевики, то читабельность для людей получится не фонтан), а ловить лишь низкочастотники не рационально. У меня сейчас порядка 30-ти статей и это дает в среднем 15 обращений к сайту в день. Выход по 4 ключевым запросам может сразу дать 50, а то и 100 обращений в день с одной статьи. Это куда интересней. Но не возникнет ли проблем с дублированным контентом? И еще, меня пугают страшилками из серии, что слишком длинные статьи плохо обрабатываются поисковиками. Правда ли это? А то может я выложу свою большую статью, а толку от этого будет мало?

  • носорожка говорит:
    30.09.2009 | 04:17

    клевая статья, полезная. Скажите, значит, например, на блоге надо закрыть всякие теги и т.д.? А то выходит, что на сайте контент дублируется, плагиат самого себя. И на главной значит лучше не постить материалы в виде блога? А то выходит, что контент есть и на внутренних страницах, и на главной, так?

  • Денис
    говорит:
    30.03.2009 | 20:03

    Сорри, Портфолиос же конечно :)

  • Доктор Портфолиус говорит:
    30.03.2009 | 13:28

    Порфириус? :) )

  • Денис
    говорит:
    30.03.2009 | 13:06

    Доктор Порфириус, думаю если добавить на старых страницах описание, то они должны проиндексироваться

  • Доктор Портфолиус говорит:
    30.03.2009 | 05:37

    Гм, очень полезный материал. Теперь наконец начал понимать, почему различается количество загруженных и в индексе. У меня загруженных 82, а в индексе 32. :) )
    В общем, курам на смех, согласитесь.
    А все потому, что специфика сайта такая – порфтолио моих работ, в основном страницы со скриншотами сайтов, естественно.
    Теперь буду делать описания к каждой работе. И у меня в связи с этим такой вопрос. Как считаете, те старые страницы, которые загружены, но не в индексе – если к ним добавить описание выполненной работы, будут ли они проиндексированы яндексом, гуглом, и будет ли от них польза теперь. Или это только для новых страниц имеет смысл делать?
    Спасибо.

  • Денис
    говорит:
    19.02.2009 | 19:34

    Прохожий, не поклеил Яндекс значит еще странички, а выдается то по нужным запросам какая из четырех страниц?

  • Прохожий говорит:
    19.02.2009 | 16:08

    ПС Яндекс – наверное одна из самых дебильных в инете. В выдаче Яшки присутствуют 4 (ЧЕТЫРЕ!) главных страницы одного моего сайта (УРЛ светить не буду):
    - одна _www.мойсайт.ру/ (в robots.txt давно прописан домен без www),
    - вторая мойсайт.ру/index.php (такой ссылки НЕТ ни на моем сайте и ни в одном анкоре),
    - ДВЕ страницы мойсайт.ру/ – именно две! :) )
    Однажды, при проверке на плагиат своих статей, наткнулся на один сайт, у которого в индексе Яшки 27!!! страниц с одинаковым содержимым, но разными УРЛами. Думаю, что если задаться целью, то можно и покруче пример найти.
    Вот вам и борьба ПС Яндекс с дублированием контента на одном сайте.

  • roadtrack говорит:
    21.09.2008 | 11:22

    Спасибо за статью, много вопросов возникает. Раньше не задумывался о вреде дублирования

  • Денис
    говорит:
    08.09.2008 | 17:31

    bestfilms, чтобы автоматизировать процесс написания уникального контента, нужно просто нанять копирайтера или воспользоваться их услугами на одной из бирж копирайтеров

    по поводу наблюдений связи дублирования контента внутри одного сайта и фильтром Яндекса «Ты последний» санкций не наблюдал, «Ты последний», по-моему мнение, накладывается на сайт с дублированным контентом с других сайтов

  • bestfilms говорит:
    08.09.2008 | 11:21

    Статья хорошая. Но почему нету предложений о решении данного вопроса. Как предотвратить дублирование. Ведь сайт на шаблоне.
    Писать очень много уникального контента – это понятно, а вот как автоматизировать этот процесс.

    И еще, есть ли какие-то наблюдения относительно дублирования контента внутри одного сайта и фильтром яндекса «Ты последний».