Надеюсь Вы уже прочли первую часть статьи дублированный контент на одном сайте. Я как то и не думал писать продолжение, но неожиданно появились мысли, как “зайти с другой стороны” к этой проблеме и показать, как еще негативно влияет дублированный контент на продвижение сайта.
Итак, вкратце напомню к какой мысли мы пришли в первой части: из-за дублированного котента значительная часть страниц не попадает в индекс поисковой системы (в качестве примера был рассмотрен Яндекс). За счет внутренней оптимизации этих страниц и различия в содержании можно было бы получить дополнительных целевых посетителей.
А теперь “зайдем с другой стороны” к этой проблеме, со стороны статического ранга страниц (PR, ВИЦ) и сайта в целом. В результате отсутствия значительной части страниц в индексе поисковых систем сайт и конкретные страницы недополучают определенное количество статического ранга.
Хочется понять сколько же статического ранга теряет сайт при отстутствии 421-126=295 страниц в индексе. Все расчеты будем производить для статического ранга, введенного поисковой системой Гугл (т.е. для Пейдж Ранга), поскольку Яндекс не очень любит распространяться о своем загадочном ВИЦ
Будем использовать классическую формулу расчета Пейдж Ранга
где
PRa – PageRank рассматриваемой страницы,
d – коэффициент затухания (означает вероятность того, что пользователь, зашедший на страницу, перейдет по одной из ссылок, содержащейся на этой странице, а не прекратит путешествие по сети, мы будем принимать его равным 0,85),
PRi – PageRank i-й страницы, ссылающейся на страницу а,
Ci – общее число ссылок на i-й странице.
Как известно, максимально возможный общий Пейдж Ранк сайта равен количеству страниц на самом сайте (см. книгу “Продвижение сайтов в поисковых системах. Спасательный круг для малого бизнеса.”). Таким образом, рассматриваемый сайт теряет целых 295 единиц статического веса (Пейдж ранга).
Замечание:
Здесь сделаю небольшое отступление. Просьба не путать эти 295 единиц Пейдж ранга с тем PR, который показывает гугловский тулбар. Есть мнение, что зависимость тулбарного Пр (т.е. шкалы от нуля до 10) от действительной шкалы ПР логарифмическая.
Согласитесь, что цифра в 295 единиц Пейдж Ранга, да еще и не в тулбарных измерениях PR – что-то неясное и непонятное на ощупь (но тем не менее уже что-то!). Если принять мнение о логарифмической зависимости из замечания за истину, то потери тулбарного ПР для всего сайта при отсутствии 295 страниц в индексе поисковой системы Гугл составят порядка Ln (295)=5,67. Пощупали.
Теперь пощупаем Пейдж Ранг отдельных страничек. Особенно нам интересна в этом смысле главная страница сайта, она как правило в первую очередь включается в продвижение по целевым запросам.
Напомню, статический ранг страницы является одним из факторов, влияющим на ранжирование, и соответственно, чем выше этот ранг, тем выше в результатах выдачи сама страница, по запросам ей соответсвующим.
Расчет Пейдж Ранга страничек будем проводить для схемы перелинковки, при которой общий ПР сайта максимальный. Такая ситуация реализуется, например, в случае представленном на картинке (почему PR сайта в этом случае максимальный см. литературу)
где A - главная страница сайта, A_i – внутренние страницы сайта.
Схема расчета PR проста: присвоим каждой странице изначальное значение Пейдж Ранга в 1, хотя на самом деле, неважно, с какого значения начинать – с 1, с 0 или с 999. Даже если обозначить эту цифру несколькими миллионами, после ряда последовательных вычислительных итераций конечный результат будет тем же самым. Просто, стартуя с 1, нам понадобится меньшее количество итераций, нежели начиная отсчет с 0 или любого другого значения.
Далее запускаем итерационный процесс по классической формуле расчета Пейдж Ранга для потенциально возможного количества страниц в индексе поисковой системы, т.е. n=421. И для действительного количества в индексе на данный момент, т.е. n=126.
для количества страниц на сайте n=421 после 70 итераций получается PR(A)=193,511, PR(A_i)=0,542
для количества страниц на сайте n=126 после 70 итераций получается PR (A)=57,972, PR(A_i)=0,544.
Результат опять же представлен в единицах действительной, а не тулбарной шкалы Пейдж Ранга. Как мы видим, Пейдж Ранг внутренних страниц получается практически тем же самым при отсутствии значительного количества страниц в индексе поисковой машины. PR главных страниц различается значительно. Если перевести в тулбарную шкалу, следуя нашему предположению о логарифмической зависимости, то получится
для n=421 после 70 итераций PR(A)=Ln(193,511)=5,265
для n=126 после 70 итераций PR(A)=Ln(57,972)=4,06.
Таким образом, из-за дублирования содержания на сайте мы автоматически занижаем Пейдж Ранг главной страницы в около 1,3 раза.
Выводы: Большое количество страниц с дублированным контентом на одном сайте приводит к отсутствию значительной части этих страниц в индексе поисковых систем. Что, в свою очередь, ощутимо занижает как статический ранг сайта в целом, так и статический ранг отдельных страниц (в частности, главной страницы). А ведь статический ранг является одним из факторов, влияющих на ранжирование сайта в поисковой выдаче.
Так зачем же мы используем возможности своего сайта при продвижении не на 100%?
При поддержке: Профессиональная внутренняя оптимизация страниц от студии NextUp.
Любопытно изучить:
- Дублированный контент на одном сайте
- Обзор сервисов для проверки контента на уникальность (плагиат)
- Обзор сервисов для проверки текста на уникальность (плагиат) – 2
- Восемь факторов, влияющих на попадание сайта под фильтр АГС-17
- Магические цифры в Яндексе или история о том, как банятся сайты в Sape
Sorus_Nomad, не стоит. Ничего страшного из-за этого случиться не должно
У меня такая ситуация:
Часть новости(анонс) попадает на главную. Это т же анонс появляеться еще на двух страницах сайта (только анонс). Целиком вся статья по одному адресу. Стоит ли мне воноваться? Анонс не более одного абзаца.
Хочу сделать статичной главную страницу, по кроме главной осталась home. Что же делать? Помогите.
Vasiliy, для начала подождите пока переиндексируется страница, она в индексе, но новый вариант с Одессой в Тайтле пока не проиндексирован
на главной, кроме ссылки упоминаний о печати нету
людиии!!!! кто подскажет, поможет. проблема в следующем. есть сайт main-element.com. на нем страница main-element.com/news/perchinki/nanesenie-logotipa-na-ruchki-breloki-zazhigalki.html в итоге гугл не индексирует вторую страницу. а вместо нее выдает первую с ссылкой на вторую, по запросу печать на ручках в Одессе может кто подскажет чего сделать, чтобы он выдавал вторую.?????
не спам честн. пишите в аську 584629783
Я так понимаю вывод: как можно меньше дублировать контент на разных страницах. НО есть одно НО – специфика движка. Например мой двиг выдает превьюшки со ссылками на внутренние страницы с разных страниц: главная, страницы, разделы, календарь, архив и т.д. То есть получается лучше этот вывод убрать, а то будет хуже.
Единственное, что там нечеткие дубли, так сказать в перемешку = может это спасает.
Валерий Матвеев, в текущий момент если выложите огромную статью с ключевиками то скорее всего попадете под фильтр Яндекса за переспам, как раз тут писал
http://mexboy.ru/?p=954
http://mexboy.ru/?p=1020
Здравствуйте!
Подскажите ответ на непростой вопрос: хочу выложить большую пребольшую статью (порядка 20 страниц), а через некторое время продублировать контент в виде отдельных статей, т.е. вычленить параграфы и дать названия статьям в виде этих параграфов. Цель – поднять главную статью до первой десятки по ряду ключевых запросов. Дополнительные статьи лишь для лучшего продвижения главной (ссылки с них будут на главную статью) и возможного привлечения дополнительных низкочастотных запросов. Что будет в этом случае?
Читал, что лучше сразу сделать несколько отдельных статей, и не ваять огромный пост. Но не уверен, что отдельные статьи в виде параграфов выйдут в 1-ю десятку (маловата у них будет релевантность ключевикам, а если пихать в статьи льшь ключевики, то читабельность для людей получится не фонтан), а ловить лишь низкочастотники не рационально. У меня сейчас порядка 30-ти статей и это дает в среднем 15 обращений к сайту в день. Выход по 4 ключевым запросам может сразу дать 50, а то и 100 обращений в день с одной статьи. Это куда интересней. Но не возникнет ли проблем с дублированным контентом? И еще, меня пугают страшилками из серии, что слишком длинные статьи плохо обрабатываются поисковиками. Правда ли это? А то может я выложу свою большую статью, а толку от этого будет мало?
клевая статья, полезная. Скажите, значит, например, на блоге надо закрыть всякие теги и т.д.? А то выходит, что на сайте контент дублируется, плагиат самого себя. И на главной значит лучше не постить материалы в виде блога? А то выходит, что контент есть и на внутренних страницах, и на главной, так?
Сорри, Портфолиос же конечно
Порфириус?
)
Доктор Порфириус, думаю если добавить на старых страницах описание, то они должны проиндексироваться
Гм, очень полезный материал. Теперь наконец начал понимать, почему различается количество загруженных и в индексе. У меня загруженных 82, а в индексе 32.
)
В общем, курам на смех, согласитесь.
А все потому, что специфика сайта такая – порфтолио моих работ, в основном страницы со скриншотами сайтов, естественно.
Теперь буду делать описания к каждой работе. И у меня в связи с этим такой вопрос. Как считаете, те старые страницы, которые загружены, но не в индексе – если к ним добавить описание выполненной работы, будут ли они проиндексированы яндексом, гуглом, и будет ли от них польза теперь. Или это только для новых страниц имеет смысл делать?
Спасибо.
Прохожий, не поклеил Яндекс значит еще странички, а выдается то по нужным запросам какая из четырех страниц?
ПС Яндекс – наверное одна из самых дебильных в инете. В выдаче Яшки присутствуют 4 (ЧЕТЫРЕ!) главных страницы одного моего сайта (УРЛ светить не буду):
)
- одна _www.мойсайт.ру/ (в robots.txt давно прописан домен без www),
- вторая мойсайт.ру/index.php (такой ссылки НЕТ ни на моем сайте и ни в одном анкоре),
- ДВЕ страницы мойсайт.ру/ – именно две!
Однажды, при проверке на плагиат своих статей, наткнулся на один сайт, у которого в индексе Яшки 27!!! страниц с одинаковым содержимым, но разными УРЛами. Думаю, что если задаться целью, то можно и покруче пример найти.
Вот вам и борьба ПС Яндекс с дублированием контента на одном сайте.
Спасибо за статью, много вопросов возникает. Раньше не задумывался о вреде дублирования
bestfilms, чтобы автоматизировать процесс написания уникального контента, нужно просто нанять копирайтера или воспользоваться их услугами на одной из бирж копирайтеров
по поводу наблюдений связи дублирования контента внутри одного сайта и фильтром Яндекса “Ты последний” санкций не наблюдал, “Ты последний”, по-моему мнение, накладывается на сайт с дублированным контентом с других сайтов
Статья хорошая. Но почему нету предложений о решении данного вопроса. Как предотвратить дублирование. Ведь сайт на шаблоне.
Писать очень много уникального контента – это понятно, а вот как автоматизировать этот процесс.
И еще, есть ли какие-то наблюдения относительно дублирования контента внутри одного сайта и фильтром яндекса “Ты последний”.