Ни для кого не секрет, что поисковым системам не очень нравится дублированный контент. И в этом есть очень даже разумное основание.
Представьте себя на месте робота поисковой системы (ну скажем Яндекса), который без устали день ночь “ходит” по всему Рунету и собирает информацию для поискового индекса, размер которого, кстати говоря, составляет уже не малую цифру
И тут роботу попадается страничка, которую он уже где-то видел и она уже попапала в те 94182 ГБ проиндексированной информации. Какой смысл еще раз ей засорять свой винт?
Да, если дублированный контент – это одни и те же популярные новости или законы, представленные на разных сайтах, то скорее всего страницы с ними попадут в поисковый индекс на всех этих сайтах. Но если одна и та же информация продублирована на некотором количестве страниц одного и того же сайта, то в индексе с большой вероятностью окажется лишь малая часть страниц от этого количества.
Поэтому следует избегать дублирования содержания на различных страницах одного и того же сайта!
По этой причине в Панели Вебмастера для одного моего подопечного сайта получаются вот такие вот интересные цифры
Т.е. робот Яндекса просмотрел целых 421 страницу, а занес в поисковый индекс всего 126.
А теперь поймем почему так получается.
Львиную долю этого сайта занимает каталог продукции примерно вот с такими страничками:
Которые различаются только рисунком этикетки (или другой продукции).
А теперь как это видит робот:
Различия только в названии рисунков. Ну и как Вы думаете имеет ли смысл “кушать” роботу все странички такого типа? Конечно же нет.
Как результат - ни одна из этих двух страниц не находится в индексе поисковой системы Яндекс.
А вот если бы, например, на каждой такой страничке присутствовало пару предложений уникального контента про название этикетки, для какой компании она делалась и прочее, прочее, то поисковый робот с удовольствием бы “скушал” такие страницы, и какой-нибудь пользователь, глядишь, и зашел бы по низкочастотному запросу, а потом, глядишь, и позвонил бы да и заказал что-нибудь.
Любопытно изучить:
- Дублированный контент на одном сайте (продолжение)
- Обзор сервисов для проверки контента на уникальность (плагиат)
- Обзор сервисов для проверки текста на уникальность (плагиат) – 2
- Обзор программ для проверки контента на уникальность (плагиат)
- Магические цифры в Яндексе или история о том, как банятся сайты в Sape
- Восемь факторов, влияющих на попадание сайта под фильтр АГС-17
Это все алгоритмы новые! И сайты стали ссылки прятать. Дело идет к тому, что в сети будут только те у кого есть деньги. А если их нет будете сидеть в песочнице!
Статья полезная, но хотелось бы видеть небольшое дополнение: как и чем определять страницы с дублированным контентом? Например у меня на одном ресурсе такая статистика в Я.Вебмастер: загружено страниц – 808, страниц в поиске – 287. Статей всего – 70 + по 5 тегов на статью, с учетом того, что часть тегов перекрещивается, то где-то 287 страниц и выйдет. А откуда взялись еще 500 – это не ясно…
Dragonfly, по идее после переиндексации, если ситуация не изменилась, то возможно, проблема не только в дублированном контенте
дублирование возникло случайно, из-за некорректной работы системы размещения информации и довольно долгое время не было замечено. Заголовки и основной текст – одинаковые, урл – разные
Добрый день! очень нужна помощь, есть такой вопрос. Если найден дублированный контент, страниц уже нет в поиске – но ошибка устранена (дубли удалены) – через какое время положение наладится (страницы появятся в выдаче)? примерно пятая часть – дублированный контент внутри одного сайта. возможно меньше
“Но там говорилось, что пара предложений не канает, потому, что это будет очень маленький % уникальности на фоне” на фоне обьема всего кода. Ибо в расчет берется соотношение контента и кода.
- отсюда чем меньше кобьем кода тем лучше
- чем больше обьем контента тем лучше
- при минимальном контенте ( “пару предложений уникального контента” ), минимальное соотношение – получаем тот же дубль страницы
Большинство из этих страниц – тэги и прочие страницы скриптов, не имеющих особую нагрузку. А вот про картинки – это вы зря. Картинки же надо как-то яше инедксить, да и галереи никто не отменял. Поэтому пример неуникальности с картинкой не совсем подходит.
Алексей, напишите на e-mail с примером сайта, так сложно сказать, это лучше чем ничего, но все равно не гуд.
Для того чтобы поисковик считал страницу уникальной, количество символов уникального контента должно, как минимум, превышать количество символов слов шаблона. Если уникального контента на странице не хватает, то нужно брать в ноиндекс. Хотя в ноиндекс всегда лучше брать некоторые пункты меню, для ускорения индексации.
Добрый день, прошу помочь разобраться. Хочу бороться с дублированностью контента в своем интернет магазине следующим образом. Создать на странице с описанием продукта поле. (Анонсы новых статей) и в нем вставлять (случайным образом для каждой страницы) по 2-3 предложение из нескольких статей. Как могут отреагировать?
Да. Eugene, шаблонизация всегда вредит. Я например беру все менюшки в ноуиндекс. Вот как это решить для гугла пока не знаю.
Да, никакие споры не помогли. Причём гугл проиндексировал всё.
Прямо через саппорт написали что за это забанили?
У моего знакомого Яндекс забанил, за то, что контент был бесполезным и несодержательным. Хотя всё было уникальное.
—А забанить за много дублированного контента могут?
Да могут, но здесь решает совокупность http://www.easybiznes.ru/uniq/ – здесь есть интересная теория
А забанить за много дублированного контента могут?
vkontakte – 2-3 апа, может больше.
На моём сайте контент уникальный, а Яндекс чё та никак не проиндексирует его( … Сколько обычно нужно времени на индексацию нового сайта? подскажите кто в курсе.
Надо было в тег альт напихать по паре абзацев с описанием и робот бы скушал странички, как разные(ну мне так кажется). Я бы так сделал.
Владимир, приводили примеры, когда страницы проиндексированы в Яндексе, но в выдаче не участвуют. Яндекс типа считает их “плохими”, но не настолько чтобы выкидывать их из своей базы. Но это скорее исключение, так обычно да, участвуют.
Ох нифига себе скока на яндекс.вебмастере полезного, а я только в гугле вебмастером пользовался.
Читал, что странички с не уникальным контентом попадают под фильтры поисковика и не участвуют в выдаче по запросам, но у меня на сайте есть странички с не уникальным содержанием, и все они проиндексированы и из индекса не выпадают (тьфу,тьфу,тьфу), значит они все равно участвуют в выдаче?
frenky_bob, угу может, обычно при этом выдаваемый урл в результатах поиска меняется
привет! а может случиться так, что изза того что на сайте 3 одинаковых страницы, одна из этих страниц(продвигаемая) упадёт в выдаче?
uranix, Платону пробовали писать?
Вот у меня сайт на WP вылетел. Контент состоял из картинок (обои для рабочего стола) и короткого названия этой картинки (2-3 уникальных слова из головы). Также каждая запись была включена в несколько рубрик и несколько меток. Весь сайт проиндексировался гошей и яшей включая почти все метки и рубрики. Пошел трафик. Потом (через 2 месяца) яша его выкинул из индекса. А гугл до сих пор (уже год) туда трафик нагоняет.
сайт: pictu.ru
Подскажите кто знает как вернуть сайт в индекс яшки?
Google советует использовать директиву “canonical” http://seobag.ru/canonical/ для исключения дублей. Жаль, что Yandex пока не воспринимает данную инструкцию, но думаю это скоро изменится.
Hazukashii, я бы поступил так, если страниц на сайте много (тысячи – десятки тысяч), то закрыл бы теги от индексации дабы не мешать индексации основных страниц. Если страниц на сайте немного, то оставил бы теги открытыми.
З.Ы.: Не люблю в Сапе страницы-теги покупать, уж больно часто они из индекса выпадают
Денис, Вот именно, страницы с тегами – около 35-40% страниц и если захочется продавать ссылки, то закрытие тегов, это минус, но для нормальной индексации это плюс, вот палка о двух концах…
Сами вы кукаю сторону выбираете?
Hazukashii, скорее да, чем нет, если конечно вы не собираетесь продавать ссылки с сайта
Автор подскажи, сейчас повсеместно используются теги, а теги это дубли уже существующих страниц, нужно ли их закрывать к индексации через robots.txt?
спасибо. уже нашли уникальный контент. буду знать.
Елена, может посчитать дублями, лучше разместить уникальный контент или хотя бы рерайт
а что делать если мне надо сделать такой набор страниц на сайте? неужели он не будет индексировать ни одну из страниц?
стр.1
______
текст1
——
текст2
______
стр.2
______
текст1
——
______
стр.3
______
текст2
——
______
У меня один сайт за такое забанил яндекс( Теперь незнаю что и делать с ним, весь поток трафа был от туда
Просто я пользуюсь программой для постинга Windows Live Writer.
И иногда она и САМА постит дважды, или у меня рука дрогнет:)
Semenovich Anna, хотя я сомневаюсь, что вы действительно Анна Семенович, ну это как же должно думаться тяжело, чтобы второй раз одно и то же написать, а потом запостить
В рамках одного и того же сайта на вордпресс не сталкивался с такой фичей
Уважаемый Mexboy, новые версии Вордпресса как то борются с дубликатами контента, не подскажете?
Потому что часто случайно можно запостить одну и ту же статью несколько раз…
Особенно глубокой ночью, когда думается тяжело:)
У кого-то из забугорных мастеров смотрел видео, там такая же тема освещалась.
Но там говорилось, что пара предложений не канает, потому, что это будет очень маленький % уникальности на фоне всего контента (меню) и там говорили “пишите много”, “придумывайте описания” и т.д…
Ну так да .. слова рулят, а уникальные слова рулят вдвойне.
И надо везде где можно хоть пару ключей оставлять (что с одной стороны не гуд, но если больше написать нечего … что правда случается крайне редко)
Предположу, что Яндекс не поощряет дублированный контент из-за возможности массового автоматического развития сайтов держащихся только на копировании, а винт, мощности это уже дело второе.
Не совсем, дело не в шаблонизации дизайна, а в отсутствии уникального контента. В картинку просто не вместился одинаковый контент под картинками этикеток.
Как пример, почему блоги на Вордпрессе (в том числе и мой), прекрасно индексируются поисковыми системами, хотя дизайн у многих шаблонный.
Или почему яндексоиды советуют наполнять сайт уникальным контентом и он появится в результатах выдачи – в том числе и по этой причине.
Получается, шаблонизация дизайна даже одного сайта вредит?