Что такое дублированный контент на сайте
Что такое дублированный контент на сайте?
Вероятно, вы довольно часто сталкиваетесь с определением «дублированный контент», но что это? Дублированным называют контент, размещенный в нескольких местах, скажем по URL-адресам. Такой контент может негативно сказаться на ранжировании, и многие говорят, если увлечься его копированием, можно даже схлопотать бан от Google. Однако это не правда. Google не предусматривает наказаний за повторяющийся контент, но при обилии такого контента может снизить его значимость.
Что же такое дублированный контент?
К дублированному контенту относят весь контент, размещенный в нескольких местах на вашем сайте либо за его пределами. Его часто можно найти по другим URL-адресам, а иногда даже на другом домене. По большей части дублирование контента происходит непреднамеренно или является результатом плохой технической реализации. К примеру, ваш сайт доступен как в www, так и в ее аналогах, или же, о ужас! …к нему можно в равной степени получить доступ посредством протоколов HTTP и HTTPS. Или, как вариант, ваша CSM в чрезмерной степени использует динамические параметры URL и тем самым вводит в заблуждение поисковые системы. Даже ваши страницы с AMP, не сошлись на них должным образом, могут рассматриваться в качестве повторяющихся. Дублированный контент он повсюду.
Google дает свое определение дублированному контенту:
Повторяющимся контентом обычно называют большие блоки информации в рамках одного или нескольких доменов, содержание которых либо полностью совпадает, либо почти не отличается. Как правило, в данном случае не преследуется цель ввода пользователя в заблуждение.
Последнее особенно важно. Если вы отыскиваете информацию, копируете ее, а потом выдаете за свою (Google определяет ее, как скопированный контент) с целью ввести в заблуждение поисковую систему и улучшить свое ранжирование, вы ходите по краю.
Google предупреждает, что подобный злой умысел может вызвать ответные действия:
Наличие на сайте повторяющегося контента не является основанием для принятия каких-либо мер по отношению к нему. Такие меры применяются только в том случае, если это сделано с целью ввести пользователей в заблуждение или манипулировать результатами поиска.
Документация Google также является кладезем для работы с дублированным контентом на сайте.
Дублированный, скопированный, или же бедный по содержанию контент. Что лучше?
Тема затрагивающая дублирование контента у многих вызывает замешательство. Основная масса дублированного контента по мнению Google имеет техническую природу, но содержимое поисковик так или иначе проверит. «У меня есть два URL-адреса для одной и той же статьи. Какой мне лучше выбрать?». Сейчас большинство обычных людей вероятно подумают о фрагментах схожей информации местами встречающейся на сайте. «Этот фрагмент текста я разместил в нескольких местах, это так плохо?». Весь контент, о котором идет речь является дублированным, но, чтобы определиться с ранжированием поисковые системы разграничивают дублированный, скопированный и бессодержательный контент.
Не блокируйте дублированный контент на своем сайте
Google очень привержено относится к обнаружению и обработке дублированного контента. Поисковая система достаточно умна, чтобы понимать, как стоит поступать с большей частью выявленного ей дублированного контента. Выявив множество вариантов страницы, она отнесет их к наиболее популярной (в большинстве случаев она и будет являться оригинальной статьей/страницей). Однако, для этого понадобится полный доступ к тем URL-адресам, на которых эти страницы находятся. Если вы, используя файл robots.txt, заблокируете Googlebot возможность поиска этих URL адресов, он перестанет воспринимать их, а это может быть чревато тем, что Google станет относится к соответствующим страницам, как к обособленным. Вам следует проделать следующие действия:
Для борьбы с дублированным контентом на вашем сайте вы можете сделать больше прочитав статью дублированный контент: причины и решения.
Используйте rel=canonical!
Сфокусируйтесь на оригинальном, свежем и заслуживающем доверия контенте
Еще одним инструментом в вашем боевом арсенале против дублированного, скопированного и неоригинального контента являются ваши навыки письма. Google фокусируется на качестве. Поисковая система всегда пребывает в поиске наилучшего доступного контента, как можно лучше соответствующего ожиданиям пользователей. Ваша цель должна заключатся не в быстром заработке, а в том, чтобы произвести неизгладимое впечатление. Остерегайтесь несодержательного контента и сделайте так, чтобы он стал оригинальным и качественным.
То же самое относится и к похожему контенту вашего сайта. Мы уже обсуждали каннибализм ключевых слов, и это сродни ему. Объединяя несколько сопоставимых постов в один, можно добиться намного лучших результатов как с точки зрения ранжирования, так и в борьбе с дублированным контентом.
Вот что Google думает по поводу схожего контента:
Уменьшите количество похожего контента. Если на вашем сайте много похожих страниц, добавьте на каждую из них уникальный контент или объедините их в одну. Предположим, у вас туристический сайт с отдельными страницами для двух городов, где представлена одна и та же информация. Вы можете вместо них разместить страницу с описанием обоих городов, или добавить на каждую, уникальные материалы.
Дублированный контент повсюду-знайте, что с ним делать
Бывший сотрудник компании Google Мэтт Каттс однажды заявил, что 20% — 30% ресурсов в Интернете представляют собой дублированный контент. Хотя у меня и нет уверенности в том, что эти цифры все еще актуальны, дублированный контент продолжает появляться на каждом сайте. Нет нужды воспринимать эту новость как плохую. Исправьте то, что в ваших силах и не пытайтесь превратить дублированный контент, родственные ему скопированный и бессодержательный контент, в жизнеспособную SEO-стратегию.
Дублированный контент. Пора устранить вредоносных клонов!
Что такое дублированный контент?
Дублированный контент или просто дубли – это страницы на вашем сайте, которые полностью (четкие дубли) или частично (нечеткие дубли) совпадают друг с другом, но каждая из них имеет свой URL. Одна страница может иметь как один, так и несколько дублей.
Как появляется дублированный контент на сайте?
Как для четких, так и для нечетких дублей есть несколько причин возникновения. Четкие дубли могут возникнуть по следующим причинам:
Нечеткие дубли на вашем сайте могут появиться по следующим причинам:
На примере показан анализ текста с главной страницы сайта в программе проверки уникальности «Text.ru». На картинке видно, с какими еще страницами этого же сайта и на сколько процентов он совпадает:
Пример страниц пагинации. Они находятся под цифрами 1, 2, 3 и т. д. Такое можно встретить, например, в блогах, где много статей или в многостраничных каталогах. И чтобы бесконечно не скролить вниз, делается их разбивка на внутренние страницы по номерам:
Почему дублированный контент вредит сайту?
Как проверить, есть у вас дубли или нет?
Чтобы узнать, есть у страниц сайта дубли или нет, существует несколько способов.
На примере показано, что у страницы сайта нашлось несколько дублей через расширенный поиск Яндекс
Дублированный контент: причины и решения
Поисковые системы типа Google столкнулись с проблемой – и имя ей «дублированный контент». Контент называют дублирующим, если он в похожем виде появляется в разных местах глобальной сети Интернет (по разным URL-адресам), в следствие чего поисковые системы не знают, какой URL отображать в результатах поиска. Это может отрицательно сказываться на ранжировании веб-страницы, а когда люди начинают ссылаться на разные версии одного и того же контента, проблема только усугубляется.
Данная статья поможет понять причины возникновения дублирующего контента, и даст понимание того, что нужно делать в каждом конкретном случае.
Что такое дублированный контент?
Дублированный контент можно сравнить с перекрестком, на котором дорожные знаки указывают разные направления для одного и того же населенного пункта: какой путь вам выбрать? Что ещё хуже, конечное место назначения тоже отличается, совсем чуть-чуть. Как читателю вам все равно, главное получить то, за чем пришли, но поисковая система должна выбрать какую страницу отображать в результатах поиска, поскольку, естественно, не хочет повторно отображать один и тот же контент.
Допустим ваша статья о «ключевом слове x» появляется в неизменном виде по адресам http://www.example.com/keyword–x/ и http://www.example.com/article-category/keyword-x/. Ситуация не надуманная: подобное происходит во многих современных системах управления контентом. Затем, скажем, вашу статью взяли на вооружение несколько блогеров, причем одни сослались на первый URL адрес, а другие на второй. Вот он, тот самый момент, когда проблема поисковых систем показывает свою истинную природу – вас она тоже касается. дублированный контент является вашими трудностями, поскольку те ссылки продвигают разные URL. Если бы они ссылались на один URL-адрес, шансы ранжирования «ключевого слова x» были бы выше.
Содержание
1 Причины возникновения дублированного контента
Существуют десятки причин, по которым, появляется дублированный контент. Большинство из них носят технический характер: не так уж и часто человек решается на размещение одинакового контента в двух разных местах, не дав при этом понять какой из них является оригинальным – для большинства из нас это кажется неестественным. Однако имеется большое количество технических причин, и возникают они главным образом потому, что разработчики мыслят по-своему – не так как браузеры, и даже не так как пользователи, не говоря уже о поисковых пауках – они размышляют, как программисты. Возьмем, к примеру, упомянутую ранее статью, находящуюся по адресам http://www.example.com/keyword-x/ и http://www.example.com/article-category/keyword-x/. Если вы поинтересуетесь мнением разработчиков, они заверят вас, что статья здесь одна.
1.1 Неправильное понимание концепции URL
Нет, разработчики не сошли с ума, они просто говорят на другом языке. Вероятнее всего сайт будет подкреплен системой управления содержимым CMS, и в её базе данных будет содержаться лишь одна статья, однако программное обеспечение веб-сайта позволит получить доступ к этой статье посредством нескольких URL-адресов. Недопонимание происходит потому, что с точки зрения разработчиков, уникальным идентификатором для статьи служит ID присвоенный ей в базе данных, а не какой-то там URL. Но для поисковой системы URL является уникальным идентификатором контента. Если объяснить ситуацию разработчикам, они начнут понимать суть проблемы, а прочитав статью, вы даже сможете обеспечить их готовым решением.
1.2 Идентификаторы сеансов
Зачастую вам хочется отслеживать действия посетителей и позволять им, к примеру, сохранять желаемые товары в корзине покупок. Чтобы этого добиться вам нужно предоставить им «сеанс». Сеанс – это краткая история активности посетителя на вашем сайте, которая может включать в себя упомянутые ранее товары в корзине покупок и тому подобное. Для сохранения сеанса активности пользователя (пока он продолжает листать страницы сайта), нужно где-нибудь сохранить уникальный идентификатор сеанса, его еще называют ID сеанса. Наиболее распространенным решением является использование файлов cookie, но правда поисковые системы обычно их не сохраняют.
В таком случае, некоторые системы останавливаются на использовании идентификаторов сеанса в URL. Это означает, что URL-адресу каждой внутренней ссылки веб-сайта присваивается ID сеанса, а так как этот идентификатор является для сеанса уникальным, это приводит к созданию новых URL-адресов и соответственно дублирующего контента.
1.3 Параметры URL, используемые для отслеживания и сортировки
Еще одной причиной возникновения дублирующего контента является использование URL параметров, не меняющих содержимое самой страницы, как например, в трекинговых ссылках. Видите ли, для поисковой системы URL-адреса http://www.example.com/keyword–x/ и http://www.example.com/keyword-x/?source=rss различны. Это может позволить отследить какой ресурс привел посетителей, но вместе с тем и усложнить для вас ранжирование – очень нежелательное последствие!
Это, конечно, относится не к одним лишь параметрам трекинга, а ко всем параметрам, которые можно добавить к URL-адресу и которые не меняют принципиально важную часть контента. И не важно для чего служит этот параметр, будь то «изменения в сортировке у категории товаров» или «отображение очередной боковой панели» — любой из них становится причиной возникновения дублирующего контента.
1.4 Скраперы и синдикация контента
По большей части в возникновении дублирующего контента виноваты ваш сайт либо вы сами. Однако, иногда вашим контентом, с вашего согласия или без него, пользуются и другие веб-сайты. Они не всегда ссылаются на оригинальный источник, в следствие чего поисковой системе приходится иметь дело с еще одной версией той же самой статьи. Чем популярнее становится ваш сайт, тем больше он привлекает скраперов, усугубляя проблему все больше и больше.
1.5 Порядок параметров
Еще одной распространенной причиной является то, что CMS использует не красивые чистые URL, а скорее URL типа /?id=1&cat=2, в которых «ID» относится к статье, а «cat» к категории. URL /?cat=2&id=1 будет представлять собой один и тот же результат для большинства систем веб-сайтов, но для поисковой системы результаты будут совершенно разными.
1.6 Пагинация комментариев
В моем излюбленном WordPress, а также в некоторых других системах управления содержимым, существует возможность пагинации комментариев. Это приводит к появлению дублирующего контента по URL-адресу статьи, так как к URL статьи приплюсовываются /comment-page-1/, /comment-page-2/ и т.д.
1.7 Версия страниц для печати
Если система управления контентом создаcт версию страниц для печати, и вы сошлетесь на них со своей статьи, Google скорее всего найдет их (если конечно они не были намеренно заблокированы). А теперь ответьте себе честно: какую версию вы предпочли бы видеть в результатах поиска Google? Версию с вашей рекламой и вспомогательным контентом или ту, в которой имеется только статья?
1.8 с WWW и без WWW
Эта причина стара как мир, но в случае доступности обеих версий WWW и без WWW, поисковые системы то и дело (правда не часто) продолжают воспринимать соответствующий контент, как дублированный. Еще одна причина (не такая популярная, но с которой мне также приходилось сталкиваться) – это HTTP и HTTPS дублированный контент.
2 Концептуальное решение: «канонический» URL-адрес
Как мы уже поняли, когда к одному и тому же контенту ведут несколько URL-адресов, возникает проблема, но, впрочем, ее можно решить. У одного человека, работающего над публикацией, не должно возникнуть сложности в том, чтобы объяснить каким должен быть «правильный» URL для определенной статьи, но если поинтересуетесь у трёх человек из одной компании – ответы можете получить совершенно разные…
Решить данную проблему можно лишь с помощью адресации, поскольку, как бы там ни было, URL может быть только один. Такой «правильный» для определенного контента URL-адрес, рассматривается поисковыми системами, как канонический.
Ироническое замечание
Канонический» — это термин, проистекающий из римско-католической традиции, согласно которой был создан и принят в качестве подлинного, список священных книг. Они стали известны, как канонический Евангелие Нового Завета. По иронии судьбы, чтобы утвердить этот канонический список, Римско-католическая церковь потратила около 300 лет и приняла участие во множестве боев. В конечном счете сошлись на четырех версиях одной и той же истории…
3 Выявление проблем с дублированным контентом
Вы можете не знать, что повлекло за собой появление у вас дублированного контента, всему виной сайт или сам контент? Есть несколько способов узнать.
3.1 Google Search Console
Наличие у страниц повторяющихся заголовков или дескрипторов – это почти всегда плохо. После нажатия обнаружатся URL с повторяющимися заголовками или дескрипторами, что поможет вам идентифицировать проблему. В случае, если у вас есть статья, подобная той, о которой мы упоминали ранее (keyword X) и она отображается в двух категориях, у нее могут быть разные заголовки. Например, «Keyword X – Category X – Example Site» и «Keyword X – Category Y – Example Site». Google не будет расценивать данные заголовки, как повторяющиеся, но их можно будет найти осуществив поиск.
3.2 Поиск заголовков или сниппетов
Существует несколько операторов поиска, очень полезных в случаях вроде описанного выше. Если хотите найти все URL своего сайта, содержащие статью «keyword X» вам нужно вбить в поиск Google следующую фразу:
site:example.com intitle:»Keyword X»
После чего Google отобразит вам все страницы, выявленные на сайте example.com и содержащие указанное ключевое слово. Чем конкретнее будет intitle, тем легче будет отсеять дублированный контент. Можно воспользоваться данным методом для идентификации дублирующего контента в Интернете. Если, к примеру, полный заголовок вашей статьи «Keyword X – почему это клёво», вам нужно использовать фразу:
intitle:»Keyword X – почему это клёво»
И Google выдаст вам все сайты, подпадающие под этот заголовок. Иногда имеет смысл осуществлять поиск даже по одному-двум полным предложениям из вашей статьи, поскольку некоторые скраперы могут изменить заголовок. В некоторых случаях, подобный поиск может привести к отображению следующего уведомления на последних страницах поиска Google:
Это признак того, что Google уже занят удалением дублирующего контента. Но этого по-прежнему недостаточно, поэтому стоит перейти по ссылке и посмотреть на все остальные результаты, чтобы понять можно ли исправить хотя бы некоторые из них.
4 Практические решения относительно дублированного контента
Определившись с тем, какой адрес является каноническим для определенной части вашего контента, нужно перейти к процессу канонизации («да, я знаю» попробуйте три раза сказать это быстро и вслух). Это значит, что нам необходимо сообщить поисковым системам о канонической версии страницы и позволить им найти ее как можно скорее. Существует четыре возможных решения, в порядке предпочтительности они располагаются так:
4.1 Как избежать дублированного контента
Часть из вышеуказанных причин возникновения дублирующего контента легко устранимы:
Даже если решить вашу проблему не просто, усилия вполне могут быть оправданы. Цель должна сводиться к предотвращению появления дублирующего контента, поскольку это, безусловно, самое лучшее решение.
4.2 301 редирект дублированного контента
Бывают случаи, когда полностью избежать использования системой неправильных URL-адресов (для контента) попросту невозможно, но это могут быть те случаи, когда можно воспользоваться переадресацией. Если вы думаете, что в этом нет логики (понять я вас могу), просто не забудьте вспомнить об этом во время разговора с разработчиками. Работая над устранением проблем с дублирующим контентом, убедитесь, что вы перенаправляете весь дублированный контент со старых URL-адресов на канонические.
4.3 Использование ссылок
Иногда, даже зная, что URL неправильный, вы не хотите или не можете избавиться от дублирующей версии статьи. Для решения такой проблемы поисковыми системами представлен элемент канонической ссылки, размещающийся в заголовочной части вашего сайта и имеющий следующий вид:
link rel=»canonical» href=»http://example.com/wordpress/seo-plugin/
Атрибуту href канонической ссылки вы присваиваете правильный канонический URL-адрес вашей статьи. Когда поисковой системе, поддерживающей канонические ссылки, попадается такой элемент, она выполняет 301 редирект, отдавая таким образом практически всю ценность, заработанную страницей ее канонической версии.
Правда быстрее будет пользоваться 301 редиректом непосредственно и поэтому, при наличии выбора, нужно отдавать ему предпочтение.
4.4 Отсылка к оригинальному контенту
Если вы не можете сделать ничего из вышеперечисленного (возможно из-за отсутствия контроля над заголовочным разделом сайта, на котором отображается ваш контент), хорошим выходом из ситуации будет добавить сверху или внизу статьи ссылку на её оригинальную версию. Вам следует применить это к вашей RSS ленте, а именно, добавить к статье обратную ссылку. Одни скраперы отфильтруют её, другие же, могут оставить. Если Google наткнется на несколько ссылок указывающих на оригинальную версию статьи, он довольно скоро выяснит, что она каноническая.
5 Заключение: от дублированного контента можно и нужно избавляться
Дублирование контента можно встретить повсюду. Мне еще не попадалось сайта более, чем на 1000 страниц, у которого не было хотя бы крошечной проблемы с повторяющимся контентом. Здесь нужен постоянный контроль, но все можно наладить и впоследствии вам воздастся за ваши старания. Просто убрав дублированный контент с вашего сайта, вы можете хорошо поднять в рейтинге тот качественный, который у вас останется!
Дублирование контента
Содержимое:
Имеет ли значение дублирование контента на сайте
Ранее мы уже рассказывали о такой проблеме, как дубликаты страниц сайта. Тогда речь шла о возможности существования полностью одинаковых страниц с разными адресами и влиянии этого на продвижение веб-ресурсов.
Теперь же, давайте рассмотрим другую ситуацию – частичное дублирование контента на разных страничках в пределах сайта.
Наверняка не все знают, что это является проблемой. Ведь в большей части теории по SEO упоминается лишь о том, что не должно быть прецедентов дублирования контента, который уже размещен на каком-нибудь другом сайте.
На самом деле нужно следить за уникальностью не только в интернете в общем, но и внутри Вашего веб-ресурса.
Почему дублирование контента на сайте это плохо?
Где чаще всего встречается дублирование контента на сайте
Как определить дубль контента на сайте
a) Панели для вебмастеров от Яндекс и Google подскажут, если имеется дублирование контента на сайте.
c) Различные сервисы и программы для проверки текста и картинок на уникальность знают, как определить дубль контента. В большинстве случаев помогут найти страницы, на которых проверяемый контент размещен полностью или частично.
d) Онлайн-сервисы для проверки схожести страниц. Подойдут в случае, если возникает сомнение в уникальности двух конкретных страниц Вашего веб-ресурса.
e) С помощью программ для анализа сайта. Например, воспользовавшись программой Netpeak Spider, Вы можете найти дубли Title, Description, заголовков H1, текста и полные дубли страниц.
Как устранить дублирование контента на сайте
Первым делом после выявления дублирования контента следует устранить повторы там, где это возможно:
Что мы имеем в итоге?
Получается, что дублирование контента на сайте является очень серьезной проблемой, которую возможно устранить только после череды тщательных проверок всего сайта целиком.
Учитывая причины, по которым появляются повторы, нужно выбирать подходящие для каждого случая способы их устранения.
Ну а чтобы не нужно было ничего устранять, задайтесь целью размещать на страницах своего сайта только уникальный контент (даже если это интернет-магазин с десятками тысяч страниц).
Удачи Вам в применении только что обретенных знаний!