Запрет на индексацию отдельных частей контента – манипуляции с поисковым ботом

Запрет на  индексацию отдельных частей контента – манипуляции с поисковым ботом

Каждый веб – мастер и сеошник рано или поздно сталкивается с обозначенной проблемой. В этом вопросе найти оптимальное решение не просто, прежде всего, из – за разности алгоритмов поисковых систем. Тем не менее, каждый хочет преуспеть в управлении индексацией и угодить сразу всем ПС.

Что делают новички? Знакомятся с файлом robots.txt, с одной стороны, это и правильно. Это старый добрый способ управления индексацией, причем, достаточно простой.

Что на самом деле дает файл robots.txt?

Для начала обозначим, что robots.txt - это обычный файл txt, который создается при помощи текстового редактора. Веб – мастер прописывает здесь инструкции, именуемые директивами, и указывающие какие именно участки сайта должны быть проиндексированы. Это своего рода план для поисковых роботов, по которому они будут работать с сайтом.

Подробно о работе с robots.txt, можно узнать на одноименном сайте robotstxt.org.ru, синтаксис достаточно простой, разберется каждый начинающий веб – мастер. Мы же будем говорить о том, как использовать его наиболее эффективно, и что на самом деле видят поисковые роботы в его директивах.

Если поискать информацию о robots.txt более дотошно, можно наткнуться на мнения о том, что инструкций в этом файле должно быть по – минимуму. С этим трудно не согласиться, помня о сути данного файла – указывать поисковым системам, какие именно страницы им нужно индексировать. Если запретов для ПС достаточно много и файл robots.txt раздут, значит, нам есть что скрывать, и наш сайт не совсем качественный. И наоборот, если инструкций в robots.txt минимальное количество, значит, особо закрывать нам нечего, и контент на сайте качественный.

Надеемся, схема понятна: мы признаем, что сайт у нас так себе, закрывая от индексации большую часть его страниц. Поэтому будем аккуратными, пускай контент будет качественным, а за ним, качественным будет и весь сайт.

Теперь самое интересное! На самом деле, директива Disallow, с помощью которой накладывается запрет на индексацию, на самом деле содержимое страниц от Яндекса и Google не закрывает! Здесь, сосредоточимся. Поисковиком Яндекс сканируются все страницы, а закрытые Disallow помещаются в специальный раздел «Исключенные страницы», их можно посмотреть в Яндекс.Вебмастере.

Если говорить о поисковом роботе Google, то индекс у него основной и дополнительный (сопли). Вот в последний и помещаются закрытые нами страницы, наряду с другими некачественными страницами. Так работает Google, бросая все ненужное во вторичный индекс. Так вот, этот самый вторичный индекс и портит качество нашего сайта.

Вывод напрашивается сам собой: зачем нам тогда файл robots.txt, если закрытые нами страницы говорят о некачественном сайте? Не будем торопиться и отказываться от него вовсе. Здесь есть и директивы Host (зеркала сайта) и Sitemap (пути до карт сайта), использовать которые стоит, даже если вы решили ничего не прятать от индексации.

В любом случае, сегодня метод управления индексацией через файл robots.txt, является не эффективным, и может сыграть с вами злую шутку. Поэтому, найдем достойную замену данному способу.

Мета тег robots вместо robots.txt

Это более эффективный метод манипулирования индексацией, с его помощью можно исключить из существующего индекса страницы, и запретить попадание в него новых. Для этого следует разместить в шапке страницы вот такой мета тег:

<meta name= “robots” content=”noindex”>

Подробности можем найти в справочной информации от Google. Здесь сказано, что использование мета тега «noindex» поможет полностью исключить появление страниц в индексе ПС. Бот данного поисковика просто не станет отображать страницу с noindex в индексе, правда для этого он все равно должен ее просканировать, увидеть данный мета тег, прореагировать на него правильно. Вот мы ему и помогаем, при помощи мета тега robots.

Это небольшое отступление, вернемся к строке кода выше. Там есть параметр content, который может принимать различные значения: noindex (запрет на индексацию), nofollow (запрет на переход по ссылкам), index, follow, all, none, noarchive, noimageindex (запрет на индексацию изображений), nosnippet, noodp. Последние три – только для поискового робота Google, остальные для обоих ПС.

Мы расшифровали некоторые значения параметра content мета тега robots, но даже по ним ясно, какой эффективный инструмент по управлению индексацией у нас в руках. Есть существенное дополнение ко всему вышесказанному, закрывать с помощью мета тега robots можно только документы html, это следует из того, что robots предназначен для размещения в шапке документа. Что бы скрыть от индексации документы другого типа, к примеру, pdf, txt и т.д, нужно использовать заголовок сервера: HTTP заголовок X-Robots-Tag. Правда, это уже тема другого поста.

Автор , на 25 января 2014 г. в Технические вопросы.

Расскажите друзьям:


Комментарии

Комментирование отключено.

Услуги
Спецпредложения

Подписка на блог

без спама, не чаще одного раза в неделю

Кто победит?

РСЯ

adSense

Теги