Открываем секреты поисковых систем или Как выглядит сайт в "глазах" поисковика?

Открываем секреты поисковых систем или Как выглядит сайт в

Представим, что ваш сайт запущен в Сеть и вы с наслаждением наблюдаете за его индексацией поисковыми системами. Думаете, что теперь от вас ничего не зависит, поскольку сайт стал жить самостоятельной жизнью? Как бы не так! Мы уже не раз обращали ваше внимание на то, что работу над поисковой оптимизацией по целому ряду причин необходимо начинать уже на этапе разработки сайта. В этой статье мы попытаемся разобраться в том, как представлен сайт в самой системе поиска?

Для того чтобы Поисковой Системе было удобнее обрабатывать терабайты всевозможных данных, поступающих со всех концов мира, она помещает их в ИНДЕКС. Индекс помогает сжимать объемы найденных в Сети страниц для хранения в базах ПС. Таким образом, происходит своего рода сжатие и архивация данных.

Как же ПС удается так лихо сокращать гигантские объемы информации?

сжатие информации

Чтобы ответить на этот вопрос, нужно понимать, как именно тот или иной документ представлен в самой системе.

Прежде всего, любая вновь поступившая страница тщательно очищается системой от всего наносного. Под наносным, в данном случае, понимается вся нетекстовая информация, содержащаяся на странице.

Одним словом, графика, тэги гипертекстовой разметки и прочее беспощадно удаляются до тех пор, пока не останется только лишь текст. Далее и сам текст подвергается тщательной обработке.

Прежде всего, система располагает все, содержащиеся в тексте слова в алфавитном порядке, снова и снова отбрасывая все лишнее. На этом этапе «лишним» являются любые непечатаемые символы, знаки препинания и пробелы. Удивлены? Самое интересное состоит в том, что Поисковая Система слова тоже преобразовывает так, как ей удобно с ними работать: все они из текста страницы приводятся к начальной лингвистической матрице при помощи специального алгоритма лингвистической обработки слов. Это существенно сокращает объем в индексе, параллельно обеспечивая более точный поиск.

Обработанные при помощи алгоритма лингвистические основы формируются ПС в некое подобие предметного указателя, где происходит их пересортировка. В этом списке система присваивает адрес каждой странице и указывает конкретное место, за номером вхождения, каждой лингвистической форме. В самом же индексе основы содержатся отдельно от присвоенных им номеров. Это делается для оптимизации процесса поиска. Если на одной странице обнаруживается несколько вхождений того или иного слова, то индекс указывает адрес или номер страницы и все зарегистрированные вхождения данного слова на этой странице. Принцип инвертированного индекса позволяет на лету создавать обратные копии всех страниц интернета, что позволяет ПС существенно сократить время формирования страницы поисковой выдачи.

Существует и прямой индекс, который тоже сохраняется Поисковой Системой. Прямой индекс — это просто сжатая копия всех текстовых страниц интернета, без рассортировки по номерам и лингвистическим формам. При выдаче точных цитат из Сети, поисковой робот совмещает инверсный и прямой индексы, выдавая релевантную информацию на запрос пользователя.

Как Поисковая Система умудряется определить, что именно ищет пользователь?

 

Что ищем?

Любой запрос пользователя, прежде всего, подвергается скрупулезному лингвистическому анализу. Система определяет язык запроса, сочетания символов, которые употребляются в тех или иных языковых группах, кодировку, в которой представлен запрос и прочие, невидимые простому пользователю, мелочи. Далее происходит анализ морфологической основы, где системой определяются не только лингвистические, но уже и морфологические формы вместе с синонимами слов вхождения. Тем не менее, при присваивании ранга приоритет остается за точным вхождением.

Следующим этапом дешифровки данных является разграничение омонимов. ПС производит сопоставление и распределение слов с одинаковым написанием, но различными значениями, основываясь на данных статистики совместного использования и прочим грамматическим признакам.

Вследствие всего вышесказанного напрашивается очевидный вывод, что тот запрос, который набрал на клавиатуре пользователь, совершенно отличен от того, который сформировался Поисковой Системой на его базе. Также следует понимать, что все действия, производимые поисковыми роботами для обработки и «преформации» исходного запроса, осуществляются в сотые доли секунды!

Таким образом, в процессе преобразования запросов поисковыми машинами выработался свой, особенный язык, на котором и разговаривают поисковые роботы. Информационно-поисковой язык, как и любые другие, имеет свою грамматику, семантику и морфологию. И чтобы стать настоящим мастером SEO-продвижения необходимо знать и уметь использовать его правила.

Этот язык позволяет находить информацию в Сети или представлять её максимально быстро, но для этого нужно понимать его устройство: операнды, префиксы обязательности, логические операторы, расширенный поиск, расстояния между словами, команды исключений или логического объединения и многое-многое другое.

Поисковые Системы совершенствуются постоянно. Возрастает интеллект поисковых машин, формируются новые языки и алгоритмы поиска, внедряются новые фильтры. Трудно угнаться за столь стремительными изменениями в мире SEO? Не беда! Ведь вместе с этим совершенствуется и мастерство поисковых оптимизаторов. Доверьте продвижение вашего сайта профессионалам Родины Линков, и мы гарантированно приведем вас к успеху!

Автор , на 5 ноября 2013 г. в Технические вопросы.

Расскажите друзьям:


Комментарии

Комментирование отключено.

Услуги
Спецпредложения

Подписка на блог

без спама, не чаще одного раза в неделю

Кто победит?

Я.Директ

adWords