Новый алгоритм «Колибри» от компании Google: когда эволюция превращается в революцию

Новый алгоритм «Колибри» от компании Google: когда эволюция превращается в революцию

Объявление о выходе нового алгоритма «Колибри» (Hummingbird) произвело настоящий фурор в техносфере и сообществе SEO-специалистов.

Колибри: птица с самым большим процентным соотношением мозга к телу среди животных - Википедия

В своём блоге в день выпуска алгоритма Колибри компания Google разместила эту запись, где было рассказано о некоторых новых особенностях алгоритма. Запись заканчивается следующими словами:

Мы продолжим улучшать поиск Google, чтобы он смог оказать вам ещё большую помощь в вашей трудной работе в дальнейшем. Мы понимаем под этим вывод лучших возможных ответов в поиске, облегчение взаимодействия и предоставление помощи ещё до того, как вы попросите. Мы надеемся, что сохраним вам парочку минут в каждодневной суете дел. Так что продолжайте задавать Google ещё более сложные вопросы – это помогает оставаться нам на высоте! Да и кроме того, мы лишь только начали.

Фактически они написали следующее: продолжайте задавать Googleвсё больше и больше трудных вопросов ради того, чтобы помочь выяснить, на какие вопросы нужно отвечать – как сейчас, так и в будущем.

Система ответов алгоритма «Колибри» и поисковика Google не является революционной ни в чем-то, ни сама по себе. Компоненты, которые входят туда, эволюционны по своей природе и функциям синергетически, взаимодействуя друг с другом. Google использует технологию «Ответа на вопросы» (из прошлого) наряду с технологиями «крупных данных» и попросту использует их в более широком масштабе – что приводит к феноменальным результатам. В итоге, технология по своей природе становится революционной.

Компонент «ответа на вопросы»: запросы, основанные на форме

Сервис Google Now позволяет пользователю вводить запросы полными предложениями и обеспечивает (или хочет обеспечивать) пользователя лучшими возможными ответами (даже до того, как вы их спросите – максимально используя технологию предопределения действия). Вы можете достичь того же функционала в браузере Chrome на ноутбуке или стационарном компьютере.

Как же компании Google удалось сделать столь выдающуюся технологию? Компания использует особый метод, который, как я полагаю, она называет «запросы, основанные на форме» (form-based queries), комбинируя его с методами анализа естественного языка в качестве «дополнительного слоя».

Вы, должно быть, спросите себя «Что конкретно из себя представляет запрос, основанный на форме?» Далее вы найдёте несколько моих примеров таких запросов. В общем, они достаточно легки для генерирования ответа, так как являются простыми запросами типа lookup (просмотр) в базе данных – в данном случае, в графе знаний, Knowledge Graph – и не требуют обширной аргументации или излишних соединений в вычислительном отношении.

Простые примеры запросов, основанных на форме

Как можно увидеть ниже, это специальные вопросы (кто, что, где, когда).

  • Кто такой ?x (где, как правило, ?x – класс типа «личность») – до тех пор, пока машина не прошла тест Тьюринга
  • Что такое ?x (где, как правило, ?x – класса типа «место» или «вещь»)
  • Когда было ?x (где ?x – класс типа «событие»)
  • Где было ?x (где ?x – класс типа «событие»)
  • Где ?x (где, как правило, ?x – класс типа «место» или «вещь»)

И так далее.

Эти ответы уже существуют в графе знаний (т.н. Knowledge Graph), который предоставляет проверенные ответы, так что Google может полностью довериться ему как источнику информации. Граф знаний – достоверный источник информации.

граф знаний

Кто такой ?x (где ?x – личность [Пабло Пикассо])

Запрос на картинке сверху – пример применения формы “Who is ?x” («Кто такой ?x»). Изображение внизу – пример того, как Google предоставляет ответ на запрос, основанный на форме “What is ?x.” («Что такое ?x»). В этом примере можно увидеть, что ?x становится чем-то более сложным, чем просто осязаемая «вещь». В этом случае это понятие, а именно «рождаемость в Китае», что-то, что должно быть проанализировано и понято как само по себе, так и в контексте. В случае запросов, основанных на форме, можно использовать и другую форму, а именно What is the ?x fertility rate, where ?x (=«Каков уровень рождаемости, где ?x»), при этом ?x - класс, в нашем случае, страна.

уровень рождаемости в china

Что такое ?x (где ?x – «Уровень рождаемости в Китае»)

Примеры двух типов запросов, основанных на форме, представлены выше. Можно заметить, как компания Google улучшает свой сервис при помощи уточнения намерения пользователя и предоставления ему более сложных и полных ответов, особенно в последнем случае, где необходимо свести намерение пользователя к более полному понятию (или форме). Также абсолютно ясно, насколько большее количество информации, предоставляемое в пользовательском запросе (как напрямую, так и косвенным образом), упрощает определение намерения пользователя и сводит его к соответствующему запросу, основанному на форме. Дальше – больше деталей.

Процесс

Ну и как же это работает? В двух словах, Google должен понимать запросы пользователей. Он принимает запрос, анализирует грамматические структуры и приводит запрос к одной из этих форм. Googleпользуется информацией о намерении пользователя (и другую различную косвенную информацию для оказания помощи в определении этого намерения). Затем можно определить и тип формы.

Короче говоря, упрощенная версия процесса примерно следующая. При этом процесс может изменяться или быть изменен благодаря машинному обучению. Я бы привёл последующую информацию просто как обоснованное предположение:.

  • Проанализировать запрос с грамматической точки зрения
  • Определить форму с точки зрения пользовательского намерения
  • Определить включённые в запрос классы
  • Найти синонимы
  • Определить, что ищет пользователь (уточнённое намерение)
  • Определить, какие классы необходимо выбрать
  • Определить, какими свойствами обладают эти классы
  • Определить, какую значимую информацию необходимо показать пользователю (что зависит от устройства и должно быть привлекательным для пользователя)

Использование контекста наилучшим образом и другие косвенные (неявные) факторы чрезвычайно необходимы для понимания запроса, так как понимание намерения пользователя – это первостепенное условие для правильного снятия многозначности и уместного расширения синонимического ряда.

Целью компании Google является, естественно, увеличение числа форм и типов форм, с которыми Google может работать. И Google, как я уже говорил много раз, прекрасно работает с большими данными. Google попросту берёт более старую технологию и делает её более масштабной. Компания может добавлять новые формы, основанные на сочетании количества поисковых запросов (для запросов от входящих источников, а именно пользовательских запросов) и принципа «самый низковисящий фрукт» (т.е. использование самого незатратного варианта, причем последнее трактуется как вычислительными затратами, так и доступным «пространством вопросов», который компания может покрыть). И, таким образом, они продолжают добавлять типы вопросов, на которые Google может ответить.

Также известно, что приобретение компанией Google компании Metaweb и понятие "эквивалентности классов" являются чрезвычайно важными, поскольку у них теперь есть граф знаний в качестве единого источника, к которому они могут сводить всю соответствующую информацию по классу, и из которого они могут получать необходимые ответы (классы и связанные с ними атрибуты или свойства этих классов).

В свете вышеперечисленного вновь обратимся к последней записи компании Google, размещённой в день своего 15-летия.

Взглянем на первую новую особенность, упомянутую в блоге: “Comparisons and filters in the Knowledge Graph” («Сравнения и фильтры в графе знаний»)

Это означает, что они добавили, по меньшей мере, ещё одну форму, которая работает с понятиями (и приблизительно это выглядит так):

?класс1 vs. ?класс2 где ?класс1 и ?класс2 одного и того же типа

Работая с графом знаний, можно увидеть, что это всего лишь вопрос извлечения нужных классов из графа знаний, просмотр связанных с ними атрибутов/свойств, и нахождение лучших путей отображения ответа так, чтобы он привлекал пользователя и был ему интересен. Взгляните на пример ниже.

пример графа знаний

Пример «Эфелева башня vs. Эмпайр-Стейт-Билдинг»


Можно увидеть, как другие поисковые системы используют технологию похожим образом. Например, если ввести тот же запрос в Wolphram Alpha, вы получаете следующее:

Эфелева башня vs. Эмпайр-Стейт-Билдинг

Пример «Эфелева башня vs. Эмпайр-Стейт-Билдинг» в Wolphram Alpha

Другие два пункта в записи компании Google также имеют отношение к оптимизации отображения на различных устройствах и наилучшем использовании технологии предопределения действия сервиса Google Now. Они также являются важными компонентами «экосистемы» Колибри – Hummingbird, которую необходимо поддерживать и растить, при этом реализуя потенциал графа знаний и используя способности Google извлекать максимальную пользу из технологии SemanticsatScale («Семантика в масштабе»), и оптимизировать их на различных устройствах.

Распространение новых форм запросов и многообразие различных типов устройств совершенно ясно требуют изменения подхода, например, использования прагматической семантической модели, которая была необходима для выживания поисковых систем.

Личный помощник vs информационный поисковик

Очевидно, что поиск уже не так важен для собственно поиска – скорее, поиск становится больше похож на личного помощника. Помощник Siri от компании Apple тоже использует семантику, изначально для обеспечения операционной совместимости и при планировании сервисов, если запрос производится на естественном языке. Google Now обладает схожим функционалом.

Выводы - "продолжать помогать Google"

1. Помните о семантической разметке. Оптимизируйте ваш сайт и дайте Google знать, какие классы находятся на вашем сайте, добавив семантический язык разметки - стандарты и сайт schema.org существуют не просто так. Машиночитаемые структурированные данные – отличный механизм, который сообщает поисковым системам, о чём ваш сайт.

2. Помните об API. Предоставьте дополнительную информацию, которая может быть использована для проверки и подтверждения вашей целевой информации в графе знаний. Если есть какой-либо способ обеспечения структурированных данных поисковых систем через поток данных (или API) – используйте его. Если информация соответствует другой информации на вашем сайте (а она должна), это очко в вашу пользу.

3. Помните о намерении пользователя. Убедитесь, что ваш сайт хорошо представляет ваши целевые классы. Ваш сайт должен быть представителем этого понятия.

4. Воспользуйтесь схемами «выпуск = издатель» и «выпуск = автор». Это тоже важные этапы предоставления Google информации и её использования для развития вашего сайта. (Конечно же, они должны повысить уровень доверия, улучшить репутацию и обеспечить узнаваемость бренда, если они используются правильно).

5. Помните о персонализации и косвенной информации. Они могут использоваться для передачи намерения пользователя в запросе и концентрироваться на этом аспекте. Предположительно, это ваша целевая аудитория , поэтому убедитесь, что вы ориентируетесь на них с правильно определёнными намерениями.

Это изменение не повлияло на позиции в поиске – только на способ отображения данных. Это, однако, означает, что первые позиции в поиске Google всё же потеряют в количестве переходов на сайт (в зависимости от запроса). У Google есть на то веская причина: он обеспечивает наилучший способ предоставления информации конечному пользователю.

Авторская статья

Автор , на 18 октября 2013 г. в Аналитика.

Расскажите друзьям:


Комментарии

Комментирование отключено.

Услуги
Спецпредложения

Подписка на блог

без спама, не чаще одного раза в неделю

Кто победит?

Google

Yandex