Как использовать Википедию для знакомства со своей аудиторией

Как использовать Википедию для знакомства со своей аудиторией

Чаще всего, если нам нужно понять поведение клиентов, мы обращаемся к таким инструментам, как Планировщик ключевых слов Google AdWords (Google Keyword Planner), чтобы увидеть количество запросов, либо к Google Тренд (Google Trends), чтобы изучить тенденции и сезонность запросов.

Но любой специалист по поисковой оптимизации знает минусы этих инструментов. Во-первых, данные сгруппированы либо по неделям, либо по месяцам, и совершенно отсутствует возможность изучения тенденций по дням или определенному времени дня. К тому же, данные поступают с огромной задержкой, а мы живем в реальном времени, поэтому данные нужны как можно быстрее.

Другая проблема состоит в том, что Google постоянно меняет способ трактовки/группировки ключевых слов, поэтому полагаться на метрику Google для планирования или изучения становится довольно опасно.

Есть и другие доступные варианты для маркетологов, вроде панельного сбора данных об отдельной подгруппе населения. Такого рода информация собирается с помощью плагинов, панелей инструментов, ISP. И хотя панельные данные позволяют получить неплохой обзор общей картины происходящего, на них тоже не стоит сильно полагаться, так как они легко сбиваются в случае изменений в технологии. Если вы когда-либо работали с панельными данными, вы поймете, что я имею в виду.

Так где же мне взять актуальную метрику для поведенческого анализа пользователей? Существует отличный, незаслуженно забытый источник данных: WIKIPEDIA.

Да, Wikipedia . . . И вот почему:

  • Поисковой рейтинг Wikipedia достаточно высок по практически всем ключевым терминам
  • Это источник информации по миллионам тем, которому доверяют
  • Предельно понятная цель контента
  • И, наконец, они предоставляют данные о просмотре страниц бесплатно

Мы просмотрели примерно 1000 ключевых фраз, состоящих из одного-двух слов, и выяснилось, что Wikipedia появлялась на первой странице выдачи для 82% из них. И в этих случаях она оказывалась в районе 4й позиции. Такой тип визибилити делает трафик Википедии очень чётким индикатором поведения пользователей, которые ищут ту или иную информацию.

Вы спросите, как заполучить эти волшебные данные? Сколько это стоит? Понадобится ли API? Нет – вам просто нужен браузер и много памяти.

Wikimedia.org позволяет скачать ежечасные логи любой страницы в Википедии. Более того, доступна история логов вплоть до декабря 2007 года. Только вдумайтесь в мощь этих данных:

Ежечасные просмотры всех страниц Википедии на любом языке на любой платформе с 2007 года!

Хватит слов. Чтобы получить эти данные, посетите следующую страницу в Wikimedia: https://dumps.wikimedia.org/other/pagecounts-raw/

Wikimedia описывает этот источник данных следующим образом:

Каждый запрос страницы как для прочтения, так и для редактирования, будь то «специальная страница» вроде журнала действий, статья из Wikipedia или один из других проектов, попадает в один из наших кэширующих узлов. Запрос отправляется через протокол UDP на фильтр, который отсеивает запросы с внутренних серверов и запросы со страниц вики, которые не являются нашими основными проектами. Фильтр выписывает название проекта, размер и заголовок запрашиваемой страницы.

Другими словами, у Википедии есть своя система записей, которая регистрирует каждый просмотр страницы в файле журнала.

Допустим, вы скачали фал с названием “pagecounts-20140201-070000.” Этот файл содержит данные о всем трафике с 1 февраля 2014 года в период с 06:00:00 до 07:00:00 утра. Этот файл имеет простой формат с пробелами-разделителями, строки в котором имеют примерно следующий вид::

en Apple 11568 19783

Это означает, что 1 февраля 2014 года между 6 и 7 утра 11 568 человек просмотрели английскую версию страницы, посвященной Apple (размер которой 19783 байта).

(Более подробную информацию о данных, методологии и процессе сбора и обработки можно найти здесь)

При скачивании указанных файлов нужно иметь в виду следующее:

  1. Wikimedia.org позволяет запускать не более двух скачиваний одновременно; если вы превышаете указанный лимит, на несколько минут появится сообщение об ошибке 403 .
  2. Эти файлы данных достаточно массивны. Каждый почасовой фал в сжатом виде весит примерно 80 МБ (минимум 11 ГБ за день в несжатом виде).
  3. «Сырой» файл для скачивания содержит данные для всех языков и всех типов носителей (мобильные телефоны, книги и т.п.).
  4. Прежде чем начать соединять гигабайты фалов, убедитесь, что запрашиваемые данные существуют. Этот инструмент позволит вам взглянуть на статистику каждой отдельной страницы.

Вы понимаете, к чему я веду? Этот тип детальной информации поможет вам понять поведение аудитории, основываясь на ее обращении со страницами Википедии.

Данные на практике

Давайте рассмотрим реальный пример использования этих данных. Ниже вы можете увидеть просмотры страниц, посвященных Snapchat и Instagram в Wikipedia. Очевидно, что количество просмотров по обеим страницам примерно одинаковое, с незначительными колебаниями за исключением резко выделяющейся активности в некоторые из дней. Оранжевый пик обозначает день, когда была опубликована новость о приобретении Instagram Фейсбуком. Думаю, вы догадались, в какой день резко увеличились просмотры страницы Snapcaht!

1

Что интересно, рост активности по странице Instagram заметен уже непосредственно перед известием о продаже приложения. То есть большое количество людей уже знали, что что-то происходит. Легко можно представить, что инвесторы и игроки на фондовых биржах используют эту новость как сигнал к инвестициям.

То есть, проводя мониторинг компаний подобным образом, вы можете использовать эти данные, чтобы принимать решения об инвестициях.

Среди множества доступных инструментов для оценки намерений и поведения клиентов, Wikipedia содержит действительно ценный ресурс актуальной, детальной информации об интересах пользователей. Надеюсь, это поможет вам добиться реальных успехов в бизнесе!

Автор , на 4 июня 2014 г. в SEO исследования и тенденции.

Расскажите друзьям:


Комментарии

Комментирование отключено.

Услуги
Спецпредложения

Подписка на блог

без спама, не чаще одного раза в неделю

Кто победит?

SEM

SMM