💬 Які проблеми сайту можна з’ясувати за допомогою аналізу логів

Які проблеми сайту можна з’ясувати за допомогою аналізу логів, про які іншими способами не дізнатися (Google Search Console, Яндекс Вебмастер, Google Analytics, Яндекс Метрика)?

Більшу частину можна все ж дістати з консолей, але:

  1. Часто ця інформація з’являється там з сильною затримкою;
  2. Може бути представлена не в повному обсязі (всі ми пам’ятаємо, як GSC любить обрізати звіти до 1000 рядків);
  3. Вивантажувати або фільтрувати її може бути не зовсім зручно.

Метрика та Analytics ж покажуть тільки звіти переглядам URL, де встановлений лічильник, причому без урахування ботів в більшості випадків.

Тому найздоровіше застосування access логів для SEO фахівця – аналіз обходу сайту ботами.

  • Ми можемо подивитися, які типи файлів сканує бот. З недавнього – YandexBot цілий місяць “стукав” до MP3 файлу тривалістю 2 сек 259 тисяч разів.
  • Можемо робити зрізи за кодом відповіді або робити ретроспективне представлення цих даних, щоб розуміти реальну картину. Результат, який ми отримуємо при краулінгу і який виходить при навантаженні на сервер – часто різний.
  • Можемо оцінити, на що витрачається краулінговий бюджет бота і може навіть зробити припущення, від чого він залежить. Наприклад, якщо бот зустрічає багато технічних проблем при обході, то можна припустити, що резонно було б знизити бюджет для даного сайту або розділу в майбутньому або взагалі не заходити на такі сторінки (тільки не YandexBot – цей буде стукати в нескінченний ланцюжок редиретів сотні разів кілька днів). Для аналізу робимо класифікацію URL в датасеті по якомусь патерну, а далі будуємо лінійні графіки / діаграми з параметром “типу сторінки”. Зіставивши з нашими пріоритетами в просуванні, можна зрозуміти, де копати далі. Наприклад, може варто змістити краулінг якогось розділу, який майже не оновлюється, скорегувавши xml карту сайту.
  • Дізнатися, хто краулить наш сайт під фейковим User-Agent. Або хто створює надмірне навантаження (той же AhrefsBot може бути досить ненажерливим). Ну і часто можна знайти і заблокувати нахаб, які тягнуть контент з сайту в промислових масштабах на регулярній основі.
  • Ви обмежені своєю фантазією. Можна перевіряти свої SEO гіпотези більш точними даними, а не припускати. Наприклад, ви знали, що Googlebot шукає роботів .txt майже в кожній підпапці вашого сайту? А що Facebook представляється фейковим User-Agent Googlebot (імовірно, перевірка публікованого контенту)?

На закінчення хочу порекомендувати лізти в логи з конкретною метою і питаннями. Інакше це просто поклоніння даним або, інакше висловлюючись, “наярювання на статку”.

Оцініть статтю
Додати коментар