💬 Які проблеми сайту можна з'ясувати за допомогою аналізу логів -

💬 Які проблеми сайту можна з’ясувати за допомогою аналізу логів

На читання 3 хв Оновлено 23.11.2021

Які проблеми сайту можна з’ясувати за допомогою аналізу логів, про які іншими способами не дізнатися (Google Search Console, Яндекс Вебмастер, Google Analytics, Яндекс Метрика)?

Більшу частину можна все ж дістати з консолей, але:

Часто ця інформація з’являється там з сильною затримкою;
Може бути представлена не в повному обсязі (всі ми пам’ятаємо, як GSC любить обрізати звіти до 1000 рядків);
Вивантажувати або фільтрувати її може бути не зовсім зручно.

Метрика та Analytics ж покажуть тільки звіти переглядам URL, де встановлений лічильник, причому без урахування ботів в більшості випадків.

Тому найздоровіше застосування access логів для SEO фахівця – аналіз обходу сайту ботами.

Ми можемо подивитися, які типи файлів сканує бот. З недавнього – YandexBot цілий місяць “стукав” до MP3 файлу тривалістю 2 сек 259 тисяч разів.
Можемо робити зрізи за кодом відповіді або робити ретроспективне представлення цих даних, щоб розуміти реальну картину. Результат, який ми отримуємо при краулінгу і який виходить при навантаженні на сервер – часто різний.
Можемо оцінити, на що витрачається краулінговий бюджет бота і може навіть зробити припущення, від чого він залежить. Наприклад, якщо бот зустрічає багато технічних проблем при обході, то можна припустити, що резонно було б знизити бюджет для даного сайту або розділу в майбутньому або взагалі не заходити на такі сторінки (тільки не YandexBot – цей буде стукати в нескінченний ланцюжок редиретів сотні разів кілька днів). Для аналізу робимо класифікацію URL в датасеті по якомусь патерну, а далі будуємо лінійні графіки / діаграми з параметром “типу сторінки”. Зіставивши з нашими пріоритетами в просуванні, можна зрозуміти, де копати далі. Наприклад, може варто змістити краулінг якогось розділу, який майже не оновлюється, скорегувавши xml карту сайту.
Дізнатися, хто краулить наш сайт під фейковим User-Agent. Або хто створює надмірне навантаження (той же AhrefsBot може бути досить ненажерливим). Ну і часто можна знайти і заблокувати нахаб, які тягнуть контент з сайту в промислових масштабах на регулярній основі.
Ви обмежені своєю фантазією. Можна перевіряти свої SEO гіпотези більш точними даними, а не припускати. Наприклад, ви знали, що Googlebot шукає роботів .txt майже в кожній підпапці вашого сайту? А що Facebook представляється фейковим User-Agent Googlebot (імовірно, перевірка публікованого контенту)?

На закінчення хочу порекомендувати лізти в логи з конкретною метою і питаннями. Інакше це просто поклоніння даним або, інакше висловлюючись, “наярювання на статку”.