Індексація сайту

Як пошукові системи індексують сайти? Як змінюються підходи до оптимізації індексу сайту? Розберемо важливі нюанси про індексацію сайтів пошуковою системою, про які мало хто знає.

Вплив індексації сайту на позиції в пошуковій видачі

Оптимізація індексу є відправною точкою на початку робіт з просування будь-якого сайту. Видалити велику кількість сторінок з індексу вкрай складно.

Заборона у файлі robots.txt вирішить проблему тільки для Яндекс. Для Google буде потрібно додатковий переобхід сторінок, які слід виключити з пошукової системи.

Немає інструментів для масового видалення сторінок з індексу Google. Офіційний інструмент лише приховує сторінки з пошукової видачі.

Як індекс впливає на ранжування?

Вплив відбувається так:

  • Наявність великої кількості сторінок з thin content або марним контентом сприймається як спроба маніпуляції;
  • Через хостові фактори сайту.

Практика показує, що видалення з індексу сторінок з марним контентом позитивно впливає на позиції сайту в пошуковій видачі.

Як відбувається індексація сайтів?

Спочатку розберемося з терміном. Що таке індексація сайту? Індексація сайту – сканування, збереження сторінок в базу пошукової системи й подальша обробка алгоритмами.

Процес індексації сайту в спрощеному вигляді:

  1. Краулер пошукової системи сканує сайт;
  2. Система індексації обробляє контент.

На практиці схема індексації набагато складніше. Розберемо як проходить процес індексації на прикладі Google.

У процесі індексації бере участь три окремих системи: планувальник, робот для сканування сайтів і система обробки.

Google Scheduler створює план на індексацію з урахуванням краулінгового бюджету на сайт.

Googlebot сканує сайти і зберігає дані в бінарному вигляді.

Google Caffeine – система обробки проіндексованих сторінок. Завдання системи полягає в прийомі, обробці і розподілі сторінок сайтів за індексами.

Кожну секунду Caffeine обробляє сотні тисяч сторінок паралельно. Процес індексації відбувається постійно. Індекс оновлюється частинами.

Що відбувається всередині Caffeine?

Весь процес системи індексування:

Спочатку відбувається вивантаження даних, які зібрав пошуковий краулер Googlebot.

Для швидкості обробки дані передаються в бінарному вигляді, чи то пак застосовується процес перекладу структури даних в послідовність байтів.

Для обробки даних застосовується Protocol Buffers.

Protocol Buffers – протокол серіалізації (передачі) структурованих даних, запропонований Google як ефективна бінарна альтернатива текстовому формату XML

Після отримання даних система індексації конвертує дані в спеціальний формат, який здатні аналізувати роботи.

Сторінка передається в лексер. Призначення лексера в пошуку і виправленні помилок в коді сторінки.

Часто на сайтах зустрічаються помилки в коді. Провести аналіз контенту зі сторінок з помилками немає можливості технічно.

З метою усунення помилок код аналізуються через HTML-лексер і автоматично виправляються.

Помилки в верстці сторінки безпосередньо ніяк не впливають на ранжування.

Далі відбувається нормалізація даних. Сторінки розбиваються на фрагменти. Наприклад:

Meta tags
Title
H1, h2, h3, h4, h5
Інше

На останньому етапі включається система Collapsor. Collapsor є підсистемою в системі індексації.

Collapsor визначає куди перемістити сторінку. Варіант:

  • Індекс проіндексованих сторінок, але непотрібних;
  • Індекс обслуговування або Serving Index.

Serving Index при індексації сторінок в пошукових системах

Саме Колапсер присвоює сторінкам статус soft 404.

Колапсер фільтрує індекс від непотрібних сторінок: товар відсутній, дублі, технічні сторінки та інше.

Як виявляються сторінки дублі? Через аналіз контрольної суми checksum для кожної сторінки, який заснований на словах на сторінці. В результаті, якщо є дві сторінки з однаковою контрольною сумою, то аналізатор розцінює як дублі.

Індексація сайту гарантує тільки обробку сторінок. Попадання сторінок в пошукову видачу залежить від оцінки сторінок Google Колапсером.

На основі Serving Index формуються результати пошукової видачі.

Індекс обслуговування або Serving Index – основний індекс пошукової системи складається зі сторінок, які беруть участь в ранжируванні. Знаходиться в окремих дата-центрах, звідки користувачі отримують результати пошуку.

Документ потрапляє в Serving Index якщо:

  1. Код відповіді — 200;
  2. Немає заборони до індексації;
  3. Collapsor пропустив сторінку в індекс.

Пошукова система обробляє коди відповіді так:

  • 200. Роботу треба обійти сторінку;
  • 3XX. Роботу треба обійти сторінку, яка відкривається за редиректом.
  • 4XX і 5xx. Сторінка з таким кодом не повинна брати участь в пошуку. Якщо до моменту звернення робота сторінки була розміщена в пошуковій видачі, то буде видалена з індексу.

Як перевірити наявність сторінок в індексі? Розберемося на прикладі.

Перевірка індексації сайту в системі Google з урахуванням всіх піддоменів сайту:

site:itest.com.ua

Перевірка індексації за розділом:

url:chrome.google.com/*

Перевірка індексації за розділом:

inurl:chrome.google.com/*

Якщо сторінки перестали відкриватися, то такі сторінки підлягають видаленню з індексу.

Якщо сайт віддає код помилки, то сторінки видаляються з індексу.

Вразливість можуть експлуатувати конкуренти з видачі.

Як перевірити доступність сайту? Наприклад, можна використовувати спеціальні сервіси. Якщо сервер сайту перестане працювати, система повідомить про інцидент зручним способом.

Питання та відповіді

Від чого залежить кількість сторінок підлягають індексації?

Максимальна кількість сторінок, що підлягають індексації при черговому обході сайту роботом визначає метрика під назвою краулінговий бюджет. Значення розраховує планувальник сканування.

Як змінюються підходи щодо оптимізації індексу?

Підходи до оптимізації індексу сайту дійсно змінюються. Наприклад, якщо раніше наявність великого обсягу сторінок в пошуковій видачі позначалося позитивно на просуванні, то тепер ситуація йде інакше.

Велика кількість сторінок в індексі дозволяло створювати на сайті значущу посилальну статичну вагу. Сигнал передавався через посилання на важливі внутрішні сторінки. В результаті ранжування важливих сторінок поліпшувалося.

Але алгоритми пошукових систем були покращені. Тактика перестала бути ефективною. Велика кількість сторінок на сайті має сенс тільки в разі, якщо сторінки здатні приносити трафік.

Висновок

Завдання щодо поліпшення індексація сайту вимагає уваги, оскільки впливає на позиції сайту в пошуковій видачі. Через сигнали Web Vitals на ранжування можуть впливати навіть сторінки, які закриті в robots.txt.

Відкритими до індексації повинні бути такі сторінки:

  1. Сторінки за якими планується залучення трафіку з пошукової видачі;
  2. Сторінки сайту, важливі для E-A-T.

Сторінки сайту можуть бути проіндексовані, але проігноровані при включенні в індекс обслуговування.

Наведена інформація є достовірною та підтвердженою з офіційних джерел. В інших пошукових системах процес індексації схожий.

Оцініть статтю
Додати коментар