Як захиститися від парсингу і не втратити позиції в пошуковій видачі

Парсінг – автоматичний збір даних з різних ресурсів. У загальних рисах це працює так: програма-бот звертається до сторінки цільового сайту, розбирає на частини його HTML-код і забирає з нього потрібну інформацію.

Найчастіше цей прийом застосовують конкуренти: якщо парсити одну і ту ж групу сайтів, можна отримувати постійно оновлювані дані про ціни, товарні запаси, зміни в товарній групі. Також парсится і внутрішня частина сайту: семантика, елементи коду, метатеги і т. д.

Доступ ботам до сайту можна заблокувати. Але пошукові системи також є своєрідними парсерами – вони відстежують нову інформацію та індексують її. Тому подібне блокування може привести до втрати позицій в пошуковій видачі.

4 способи захисту від парсингу без наслідків для SEO

  1. Додавання посилання. При копіюванні контенту в тексті з’являється посилання на джерело. Метод не захищає від крадіжки інформації. Але якщо подивитися зворотні посилання на свій сайт, можна побачити, хто зробив копіпаст. У теорії копіпастер посилання може видалити, але часто його просто не помічають.
  2. Персоналізований контент. Чим частіше в тексті буде згадуватися бренд, назва продукту і його унікальні характеристики, тим складніше і довше буде правитися копіпаст. Якщо текст буде скопійований ботами, дізнатися копіпастера можна буде за допомогою Google Alerts, налаштувавши його під унікальний запит.
  3. Пастки для ботів “honeypot”. Приманки, що представляють собою посилання, по якому не будуть переходити користувачі, але будуть переходити боти. Це дозволяє зібрати дані про методи збору роботами інформації, щоб надалі їх блокувати за певними параметрами.
  4. Використання сервісів DMCA protected, CloudFlare, Distil Networks.

Що НЕ потрібно використовувати для захисту:

  • Капча (captcha). Запит на введення перенаправляється на сторонній ресурс, де капчу вбивають вручну, після чого запит перенаправляється назад. Для парсерів обхід капчі не є проблемою, але дратує користувачів і додає проблеми з індексацією.
  • Заборона на виділення тексту або його копіювання в буфер. Захищає вміст лише від ручного копіювання, але не захищає від крадіжки вмісту з HTML-коду.

Важливо! Всі ці методи більшою мірою спрямовані не стільки на захист контенту, скільки на те, щоб визначити копіпастера. Якщо крадіжка контенту зафіксована, в першу чергу спробуйте домовитися з ним про видалення контенту безпосередньо. Це заощадить гроші та час.

Не вийшло – зверніться до хостерів, а також на підтримку пошукових систем. На міжнародному рівні можна скористатися законом DMCA, суть якого – захист авторського права в області цифрових технологій. Діє в США, але можуть подати скаргу і нерезиденти.

Оцініть статтю
Додати коментар