Пошук thin контенту

Чи є якісь безкоштовні рішення для аналізу і пошуку thin контенту, тобто парсингу сайту на предмет схожих сторінок, але не однакових? Наприклад, якщо на одних і тих же сторінках може використовуватися плюс мінус однаковий текст або зображення.

Відповідь

Screaming Frog може знаходити не тільки дублі сторінок, але і схожі (неявні дублі). Відбувається це наступним чином.

– Крок 1. Переходимо в Налаштування “Configuration» – «Content» – “Duplicates” і налаштовуємо відсоток порогової схожості контенту.

– Крок 2. Далі в Налаштуваннях “Configuration» – «Content» – “Duplicates” задаємо винятки і правила для аналізу контенту, задаючи теги, класи та ідентифікатори.

– Крок 3. Парсимо сайт. Після закінчення парса налаштовуємо дані для аналізу парса «Crawl Analysis» – «Configure».

– Крок 4. Виконуємо аналіз: “Crawl Analysis” – “Start”.

– Крок 5. після чого у вкладці “Content”, вибравши зі списку “Near Duplicates” можна побачити сторінки зі схожим контентом.

Далі:

Для кожної сторінки буде вказано відсоток схожості, а також кількість URL зі схожим контентом.

У вкладці “Duplicate Details” вже можна побачити список схожих URL для кожної зі сторінок.

Виділивши URL в стовпці “Near Duplicates Address” можна побачити вихідний контент, в якому буде виділені фрагменти, що мають відмінності.

Але необхідно розуміти, що таким чином ми зможемо виявити лише схожі сторінки за текстовим вмістом, але не за змістом.

Оцініть статтю
Додати коментар