Швидкий парсинг “табличного” контенту

Я дуже не люблю браузер extensions (а тому скоро зроблю добірку букмарклетів) і у мене є прям окремий Google Chrome, який я використовую тільки тоді, коли мені вже точно потрібен плагін (ох вже ця параноя). Один з таких випадків, коли мені потрібно щось спарсити і у мене 0 часу або 0 бажання писати своє на Beautiful Soup або Watir.

Відкрив для себе недавно Instant Data Scraper (https://chrome.google.com/webstore/detail/instant-data-scraper/ofaokhiedipichpaobibbnahnkdoiiah). Може бути не там дивився, але жодного разу не бачив його в SEO добірках.

Чим він мені сподобався?

  1. він автоматично намагається знайти однакові елементи (наприклад, по css class) і парсить з них дані в табличному вигляді, зберігаючи в csv або xlsx. Тобто ніяких xPath або CSS селекторів вводити не потрібно;
  2. з коробки вміє працювати з пагінацією та інфініт скроллом;
  3. вміє робити затримку між запитами, що допомагає при довгих відповідях від SPA або банах з поведінки користувача в браузері.
  4. у плагіна логотип Pokeball.

Якщо з першого разу ви не побачили в таблиці тих даних, які потрібні, то спробуйте “Try another table”, а якщо дані зайві, то натисніть на хрестик поруч з назвою стовпця.

Оцініть статтю
Додати коментар