Быстрый парсинг “табличного” контента

167

#софт #плагины @productseo

Сегодня пятничный чилл постик ☺️

Я очень не люблю браузер extensions (а потому скоро сделаю подборку букмарклетов) и у меня есть прям отдельный Google Chrome, который я использую только тогда, когда мне уж точно нужен плагин (ох уж эта паранойя). Один из таких случаев, когда мне нужно что-то спарсить и у меня 0 времени или 0 желания писать свое на Beautiful Soup или Watir.

Открыл для себя недавно Instant Data Scraper (ссылка). Может быть не там смотрел, но ни разу не видел его в SEO подборках.

Чем он мне понравился?

1) Он автоматически пытается найти одинаковые элементы (например, по css class) и парсит с них данные в табличном виде, сохраняя в csv или xlsx. То есть никаких xPath или CSS селекторов вводить не нужно;

2) из коробки умеет работать с пагинацией и инфинит скроллом;

3) умеет делать задержку между запросами, что помогает при долгих ответах от SPA или банах по поведению юзера в браузере.

4) у плагина логотип Pokeball 🙂

Если с первого раза вы не увидели в таблице тех данных, которые нужны, то попробуйте “Try another table”, а если данные излишни, то нажмите на крестик рядом с названием столбца.

P.S. На следующей неделе посты будут выходить в пн 07.12, ср 09.12, пт 11.12 около 22-00 по Киеву. Первым станет кейс о пагинации.

UPD. на requests и scrapy тоже бывает лень :)

Источник новости https://t.me/productseo/13...

<< Вернуться на канал

04.12.2020 19:19