Быстрый парсинг “табличного” контента
Быстрый парсинг “табличного” контента
#софт #плагины @productseo
Сегодня пятничный чилл постик ☺️
Я очень не люблю браузер extensions (а потому скоро сделаю подборку букмарклетов) и у меня есть прям отдельный Google Chrome, который я использую только тогда, когда мне уж точно нужен плагин (ох уж эта паранойя). Один из таких случаев, когда мне нужно что-то спарсить и у меня 0 времени или 0 желания писать свое на Beautiful Soup или Watir.
Открыл для себя недавно Instant Data Scraper (ссылка). Может быть не там смотрел, но ни разу не видел его в SEO подборках.
Чем он мне понравился?
1) Он автоматически пытается найти одинаковые элементы (например, по css class) и парсит с них данные в табличном виде, сохраняя в csv или xlsx. То есть никаких xPath или CSS селекторов вводить не нужно;
2) из коробки умеет работать с пагинацией и инфинит скроллом;
3) умеет делать задержку между запросами, что помогает при долгих ответах от SPA или банах по поведению юзера в браузере.
4) у плагина логотип Pokeball 🙂
Если с первого раза вы не увидели в таблице тех данных, которые нужны, то попробуйте “Try another table”, а если данные излишни, то нажмите на крестик рядом с названием столбца.
P.S. На следующей неделе посты будут выходить в пн 07.12, ср 09.12, пт 11.12 около 22-00 по Киеву. Первым станет кейс о пагинации.
UPD. на requests и scrapy тоже бывает лень :)
Источник новости https://t.me/productseo/13...