Привет всем! Я думаю, старожилы нашего канала помнят с чего он...
Привет всем!
Я думаю, старожилы нашего канала помнят с чего он начинался:
Мне нужно было проверить одну гипотезу с редиректами, я написал краулер и перебрал все сайты в рунете. После этого стало интересно спарсить все домены интернета и посмотреть какие там есть данные. Мы стали делиться интересными данными в фейсбуке и Сергей Девака порекомендовал сделать телега канал. Потом еще была публикация на хабре https://habr.com/ru/post/413739/
При всем моем желании собирать регулярно данные не очень получалось, ибо абузили жестко, аккаунты только и блочились. Когда нужно с пару сотен серверов краулеров - это реальная проблема.
В итоге я начал обдумывать архитектуру новой системы, которая была бы полностью распределенной и алгоритмически минимизировала возможность получения абуз. В канун нового 2018 года я окончательно додумал архитектуру нового краулера. Но, к сожалению, понадобилось почти два года, чтобы сделать proof of concept: мы разработали свою систему очередений, которая позволяет хранить миллиарды сообщений (без терабайт оперативки), систему передачи данных между воркерами и кучу других не самых простых решений.
К чему это я? В течение нескольких месяцев порадуем вас свежими данными - сколько сейчас сайтов использует
https, какое количество закрыто от ahrefs, semrush, сколько в мире порносайтов и т.д.
Часто можно увидеть исследования на различные темы, которые основываются на выборках тысяч или в лучшем случае "top 1M websites by ...". Но брать псевдотоп сайтов из более чем 230 млн - так себе статистика. Только BigData, только хардкор.
stay tuned!
Источник новости https://t.me/jetoctopus/94...