SEOFAQ Telegram, маркетинг и SEO Канал SEOFAQT в мессенджере Telegram

Все чатыПривет всем! Я думаю, старожилы нашего канала помнят с...


Привет всем!

Я думаю, старожилы нашего канала помнят с чего он начинался:

Мне нужно было проверить одну гипотезу с редиректами, я написал краулер и перебрал все сайты в рунете. После этого стало интересно спарсить все домены интернета и посмотреть какие там есть данные. Мы стали делиться интересными данными в фейсбуке и Сергей Девака порекомендовал сделать телега канал. Потом еще была публикация на хабре https://habr.com/ru/post/413739/

При всем моем желании собирать регулярно данные не очень получалось, ибо абузили жестко, аккаунты только и блочились. Когда нужно с пару сотен серверов краулеров - это реальная проблема.

В итоге я начал обдумывать архитектуру новой системы, которая была бы полностью распределенной и алгоритмически минимизировала возможность получения абуз. В канун нового 2018 года я окончательно додумал архитектуру нового краулера. Но, к сожалению, понадобилось почти два года, чтобы сделать proof of concept: мы разработали свою систему очередений, которая позволяет хранить миллиарды сообщений (без терабайт оперативки), систему передачи данных между воркерами и кучу других не самых простых решений.

К чему это я? В течение нескольких месяцев порадуем вас свежими данными - сколько сейчас сайтов использует

https, какое количество закрыто от ahrefs, semrush, сколько в мире порносайтов и т.д.

Часто можно увидеть исследования на различные темы, которые основываются на выборках тысяч или в лучшем случае "top 1M websites by ...". Но брать псевдотоп сайтов из более чем 230 млн - так себе статистика. Только BigData, только хардкор.

stay tuned!

Источник новости https://t.me/jetoctopus/94...


Похожие вопросыПохожие вопросы