👐 Как-то пару лет назад заопенсорсил свой небольшой сборник...
👐 Как-то пару лет назад заопенсорсил свой небольшой сборник утилит для NLP (Natural Language Processing), завернутых в docker-контейнер в виде API, и вот наконец дошли руки обновить его!
🤤 Раньше там уже было «Определение языка текста» (детектит 176 языков) и «Разделение текста на предложения», а сейчас добавил «Получение основного содержимого из html документа» – чтобы можно было получить корректный контент любой страницы (без менюшек, футеров и прочего говна) при парсинге.
👉 Понакидал там ещё сверху немного фиксов: увеличил размер входящего запроса до 25МБ, обновил readme, добавил токенизацию одного из языков Индии, апнул пайтон и зависимости до 3.11.
🔥 Всё это добро вместе с инструкцией лежит всё там же: https://github.com/lord-alfred/dnlp
🌚 Думаю, многим братьям-дорвейщикам и сёстрам-сеошницам будет полезно заюзать это у себя 🤪
by @Lord_Alfred
Источник новости https://t.me/lord_alfred/102...
395 
