Как ИИ извлекает контент со страниц сайта 🖥
Как ИИ извлекает контент со страниц сайта 🖥
Наткнулся на интересный анализ, в котором протестировали 15 вариантов HTML-кодов, для того, чтобы определить, как LLM-модели извлекают контент из веб-страниц.
В данном анализе описан эксперимент, целью которого было оценить возможность извлечения структурированного контента из HTML-страниц с различными шаблонами разметки. Задача заключалась в определении того, какие структуры HTML позволяют успешно извлекать информацию, а какие создают проблемы для автоматизированных систем чтения.
Было протестировано пятнадцать вариантов HTML-страниц, каждая из которых содержала информацию о продукте (название, описание и цена), но была структурирована совершенно по-разному. Результаты выявили интересные закономерности в том, как системы извлечения информации интерпретируют веб-контент.
Процесс извлечения контента
Когда LLM-модели парсят веб-страницы с помощью встроенных инструментов, они обычно не выполняют JavaScript. Это простой HTTP-запрос, который загружает статический HTML-код с сервера:
1. Скрипты JavaScript не выполняются
2. CSS-стили не отображаются
3. Отсутствует визуальный/рендеренный контекст
4. С сервера получается только необработанный HTML-код
LLM-модели не видят полный HTML-код . Эвристические алгоритмы извлечения отфильтровывают то, что они считают "шумом", прежде чем передать контент модели.
Определение основного контента
Система определяет, что является "основным контентом", используя эвристические методы, такие как:
1. Плотность текста в контейнерах
2. Удаление элементов, не относящихся к контенту
3. Элементы, считающиеся "шумом", устраняются или игнорируются
Обычно фильтруются такие элементы, как:
- шаблонный текст
- <nav>
- <footer>
- <aside>
- <script>
- <style>
- <iframe>
- <meta>
- HTML-комментарии
Это одна из причин, почему ни один веб-инструмент, выполняющий выборку данных внутри LLM, не считывает схему.
Хотя другие ИИ, такие как Gemini и ChatGPT, не продемонстрировали проблем с извлечением информации в этом эксперименте, это не означает, что мы можем игнорировать структуру HTML. Способ преобразования контента в обычный текст в «режиме чтения» имеет семантическое значение, которое напрямую вытекает из DOM. Хорошо структурированная страница облегчает понимание контекста и контента, независимо от модели, обрабатывающей ее.
Также в статье приведены 15 примеров HTML-кодов, и результаты извлечения контента из них . Рекомендую ознакомиться 😉
Источник новости https://t.me/ulianoov/684...
88 
