SEOFAQ Telegram, маркетинг и SEO Канал SEOFAQT в мессенджере Telegram

Все чатыКак ИИ извлекает контент со страниц сайта 🖥


Как ИИ извлекает контент со страниц сайта 🖥

Наткнулся на интересный анализ, в котором протестировали 15 вариантов HTML-кодов, для того, чтобы определить, как LLM-модели извлекают контент из веб-страниц.

В данном анализе описан эксперимент, целью которого было оценить возможность извлечения структурированного контента из HTML-страниц с различными шаблонами разметки. Задача заключалась в определении того, какие структуры HTML позволяют успешно извлекать информацию, а какие создают проблемы для автоматизированных систем чтения.

Было протестировано пятнадцать вариантов HTML-страниц, каждая из которых содержала информацию о продукте (название, описание и цена), но была структурирована совершенно по-разному. Результаты выявили интересные закономерности в том, как системы извлечения информации интерпретируют веб-контент.

Процесс извлечения контента

Когда LLM-модели парсят веб-страницы с помощью встроенных инструментов, они обычно не выполняют JavaScript. Это простой HTTP-запрос, который загружает статический HTML-код с сервера:

1. Скрипты JavaScript не выполняются

2. CSS-стили не отображаются

3. Отсутствует визуальный/рендеренный контекст

4. С сервера получается только необработанный HTML-код

LLM-модели не видят полный HTML-код . Эвристические алгоритмы извлечения отфильтровывают то, что они считают "шумом", прежде чем передать контент модели.

Определение основного контента

Система определяет, что является "основным контентом", используя эвристические методы, такие как:

1. Плотность текста в контейнерах

2. Удаление элементов, не относящихся к контенту

3. Элементы, считающиеся "шумом", устраняются или игнорируются

Обычно фильтруются такие элементы, как:

- шаблонный текст

- <nav>

- <footer>

- <aside>

- <script>

- <style>

- <iframe>

- <meta>

- HTML-комментарии

Это одна из причин, почему ни один веб-инструмент, выполняющий выборку данных внутри LLM, не считывает схему.

Хотя другие ИИ, такие как Gemini и ChatGPT, не продемонстрировали проблем с извлечением информации в этом эксперименте, это не означает, что мы можем игнорировать структуру HTML. Способ преобразования контента в обычный текст в «режиме чтения» имеет семантическое значение, которое напрямую вытекает из DOM. Хорошо структурированная страница облегчает понимание контекста и контента, независимо от модели, обрабатывающей ее.

Также в статье приведены 15 примеров HTML-кодов, и результаты извлечения контента из них . Рекомендую ознакомиться 😉

Источник: https://natzir.com/posicionamiento-buscadores/experimento-analisis-de-extraccion-de-contenido-html-en-claude/

Источник новости https://t.me/ulianoov/684...