SEOFAQ Telegram, маркетинг и SEO Канал SEOFAQT в мессенджере Telegram

Все чаты​Chonkie: Легковесная и быстрая библиотека для чанкинга текста...

 142  


​Chonkie: Легковесная и быстрая библиотека для чанкинга текста на Python

Установка

Базовая: pip install chonkie

Со всеми зависимостями: pip install chonkie[all]

Пример использования

from chonkie import RecursiveChunker

chunker = RecursiveChunker()

chunks = chunker("Chonkie is a library for text chunking.")

for chunk in chunks:

print(f"Text: {chunk.text}, Tokens: {chunk.token_count}")

Пайплайн обработки CHOMP

1 Chef: Предобработка текста (очистка, нормализация).

2 Chunker: Применяется основная логика разделения.

3 Refinery: Постобработка (объединение, эмбеддинг, добавление контекста).

4 Friends: Вывод через Porters (экспорт в JSON) или Handshakes (загрузка в векторную БД).

Доступные чанкеры

— TokenChunker: Чанки фиксированного размера в токенах.

— SentenceChunker: Разделение по предложениям.

— RecursiveChunker: Иерархическое разделение на основе правил.

— SemanticChunker: Разделение по семантическому сходству (в духе Грега Камрадта).

— LateChunker: Создает эмбеддинги текста *перед* разделением для оптимизации эмбеддингов чанков.

— CodeChunker: Структурно-ориентированное разделение кода.

— NeuralChunker: Использует нейросетевую модель для разделения.

— SlumberChunker (AgenticChunker): Использует LLM для поиска семантических разделений.

Интеграции (всего 24+)

— Токенизаторы: 5+

— Провайдеры эмбеддингов: 8+

— Провайдеры LLM: 3+

— Векторные базы данных: 4+

Репозиторий: https://github.com/chonkie-inc/chonkie/

https://www.linkedin.com/pulse/no-nonsense-ultra-light-lightning-fast-chunking-library-dan-petrovic-rzmfc/

Каковы сценарии использования чанкинга?

В основном оно используется для создания инструментов на базе ИИ, извлечения информации и разработки поисковых систем.

— Один из сценариев — это разделение контента веб-страницы для получения более детальной семантической оценки и кластеризации.

— Другой — предоставление LLM только необходимой информации вместо целых документов, что ведет к экономии на использовании токенов.

@MikeBlazerX

Инсайты для узкого круга — в @MikeBlazerPRO

Ссылки из поста:
https://www.linkedin.com/feed/update/urn:li:activi...
https://t.me/MikeBlazerX
https://t.me/tribute/app?startapp=sE4X

Источник новости https://t.me/mikeblazerx/5908...