Chonkie: Легковесная и быстрая библиотека для чанкинга текста...
142
Chonkie: Легковесная и быстрая библиотека для чанкинга текста на Python
Установка
Базовая: pip install chonkie
Со всеми зависимостями: pip install chonkie[all]
Пример использования
from chonkie import RecursiveChunker
chunker = RecursiveChunker()
chunks = chunker("Chonkie is a library for text chunking.")
for chunk in chunks:
print(f"Text: {chunk.text}, Tokens: {chunk.token_count}")
Пайплайн обработки CHOMP
1 Chef: Предобработка текста (очистка, нормализация).
2 Chunker: Применяется основная логика разделения.
3 Refinery: Постобработка (объединение, эмбеддинг, добавление контекста).
4 Friends: Вывод через Porters (экспорт в JSON) или Handshakes (загрузка в векторную БД).
Доступные чанкеры
— TokenChunker: Чанки фиксированного размера в токенах.
— SentenceChunker: Разделение по предложениям.
— RecursiveChunker: Иерархическое разделение на основе правил.
— SemanticChunker: Разделение по семантическому сходству (в духе Грега Камрадта).
— LateChunker: Создает эмбеддинги текста *перед* разделением для оптимизации эмбеддингов чанков.
— CodeChunker: Структурно-ориентированное разделение кода.
— NeuralChunker: Использует нейросетевую модель для разделения.
— SlumberChunker (AgenticChunker): Использует LLM для поиска семантических разделений.
Интеграции (всего 24+)
— Токенизаторы: 5+
— Провайдеры эмбеддингов: 8+
— Провайдеры LLM: 3+
— Векторные базы данных: 4+
Репозиторий: https://github.com/chonkie-inc/chonkie/
Каковы сценарии использования чанкинга?
В основном оно используется для создания инструментов на базе ИИ, извлечения информации и разработки поисковых систем.
— Один из сценариев — это разделение контента веб-страницы для получения более детальной семантической оценки и кластеризации.
— Другой — предоставление LLM только необходимой информации вместо целых документов, что ведет к экономии на использовании токенов.
@MikeBlazerX
Инсайты для узкого круга — в @MikeBlazerPRO

– https://www.linkedin.com/feed/update/urn:li:activi...
– https://t.me/MikeBlazerX
– https://t.me/tribute/app?startapp=sE4X
Источник новости https://t.me/mikeblazerx/5908...

