А вы знали, что Google выложил в опенсорс свои "Simple...
67
А вы знали, что Google выложил в опенсорс свои "Simple Voice Questions", на которых они тренируют модели разговорного поиска?
Для сеошника это просто клондайк данных.
Там еще и мультиязычность есть.
Алерт по датасету: Simple Voice Questions (SVQ)
Новый эталонный датасет для оценки мультиязычного голосового поиска и QA, с фокусом на естественную акустическую среду.
Основные спеки
— Охват: 17 языков в 26 локалях.
— Объем: 700 уникальных спикеров (демография включена); лимит ~250 записей на спикера.
— Исходный материал: Текст запросов взят из XTREME-UP (TYDI QA и XOR QA).
Условия записи
Аудио захватывалось через персональные девайсы в четырех специфических средах, чтобы симулировать реальный интент запроса:
1. Чисто (Тихо)
2. Фоновая речь (Подкасты/Радио)
3. Шум трафика (В машине)
4. Медиа-шум (ТВ/Музыка)
Логика дистрибуции
Выпущено строго как единый, неразделенный набор для оценки.
— Контекст: Предопределенных сплитов на train/test нет.
— Причина: Случайное распределение промптов создало пересечения; если вводить строгую непересекаемость по спикерам/тексту, пришлось бы выкинуть ~40% данных.
— Действие: Юзеры должны сами пилить стратегии сплитования для обучения моделей.
https://huggingface.co/datasets/google/svq
@MikeBlazerX
Но самое "мясо" — в @MikeBlazerPRO

– https://www.linkedin.com/feed/update/urn:li:activi...
– https://t.me/MikeBlazerX
– https://t.me/tribute/app?startapp=sE4X
Источник новости https://t.me/mikeblazerx/5968...

