Канал SEOFAQT в мессенджере Telegram

А вы знали, что Google выложил в опенсорс свои "Simple...

Mike Blazer

74

А вы знали, что Google выложил в опенсорс свои "Simple Voice Questions", на которых они тренируют модели разговорного поиска?

Для сеошника это просто клондайк данных.

Там еще и мультиязычность есть.

Алерт по датасету: Simple Voice Questions (SVQ)

Новый эталонный датасет для оценки мультиязычного голосового поиска и QA, с фокусом на естественную акустическую среду.

Основные спеки

— Охват: 17 языков в 26 локалях.

— Объем: 700 уникальных спикеров (демография включена); лимит ~250 записей на спикера.

— Исходный материал: Текст запросов взят из XTREME-UP (TYDI QA и XOR QA).

Условия записи

Аудио захватывалось через персональные девайсы в четырех специфических средах, чтобы симулировать реальный интент запроса:

1. Чисто (Тихо)

2. Фоновая речь (Подкасты/Радио)

3. Шум трафика (В машине)

4. Медиа-шум (ТВ/Музыка)

Логика дистрибуции

Выпущено строго как единый, неразделенный набор для оценки.

— Контекст: Предопределенных сплитов на train/test нет.

— Причина: Случайное распределение промптов создало пересечения; если вводить строгую непересекаемость по спикерам/тексту, пришлось бы выкинуть ~40% данных.

— Действие: Юзеры должны сами пилить стратегии сплитования для обучения моделей.

https://huggingface.co/datasets/google/svq

@MikeBlazerX

Но самое "мясо" — в @MikeBlazerPRO

Ссылки из поста:
– https://www.linkedin.com/feed/update/urn:li:activi...
– https://t.me/MikeBlazerX
– https://t.me/tribute/app?startapp=sE4X

Источник новости https://t.me/mikeblazerx/5968...

<< Вернуться на канал

27.11.2025 10:15