Сбер открывает доступ к датасету Golos — самому большому набору речевых данных на русском, размеченному вручную

Сбер открывает доступ к датасету Golos — самому большому набору речевых данных на русском, размеченному вручную

Сбер открывает доступ к датасету Golos — самому большому размеченному вручную набору речевых данных на русском языке, включающему 1240 часов аудиоданных, а также обученную на них модель распознавания речи, которая показывает точность, сравнимую с человеческой. Датасет можно скачать на сайте GitHub.

Разрабатывать речевые технологии проще

Данные могут быть использованы для распознавания и синтеза речи. Сбер предоставляет их по лицензии, допускающей использование в исследовательских и коммерческих целях, а это более одного миллиона коротких записей русской речи и соответствующие транскрипции.

Над датасетом работала команда SberDevices: создание такой базы стало возможным благодаря разработке семейства виртуальных ассистентов Салют. Было сгенерировано более 1240 часов речи, похожей на запросы пользователей. Аудиофайлы записаны при помощи краудсорсинговой платформы и специальной студии. Датасет Golos составляют обезличенные записи, прослушанные и размечены вручную. Точная разметка, полученная благодаря тройному перекрытию, позволяет создавать качественные речевые технологии и продукты.

Помимо данных Сбер выкладывает обученную на них модель распознавания речи. Она обучалась с использованием мощностей суперкомпьютера «Кристофари» от Сбера на 16 видеокартах Nvidia Tesla V100 в течение 8 дней. Доступная для использования акустическая модель QuartzNet 15x5 была обучена на данных датасетов Golos и Common Voice, а языковая модель KenLM построена на Common Crawl и аннотациях Golos.

Открытие датасета Golos — это очень важный шаг для развития речевых технологий в России, и мы в Сбере рады, что можем применить свой опыт в этой области и продолжить наш тренд делиться своими наработками и технологиями с разработчиками и научным сообществом. Речевые технологии сейчас очень активно внедряются во всех сферах. При этом уже существует масса открытых данных на английском языке, но такого качественного русскоязычного датасета не было. Теперь же есть доступные данные и на русском языке, которые можно использовать для распознавания и синтеза речи, а обученная на них модель показывает очень высокое качество. Мы верим, что датасет Golos даст возможность научному сообществу России двигаться ещё быстрее в совершенствовании русскоязычных речевых технологий

SberDevices — компания экосистемы Сбера, центр экспертизы по решениям на основе искусственного интеллекта в таких областях, как речевые технологии, технологии понимания естественного языка, лицевая и голосовая биометрия. Компания также фокусируется на создании умных устройств для конечных потребителей и корпоративных клиентов. SberDevices учреждена в мае 2019 года в качестве департамента блока «Технологии» Сбербанка.

Просмотров: 643
Подписка на новости
E-Mail: 

Рейтинг банков
"Активность пресс-службы банков"

Банк Рейтинг
1 ВТБ 1000
2 СберБанк (Уральский банк) 717
3 Банк «Открытие» 472
4 Райффайзенбанк 410
5 ПСБ банк 380
6 Россельхозбанк 316
7 Банк УРАЛСИБ 249
8 Альфа-Банк 151
9 ПЕРВОУРАЛЬСКБАНК 148
10 (+2) Абсолют Банк 125
11 (-1) Московский кредитный банк 121
12 (+1) Примсоцбанк 116
13 (-2) Солидарность Банк 108
14 Кольцо Урала 97
15 (+2) СКБ-банк 95
16 (-1) ЧЕЛИНДБАНК 89
17 (-1) Уральский банк реконструкции и развития 84
18 Банк «РОССИЯ» 55
19 ВУЗ-банк 23
20 (+1) Банк ФИНАМ 20
на 22.06.2021
Нашли ошибку? Выделите текст и нажмите Ctrl+Enter
Для повышения удобства работы с сайтом ИА "БанкиИформСервис" использует файлы cookies. В cookies содержатся данные о прошлых посещениях сайта. Если вы не хотите, чтобы эти данные использовались, отключите cookies в настройках браузера.

   Подробнее