РЕКЛАМА
ИНФОРМАЦИЯ
Rambler's Top100 Рейтинг@Mail.ru

НОВОСТИ

RSS

Анонс двух крупнейших в мире ИИ-датасетов естественного языка People's Speech и MSWC

07 декабря 2021, 23:44




На ежегодной конференции по системам обработки информации для нейросетей (NeurIPS) состоялась презентация двух крупнейших в мире датасетов естественного языка для ИИ-систем автоматического транскрибирования и перевода.

Первый датасет называется People's Speech («Устная речь»). Он предназначен для использования в ИИ-системах «автоматического распознавания речи» и ее транскрибирования в текст.

Анонс двух крупнейших в мире ИИ-датасетов естественного языка People's Speech и MSWC


Второй датасет получил название Multilingual Spoken Words Corpus (MSWC) - «Многоязычная речь». Он используется для установления соответствия между односмысловыми словоформами естественного устного языка разных народов мира.

Анонс двух крупнейших в мире ИИ-датасетов естественного языка People's Speech и MSWC


Разработка проектов People's Speech и MSWC началась в 2018 году. Инициатором исследований выступила Ассоциация ML Commons, известная разработкой бенчмарков для ИИ-систем MLPerf. Задачей исследовательских проектов было выявление и классификация 50 наиболее активно используемых в мире разговорных языков. Результатом стал набор примитивов. По имеющимся оценкам, созданные дата-сеты являются наиболее полными среди всех существующих в мире, аналогичных наборов.

В разработке участвовали группы исследователей из Intel, Гарварда, Alibaba, Oracle, Landing AI, Мичиганского университета, Google, Baidu и ряда других центров.

Особенностью полученных датасетов стало то, что при обучении использовались данные с фоновым шумом и неформальными речевыми оборотами в различных акустических средах. Исследователи сразу отказались от применения «идеального» контента, например, аудиокниг, принимая во внимание, что неадаптированный оригинальный контент позволяет получать более точные результаты при реальном использовании обученных датасетов.

В датасет People's Speech входят десятки тысяч часов разговорных записей. В настоящее время это один из крупнейших в мире наборов данных для распознавания устной речи на английском языке. Он лицензирован для академического и коммерческого применения и доступен для бесплатной загрузки.

Анонс двух крупнейших в мире ИИ-датасетов естественного языка People's Speech и MSWC


Набор аудиоречевых данных MSWC содержит более 300 000 ключевых слов на десятках языков мира. По данным Intel, его аудитория составляет более пяти млрд человек. Этот набор также имеет значительные возможности для лицензирования, включая коммерческое применение.



Ранее редакция THG.ru опубликовала статью об искусственном интеллекте. Искусственный интеллект уже давно занял важное место в научно-фантастической литературе и голливудских блокбастерах. Именно они формируют мнение большинства людей о том, что из себя представляет ИИ, и чего от него следует ожидать. Но насколько это мнение соответствует реальному положению вещей? Давайте разбираться. Подробнее об этом читайте в статье "Искусственный интеллект: правда и вымысел".

Читайте также:

  • Gridspertise показала систему QEd - Quantum Edge для строительства умных энергосетей
  • Microsoft Azure AI на базе ускорителей NVIDIA A100 показал рекордные результаты в тестах MLPerf
  • Qualcomm и Google будут совместно разрабатывать ИИ-механизм Google Cloud Vertex AI NAS
  • Cмартфоны с чипсетами MediaTek могли быть под прослушкой до октября 2021 года
  • Microsoft выпустила виртуальную машину Windows 11 Enterprise для сисадминов
  • следующая новость
    DeepCool выпустила блоки питания серии PQ-M нового поколения

    предыдущая новость
    Infinix выпустила бюджетный смартфон Smart 6

     


    Свежие статьи
    RSS
    Получите Windows и Office на зимней распродаже: цены стартуют с 7,43 доллара Почему курс криптовалют подвержен изменениям? Обзор ноутбука-трансформера Dell Inspiron 14 5410 2-in-1: универсальный боец Лучший блок питания: текущий анализ рынка Главные новости за неделю
    Страница не найдена Почему курс криптовалют подвержен изменениям Обзор ноутбука-трансформера Dell Inspiron 14 5410 2-in-1 Лучший блок питания Главные новости за неделю
    РЕКЛАМА
    РЕКОМЕНДУЕМ ПРОЧЕСТЬ!
    ПОСЛЕДНИЕ НОВОСТИ

    Samsung представила флагманский чипсет Exynos 2200 с графикой AMD RDNA 2


    17 января, 2022

    Silicon Power анонсировала твердотельный накопитель XPOWER XS70 PCIe Gen4 NVMe

    Scythe обновила монтажный комплект для Intel LGA1700 до версии SCMK-1700B

    ViewSonic выпустила три игровых монитора ELITE с технологией Mini-LED

    Гарнитура Apple VR получит ценник на уровне MacBook Pro

    Huawei выпустила школьный ранец 9um Smart Positioning с геонавигацией

    Apple iPad Air пятого поколения получит чипсет A15, камеру Center Stage и поддержку 5G


    14 января, 2022

    AMD обеспечит разгон памяти DDR5 с помощью технологии RAMP

    Xiaomi собирается выпустить квадратные умные часы

    Samsung может выпустить ноутбук со складывающимся экраном и клавиатурой

    Группа немецких экспертов по безопасности не нашла «жучков» в телефонах Xiaomi

    Comcast провела первые в мире испытании кабельного модема уровня 10G

    Легендарная дальномерная камера Leica M11 оснащена новым CMOS-сенсором 60-Мп


    13 января, 2022

    Флагманский чипсет MediaTek Dimensity 9000 появится в первой половине 2022 года

    Lenovo анонсировала экологичные ноутбуки ThinkPad Z13 и Z16 на базе AMD Ryzen PRO серии 6000

    Scythe выпустила процессорный кулер Big Shuriken 3 Rev B

    ССЫЛКИ