|
Смарт-колонка Яндекс.Станция | Введение
Анонсированная 29 мая смарт-колонка Яндекс.Станция позиционируется в качестве домашней мультимедийной платформы с интегрированным голосовым помощником. У нее есть немало интересных особенностей. Но, пожалуй, главной из них стала именно Алиса, которая, похоже, и побудила Яндекс выйти за пределы софтверного рынка и выступить в необычной для себя роли аппаратного производителя.
Смарт-колонка Яндекс.Станция | Алиса
Первое и главное преимущество Алисы над другими голосовыми помощниками в том, что перед нами российская разработка, изначально заточенная на понимание русского языка. Как следствие, он лучше многих понимает естественную русскую речь, некоторые обороты которой могут поставить в тупик более популярные голосовые помощники зарубежной разработки.
Официальный запуск Алисы состоялся в октябре прошлого года. Ассистент разговаривает голосом российской актрисы дубляжа Татьяны Шитовой, голосом которой в отечественном прокате говорит известная актриса Скарлетт Йоханссон. Алиса умеет проявлять жизнерадостность, грусть и другие эмоции, а создатели голосового помощника отмечают, что благодаря технологиям машинного обучения Алиса может поддерживать диалог на свободные темы, не ограничивающиеся заданными сценариями.
До анонса Яндекс.Станции Алиса использовалась только в программных продуктах Яндекса, специалисты которой прекрасно понимали, что для привлечения внимания пользователей компании нужно было выпустить собственный гаджет с предустановленным голосовым помощником. Так сделали Apple, Google и Microsoft. И так, в конечном счете, поступил и сам Яндекс.
Смарт-колонка Яндекс.Станция | Конструкция
Звук
Конструкция новой смарт-колонки заметно отличается от многих подобных решений. При её разработке специалисты Яндекса подошли к этому вопросу с практической стороны и не стали наделять смарт-колонку, в общем-то, бесполезными круговыми динамиками. Ведь устройства, которые должны слышать голос издалека, потребляют значительные вычислительные ресурсы и питаются от сети, что предопределяет их расположение у стены. А при направлении части динамиков в стену возникает проблема интерференции звуковых волн, которую пришлось бы компенсировать на уровне софта.
Более того, если в большинстве других колонок твитеры и вуфер направляют в сторону слушателя, то в случае с Яндекс.Станцией вуфер направлен вниз. Разработчики объясняют это необходимостью уменьшения влияния излучаемого Станцией звука на микрофоны, которые должны улавливать человеческую речь. И такое расположение вуфера позволило увеличить «эхо-путь» звука в спектре человеческой речи от динамиков до микрофонов и практически не сказалось на качестве воспроизведения звука.
Уровень громкости визуализируется с помощью круговой подсветки в верхней части Яндекс.Станции, которая по мере увеличения громкости меняет цвет с зелёного до жёлтого и красного. При этом в первых двух режимах смарт-колонка прекрасно понимает речь, а в режиме высокой громкости (красный цвет) устройство почти неспособно слышать команды пользователя. В этих условиях у разработчиков отпала необходимость заботиться о распознавании речь, и в компании полностью сосредоточились на качестве звучания.
Так, в режиме максимальной громкости Яндекс.Станция перенаправляет средние частоты на твитеры, подобранные так, чтобы при необходимости справляться и со средними частотами (от 2к до 20к Гц). При этом Станция переходит в стереорежим, который отключен в обычном режиме из-за своего негативного влияния на качество распознавания речи. Более того, поклонники качественного звука смогут снять внешний кожух колонки, тем самым выиграв ещё несколько децибел.
Распознавание речи
Для распознавания речи в Станции используется микрофонная матрица собственной разработки Яндекса, состоящая из 7 микрофонов: 1 в центре и 6 по окружности. Все микрофоны подключены к отдельному контуру питания и полностью обесточиваются при нажатии кнопки Mute, работа которой, кстати, никак не зависит от софта.
Распознавание ключевых слов построено на технологии Phrase Spotting, которая умеет вычленять в потоке шума конкретные ключевые слова, например «Алиса». После того, как Станция «услышала» в звуковом потоке ключевое слово, вступит в действие алгоритм Direction of Arrival, определяющий направление, в котором находится источник речи. Микрофонная матрица «развернётся» в этом направлении и направит на него «луч», а технология Beamforming позволяит выделить звук, приходящий с целевого направления, подавляя звуки, приходящие с других направлений. На этом же этапе работают алгоритмы Noise Suppression (шумоподавление) и De-reverberation (устранение реверберации).
Вслед за этим в дело вступает алгоритм Acoustic Echo Cancellation, отфильтровывающий нелинейные искажения. И только после того, как сигнал пройдет через все этапы очистки и выделения речи, он будет отправлен на сервера Яндекса для полноценного распознавания нейросетями.
Страница: ![]() ![]() |