Две нейросети преобразовали сигналы мозга в человеческую речь
Но разобрать ее все еще непросто
Нейробиологи из Калифорнийского университета в Сан-Франциско придумали систему, которая преобразует сигналы мозга в звуки речи. Для этого они использовали две нейросети и синтезатор речи. Такая система, считают авторы, после усовершенствования может помочь говорить парализованным.
Из-за разного рода параличей некоторые пациенты теряют возможность говорить. Одним из самых известных подобных больных был страдавший от бокового амиотрофического склероза Стивен Хокинг. Ученый пользовался специальным дорогим синтезатором речи, который сделали специально для него.
Аналогичные интерфейсы часто основываются, например, на движениях головы или глаз пациента. Этими движениями больные управляют курсором и выбирают таким образом буквы на экране. Однако такое общение гораздо более медленное, чем естественная речь. Поэтому специалисты работают и в другом направлении, создавая интерфейсы «мозг-компьютер», которые могли бы напрямую считывать сигналы мозга и преобразовывать их в слова.
Как раз такой интерфейс из двух рекуррентных нейросетей и синтезатора речи создали американские исследователи. Такая двухступенчатая система нужна потому, что кора головного мозга имеет дело не напрямую со словами. Она координирует только движения органов речи, которые эти слова произносят, поэтому ученые и прибегли к двойной дешифровке.
Статья Anumanchipalli et al. Speech synthesis from neural decoding of spoken sentences опубликована в журнале Nature.
Чтобы получить исходные данные для работы, ученые использовали пятерых пациентов, которые лечились от эпилепсии. Во время терапии они проговаривали вслух несколько сотен предложений, а ученые во время этого считывали с поверхности коры их головного мозга электрические сигналы при помощи электрокортикографии.
Набор электродов, с помощью которых с речевых центров мозга пациентов считывались сигналы, которые впоследствии преобразовывались в речь.
Дальше в дело вступали две нейросети. Первая преобразовывала эти электрические сигналы в кинематические, то есть в сигналы о том, как должны двигаться язык, губы и гортань. Вторая преобразовывала кинематические сигналы в акустические характеристики: высоту, частоту, просодии (неречевые компоненты, например паузы между словами) и другие параметры. Затем на основе этих акустических характеристик синтезатор речи создавал аудиосигнал.
Синтезированные таким образом слова и целые предложения ученые давали послушать добровольцам, которых набрали на сайте Amazon Mechanical Turk. Те должны были записать, что они слышат, выбирая заранее предложенные слова из списка в 25 или 50 слов. Всего в тесте участвовало 1755 человек, которые выполняли 16 разных заданий. Они правильно разобрали 43% слов в том случае, когда выбирать надо было из 25, и 21% слов, если выбирать приходилось из 50 вариантов. Как и в случае с обычной живой речью, понять слово было тем проще, чем оно было длиннее.
Дальнейшие тесты своего декодера ученые проводили на одном человеке, который не только произносил слова вслух, но и просто повторял мимические движения, не произнося при этом ничего. Во втором случае система тоже справлялась с расшифровкой слов, хотя и хуже, чем тогда, когда люди говорили вслух.
Хотя расшифровка речи с помощью новой системы еще далека от идеала, ученые считают, что продвинулись в создании устройств, которые будут дешифровать речь прямо из мозга в реальном времени, что позволит парализованным пациентам общаться в естественном темпе и к тому же передавать интонации и другие элементы речи, недоступные при ее наборе на экране монитора.
Евгения Щербина, «Чердак»
Портал «Вечная молодость» http://vechnayamolodost.ru