Программист Анатолий Старостин о компьютерных методах в лингвистике, онтоинженерах ABBYY и семантическом поиске
В проекте ScienceHub главный редактор проекта ПостНаука Ивар Максутов беседует с учеными в их лабораториях о новых технологиях, перспективах исследований и новых профессиях, которые появятся благодаря научным открытиям.
ПостНаука побеседовала с Анатолием Старостиным, руководителем группы семантического анализа в ABBYY, преподавателем кафедры «Компьютерная лингвистика» в МФТИ, чтобы разобраться, как работает семантический поиск, какие основные направления компьютерной лингвистики есть сегодня и кто важнее, математики или лингвисты.
Компьютерная лингвистика — это область научного знания. Это наука, с одной стороны, о языке, а с другой стороны, о том, как работать с языком (не всегда естественным) с помощью компьютерных методов. Это наука, возникшая на стыке лингвистики и computer science. Компьютерная лингвистика под разными углами рассматривает естественный язык, формальный язык. В центре этой науки — понятие языка, которое можно рассматривать с разных сторон. Его можно рассматривать, например, формально.
Подготовка лингвистов с оглядкой на компьютерную лингвистику существенно влияет и на самих лингвистов. Более или менее современные лингвисты сегодня (если говорить о людях, которые занимаются естественным языком, пишут теоретические работы об этом) давно перешли на представления о компьютерных методах. В качестве примера я могу упомянуть «Национальный корпус русского языка». Это известный публичный ресурс, который был создан лет десять назад. Это корпус русского языка, размеченный разной лингвистической метаинформацией. Там есть морфологическая разметка, синтаксическая разметка и так далее.
Грубо говоря, компьютерная лингвистика становится инструментом извлечения информации оттуда, откуда мы ее до этого не могли извлечь. Если
Источник: http://postnauka.ru/tv/19248