Он умеет в интегралы. Русисты утверждают, что так говорить и писать можно

Спросите себя, где живет русский язык? Ответ наверняка будет: в уме людей, им пользующихся, в текстах, написанных по-русски, в грамматиках и словарях. Верно. До недавнего времени и я бы так ответила.
Но после заседания Президиума РАН 9 апреля, на котором обсуждались фундаментальные проблемы лингвистики и задачи корпусных исследований языков, знаю, что есть еще один адрес, где наш язык прекрасно себя чувствует, — Национальный корпус русского языка (НКРЯ).
О том, как устроен НКРЯ, кем и зачем, коллегам по РАН первым начал рассказывать академик Владимир Плунгян (на снимке). По его мнению, тому, что мы имеем Национальный корпус русского языка, способствовало проникновение современных технологий в гуманитарную область изучения языка.
— Корпус в лингвистике — это сложно устроенная справочная система на основе оцифрованного собрания текстов на определенном языке, — сообщил Владимир Александрович.
— Чем больше разной специализированной информации в корпус вносится, тем лучше и эффективнее он может служить исследователям для поиска необходимых сведений.
Например, надо найти все художественные тексты Тургенева, написанные в определенный период времени и содержащие слово «роза» сочетания, и прилагательные, обозначающие цвет.
С помощью корпуса легко можем узнать, что у Тургенева в определенный период розы бывали белые, красные и… лиловые.
Среди разных корпусов, коих сегодня в мировой лингвистике много, выделяется так называемый национальный. Термин этот, вопреки его громкому звучанию, технический. Им обозначают большое сбалансированное собрание текстов, которое представляет язык с максимальной полнотой на всем пространстве и времени его существования.
Родом термин из 90-х годов ХХ века, первоначально так обозначили Британский национальный корпус (англ. яз.).
Иначе сказать, тексты Национального корпуса наиболее полно характеризуют язык: все, что на языке создано и создается, попадает в корпус и становится предметом научных исследований. Соответственно, можно говорить о существовании в науке направления «корпусная лингвистика».
— Первые корпуса, правда, имели небольшой объем и очень ограниченные возможности запросов. Потому поначалу, где-то в 1960-х годах, корпус считался маргинальным приложением — игрушкой, не сильно полезной для мейнстримной лингвистики.
Нормальный объем корпуса сегодня — уточнил академик — несколько миллиардов словоупотреблений с сильно усложнившимся активно используемым функционалом, настолько разнообразным, что с середины 90-х годов ХХ века стали говорить о «корпусной революции».
В России — не раз говорилось на заседании — ее предвестником был академик А.П.Ершов с его концепцией машинного фонда русского языка.
По сути, эта концепция оказалась очень близка тому, что понимается ныне под современными корпусами. Но идея Ершова опередила время: корпусу необходимо цифровое представление данных, а тогда стране было не до лингвистики. Андрей Петрович ушел из жизни, не увидев осуществления задуманного.

Второй раунд реализации этой идеи начался в нулевые годы, и тогда стране удалось учесть накопленный другими опыт и самой сделать инновационные продукты.
— НКРЯ — главный российский продукт корпусной лингвистики, — продолжал Владимир Плунгян. — Хотя и не единственный. Это удачный результат совместных усилий выпускников кафедры прикладной лингвистики МГУ и программистов компании «Яндекс» под руководством Ильи Сегаловича.
Начав обсуждать корпус в 2001-м, уже в апреле 2004 года эта команда открыла корпус для свободного доступа. Как раз 20 лет можно праздновать. Сегодня это — один из самых востребованных инструментов русистов во всем мире.
Главное его отличие от иных — Национальный корпус создан учеными и программистами не только для себя, но и для обычных пользователей. Он дает возможность получить сведения, которые в докорпусную эпоху было немыслимо собрать.
Например, можно по-русски сказать «медленно прыгнул»? Сразу скажу: нет. Корпус так отвечает, суммируя исчерпывающе данные о контекстном окружении слов и конструкций. Плюс позволяет вести мониторинг динамики языковых изменений, то есть вылавливать их из текстов и фиксировать.
Пример — глагол «уметь». Кто-то умеет делать что-то. Я умею играть на пианино. Он не знал, как играть в покер. Но внимательный лингвист скажет, что иногда глагол «играть» при глаголе «уметь» опускается и получается конструкция: «Ты в теннис не играешь, а я не умею в гольф». Вместо глагола «играть» используют существительное с предлогом «в».
Но внезапно в русском языке возникает совершенно новое: кто-то умеет во что-то, в смысле владеет, разбирается, способен применить. Он умеет в интегралы.
Первоначально размечали такое как молодежный сленг, а сейчас НКРЯ уже документирует эту конструкцию. Вот почему мы утверждаем, что корпус — средство мониторинга естественного языка. Ведь в нем с начала 2010-х годов стали фиксировать примеры из социальных сетей. Например, «как мало женщин умеют в комедию» (способны играть комедийные роли).
«Ребята, кто-нибудь умеет в мобильные сайты?» «А вы, однако, умеете в черный юмор» (сарказм).
Во множестве задокументированные примеры позволяют утверждать, что эти семантические изменения произошли. Так что современная лингвистика без корпусов уже невозможна, они поддерживают все виды лингвистических исследований, активно внедряются в технологию преподавания языка: описание языка средствами корпуса наиболее точно и объективно. То есть лингвистка приближается к стандартам точных наук.
В принципе, для всех языков мира нужны корпуса, но для языков России они уже делаются. Насколько это большая работа, присутствующим сообщил доктор филологических наук Андрей Кибрик (Институт языкознания РАН — ИЯз), готовясь к выступлению он насчитал в России 155 языков. Андрей Александрович даже продемонстрировал карту языкового разнообразия России. Сделал этот визуальный образ нашего Отечества картограф Юрий Поляков из ИЯз РАН.
— Но 155 языков не надо путать с диалектами и русским недавних мигрантов — это разные понятия. А еще среди этих 155 есть живые языки и есть «заснувшие».
В нашей стране существуют порядка 80 корпусов по языкам России. Список, — считает Андрей Кибрик, — наверняка не полный. Среди них можно выделить корпуса по большим языкам (часто имеющим статус титульных в республиках — бурятский, калмыцкий, чувашский, татарский, якутский и ряд других), а есть корпуса по малым языкам, еще зовущимся «бесписьменными».
Есть корпуса по диалектам, старающиеся охватить не язык целиком, а отразить его разновидности. Есть по региональным вариантам русского языка, корпуса устной речи и коммуникации лицом к лицу: жестовые русские языки глухих, использующие не звуковой, а визуальный канал общения.
А еще интересно: наши 155 языков уже разделены учеными по степени витальности: здоровые (массово используемые) и исчезающие. Но корпуса «уходящей натуры» очень даже нужны, ведь это — слепок уходящей культуры. Она тоже должна остаться в истории языков страны и планеты.
Об устройстве НКРЯ рассказала доктор филологических наук из ВШЭ Екатерина Рахилина. Этот корпус сегодня — более 2 миллиардов словоупотреблений, распределенных еще по подкорпусам: «классика», «проза», «поэзия», «кино».
Есть подкорпус «переводы» с параллелями для пар языков не только европейских, но и азиатских: русский — японский, русский — китайский, бурятский — китайский и т. д.
Есть подкорпус «исторический», а в нем — летописи и берестяные грамоты; есть даже «мультимедийный», где уже 6 миллионов словоупотреблений.
И каждый подкорпус — сочетание научных лингвистических достижений и компьютерных технологий. «Беспрецедентен корпус поэтический! — воскликнула Рахилина. — Такого больше нет в мире. 13 миллионов словоупотреблений. И весь уже размечен. Можно играть в буриме».
То есть в рамках НКРЯ создана компьютерно-лингвистическая платформа нового поколения — основа Национальной справочно-информационной системы по русскому языку.
Эта система отражает развитие русского языка за 1000 лет. Такого лингвисты не имели никогда. Сегодня, независимо от изменений орфографии и грамматики, сквозь столетия можно набрать слово, например, «память» и получить все примеры по нему, начиная с ХI века и по номера газеты «Коммерсант».
— У нас есть мечты и заделы на будущее, — призналась Екатерина Владимировна, — мы хотели бы расширять объемы исторических данных — это очень сложная работа по поиску, сканированию, распознаванию.
Кроме того, надо развивать технологию аннотации, т. е. глубокую тематическую, семантическую нейроразметку, она даст корпусу новые возможности. Имеет смысл наполнять корпуса детской речи; русского языка как неродного. То есть фиксировать, как по-русски говорят в Казахстане, Дагестане, Туркмении, и т. д. Необходимы cверки написания для разных задач.
О работе с корпусами в регионах на примере вепсского и карельского языков рассказала Ирма Муллонен, членкор РАН родом из Петрозаводска и состоявшаяся там как ученый-лингвист. Она привела цифры: носителей вепсского (малого языка) в стране меньше 3 тысяч, карельского — где-то 13 с небольшим.
Но сохранение их языков ведется путем оцифровки текстов, наполнения корпусов аудиозаписями. На 80% в корпусах применено автоматическое аннотирование, начато создание спелл-чекеров.
Цель есть — создание приложения для обучения языкам. Газеты на этих языках выходят, но проблема — финансирование работ и кадры, т. е. лингвисты — знатоки этих языков. Работа нужна для обучения национальной интеллигенции.
«Интерес к вепсскому и карельскому языкам есть и в Финляндии, там больше их носителей, чем у нас. Но корпуса карельского языка там нет. А у нас есть», — подчеркнула Ирма Ивановна.
По мнению ученых, НКРЯ имеет стратегическое значение для сохранения и документирования русского языка. Это хранилище русских текстов, золотой стандарт для сообщества русистов по всему миру.
И технологическая основа этого центрального ресурса мировой лингвистики находится в России. РАН может по праву гордиться НКРЯ. Он создан силами специалистов Института русского языка им. Виноградова РАН при участии других академических институтов, включая команду из Школы лингвистики ВШЭ, Воронежского госуниверситета и ряда других.
И все это в сотрудничестве с компанией «Яндекс». От нее на заседании президиума выступал кандидат математических наук Кирилл Медведев. Он рассказал, что уже 30 000 специалистов пользуются НКРЯ, быстро осваивая его непростые инструменты. Видно, что корпус стал нужен преподавателям вузов и школ, студентам.
Искусственный интеллект, активно подключаясь к работе с архивными материалами, накапливает умение работать в старой орфографии. В гонке нейросетей это тоже сыграло позитивную роль: наши нейросети учатся и на Национальном корпусе, помогая им в конкурентной борьбе.
Академик Александр Молдован отметил, что НКРЯ решает и лексикографические задачи, выявляя малоупотребительные и устаревающие слова.
Имеющаяся в НКРЯ разметка словоформ по датам их создания сделала Нацкорпус полигоном для изучения микроистории слов. Лингвистам известны сотни фундаментальных словарей разных видов, но их печатные издания сегодня уже не обеспечивают быстрое и полноценное получение информации в желаемой форме.
Нереально в поисках сведений перебирать сотни словарей, многие из которых мало или вовсе недоступны. Поэтому тренд соединения словарей с корпусом очень актуален.
ИЯз три года назад выступил с идеей Государственной информационной системы «Национальный словарный фонд». Была сформулирована задача собрать на единой информационной платформе материалы всех словарей русского языка и сделать их общедоступными. Ее поддержал Совет при Президенте РФ по русскому языку, для реализации программы были внесены поправки в государственные законы РФ.
Но словари отражают нормы 30-50-летней давности. Вот почему Национальный словарный фонд, который будет связан с НКРЯ, и будет пополняться базами данных по фразеологии, орфографии, этиологии, истории русского языка, ускорит работу над словарями и сделает НСФ более информативным.
Подводя итог: наша академическая лингвистика в высшей степени соответствует тем задачам, которые пред ней ставят общество и государство. И еще, с явным удовольствием заметил академик, нынешняя лингвистика образует симбиоз с математикой — теорией множеств, математической логикой, основами программирования и т. д.
Для лингвистов НКРЯ сегодня является тем, чем для физиков адронный коллайдер. Понятно, что такое устройство нуждается в постоянном развитии и требует специальной поддержки.
Выступающие то и дело поднимали тему поддержки работы НКРЯ. Успешность получения грантов от фондов стоит в зависимости от рейтингования публикаций в научных журналах.
Но эти публикации возникают только спустя ряд лет после разработки ресурса. А его мало создать — надо наполнить и отладить функционал.
Видимо, пора переводить поддержку на уровень госзадания — с этой просьбой лингвисты прямо обратились за поддержкой к руководству РАН. А академик-секретарь Отделения историко-филологических наук Николай Макаров, высоко оценив работу коллег, согласился, что продолжение этих исследований зависеть должно не от отдельных грантов, а стабильно поддерживаться в рамках государственного задания.
Доклады ученых не раз вызывали бурную реакцию зала. Запомнился ответ на реплику академика Роберта Нигматулина, считающего, что, коли система обрабатывает тексты, которые выходят в СМИ, то надо ждать беды.
«Тексты пишут журналисты, а какие они, мы знаем, — заявил Роберт Искандерович, — и в результате может появиться ерунда, что войдет в норму языка. Не явится ли это действие не очень образованных людей разрушающим?»
— Разговоры о порче языка возникают постоянно, — признал академик Вадимир Плунгян. — Но лингвисты относятся к этому спокойно: язык развивается, меняясь. Это его существенное свойство.
Так было, есть и будет всегда. Я бы не переоценивал роль отдельных носителей. Язык — очень большая сложная система, не зависящая от воли людей, которые им пользуются. Она сама себя регулирует.
Изменения языка не следует оценивать как порчу. Мы привыкли к сегодняшней норме, она в какой-то момент сложилась, а в какой-то — изменится. Наш русский язык XII века нам вообще практически непонятен.
Можем ли мы сказать, что с тех пор он испортился? Вряд ли. Кто-то в конце XXI века будет возмущаться: прекрасная конструкция «умеет в интегралы», и что же с ней современная молодежь делает?! А через сто лет непременно так будет. И лингвисты спокойно это зафиксируют в качестве предмета научных исследований.

Елизавета ПОНАРИНА
Фото: Алексей Александров/пресс-служба РАН

Нет комментариев