Пушкин — сын крепостных? У ИИ столько достоинств, что порой он может и ошибиться

«Александр Сергеевич Пушкин родился в 1799 году. Его отец был крепостным крестьянином, а мать — крепостной крестьянкой. Детство и юность Пушкина прошли в деревне Михайловское под Петербургом»…
Не спешите ругать автора сенсационного открытия. «Да и виноват ли он?!» — заступается за искусственный интеллект (ИИ) и. о. заведующей кафедры алгоритмических языков факультета вычислительной математики и кибернетики МГУ профессор Наталья ЛУКАШЕВИЧ.
В прошлом году она удостоилась высшей награды Московского университета премии и медали первой степени им. М.В.Ломоносова за цикл работ «Создание систем искусственного интеллекта для анализа текстов на русском языке». Уже несколько десятилетий Наталья Валентиновна разрабатывает модели искусственного интеллекта.
— К Пушкину, конечно, мы обязательно вернемся и объясним, почему ИИ так странно обошелся с биографией великого поэта. Но сначала о нашей работе.
В основном мы имеем дело с нехудожественными текстами так называемой деловой прозы: публикациями средств массовой информации, законодательными актами, а также «продукцией» социальных сетей.
И извлекаем из них всевозможные важные сведения: об отдельных личностях и организациях, об отношениях между ними и их оценках, а также уйме событий, включая появление различных заболеваний и компьютерных вирусов. Весь этот массив, насчитывающий миллионы страниц, сначала надо классифицировать, чтобы облегчить поиск нуждающимся в информации. Подсказать, где можно взять то, что их интересует, в частности, все касающееся сути событий или изменений, их вызвавших. И делать это необходимо, ведь речь идет о миллионах текстов, скапливающихся чуть ли не ежедневно.
Неудивительно, что современные поисковые системы постоянно обрабатывают тысячи новостных источников, — так велик спрос на информацию. И справиться с этой сложнейшей задачей без помощи искусственного интеллекта практически невозможно.
— Но и это не все трудности, с которыми ему приходится сталкиваться?
— Безусловно, ведь дело не столько в гигантских объемах текстов, сколько в постоянных переменах в языке: многозначности слов, появлении в них дополнительных смыслов и значений и, как следствие, возникновении всевозможных интерпретаций.
Пример. В начале 2000-х годов (после более 30 лет развития) ИИ переводил с русского на английский вроде бы простую по смыслу фразу: «В 1999 году в ФРГ переехало 395 тысяч этнических немцев». Но ИИ по-своему уловил смысл и получилось: все эти люди были задавлены автомобилями. А дело в переводе глагола «переехали». (Справедливости ради, и иностранцу, изучающему русский, потребовались бы дополнительные консультации.)
И какими бы совершенными ни были выработанные математиками алгоритмы, они не в состоянии предусмотреть многозначность слова «переехать». Как и сделать понятными ИИ порой встречающиеся в текстах иронию и сарказм. У алгоритмов просто нет возможности учесть все тонкости человеческого языка.
На помощь специалистам пришло машинное обучение, а позже и нейронные сети. Теперь математики не пишут алгоритмы решения задачи, а дают ИИ многочисленные примеры возможного результата, который рассчитывают получить при переводе конкретного текста.
Затем математическими методами машинного обучения выявляют его закономерности. Скажем, для машинного перевода они создают так называемые параллельные корпуса, которые содержат и текст, и его перевод.
В результате современный перевод злополучной фразы с помощью переводчика, обученного на параллельных корпусах, стал правильным: In 1999, 395 thousand ethnic Germans moved to Germany («В 1999 году 395 тысяч этнических немцев переехали в Германию»).
Еще один скачок в качестве обработки текстов произошел в 2018 году, когда благодаря нейронным сетям появилась возможность обучать ИИ на миллионах доступных текстов Интернета.
Теперь нейронная сеть обучается предсказывать следующее слово или восстанавливать пропущенные, постепенно улучшая свои предсказания, и получает все больше информации о структуре языка и знания о мире.
Так появились большие языковые модели. Как и людей, их можно обучать, давая задания: «ответь на заданный вопрос» («как ответить на следующий вопрос») или «подбери ответ на заданный вопрос» — так модель постепенно учится правильно отвечать.
Сегодня ИИ может решать разные задачи — не только переводить текст, но и его анализировать. Так, известная нейросетевая модель ChatGPT, прорабатывая комментарии критиков, пришла к выводу: Чак Берри оказал огромное влияние на The Beatles и что без него «Жуки» не могли бы существовать.
— Понятно, что задания ИИ не стоит давать с помощью одних алгоритмов, рассчитывая на его самообучаемость. Он не может мыслить, но благодаря обработке огромных объемов информации в состоянии подсказывать последовательность слов и учиться на конкретных примерах. Потому и решает различные задачи. Но стоит ли предпринимать такие огромные усилия, например, при переводе, не проще ли делать это по старинке вручную?
— Когда речь идет о переводе прозаического художественного произведения и поэзии, то лучше, безусловно, их сделает профессиональный переводчик. Как и перевод узкоспециальных текстов, где недостаточно примеров.
Но в других случаях базовый перевод, конечно, с последующей минимальной правкой, вполне можно доверить ИИ. Ведь обученный для решения различных задач, он справляется с заданиями, которым раньше его даже не учили.
— Специалисты уверяют, что ИИ склонен к галлюцинациям. Как это понимать?
— Применительно к ИИ это нужно воспринимать не так, как мы привыкли. Предположим, у нас есть новостная тема: в городе N в присутствии местных руководителей и гостей открыли новую школу. Нужно составить аннотацию к этому событию.
У журналистов на это нет ни времени, ни желания, и они перекладывают задачу на плечи ИИ. А поскольку в его памяти фамилии миллионов людей, он может слегка напутать, указать не тех реальных людей, которые присутствовали на открытии, а совсем других или, скажем, привести лишние цифры.
Сегодня ИИ не застрахован от пока необъяснимых ошибок. И «новость» о происхождении Пушкина в изложении ИИ — еще один пример галлюцинации. Он «перекроил» биографию поэта потому, что в память ИИ заложили массу литературы и документов, относящихся к XIX веку, в частности, о крепостном праве. Вот он и допустил неточность.
А итог такой: в результате долгих поисков удалось разработать метод обучения искусственного интеллекта, позволяющий ему создавать и переводить на разные языки массу текстов, обрабатывать их и классифицировать, делать аннотации — выполнять множество самых разных операций.
А что касается ошибок, то их постепенно будет все меньше. Не забывайте, ИИ еще только учится, но пройдет совсем немного времени, и он станет нашим бесценным помощником или, скажем иначе, безотказно нам служащим совершенным универсальным инструментом.

Юрий ДРИЗЕ

Нет комментариев