С технологией машинного обучения, так же как с ядерной энергией, следует обращаться с осторожностью, и для ее применения обязательно должны быть предоставлены инструкции.

Величайший фокус, который ИИ удалось провернуть, состоит в том, что ему удалось убедить мир в своем существовании.
MIT Technology Review1


8 декабря 2020 г., Сергей Гладков

В середине прошлого века человечество открыло ядерную энергию. Люди радостно ухватились за возможность создания бомбы и строительства атомных электростанций, несмотря на недостаток серьезных исследований и глубокого понимания последствий — и природа этого явления преподнесла нам крайне тяжелые уроки. Сегодня мы оказались в аналогичной ситуации по отношению к искусственному интеллекту. Мы начали использовать ИИ до того, как сумели разобраться в том, что это такое и каковы последствия применения этой технологии, какую цену придется заплатить за ее использование и как ее правильно внедрять. Попытаемся реалистично взглянуть на то, с чем мы имеем дело и как с этим следует обращаться.

Обзор алгоритмов машинного обучения и их фундаментальных свойств

Вкратце рассмотрим основные идеи, на которых основаны современные системы нейронного машинного перевода (НМП).

В 2013 году чешский аспирант Томаш Миколов (Tomas Mikolov) изобрел алгоритм векторного представления слов (названный эмбеддингом) для преобразования слов в векторы из 512 чисел, представляющих вероятность встречи заданного слова в разных контекстах (отсюда не одно значение вероятности, а вектор эмбеддинга большой размерности) в очень большом корпусе текстов. Этот алгоритм получил название word2vec.

Удивительно, но эмбеддинги (векторы), созданные алгоритмом word2vec, демонстрировали определенные «семантические» свойства закодированных слов, как если бы они несли какую-либо информацию об их «значениях». В классическом примере эмбеддинг слова «мужчина» относился к эмбеддингу слова «женщина» примерно так же, как эмбеддинг слова «дядя» относился к эмбеддингу слова «тетя» — и более того, это свойство переносилось на результаты линейно-алгебраических операций с вложениями: например, слово «королева» как вектор в многомерном пространстве был близок к результату матричного вычитания эмбеддингов слова «мужчина» и слова «король».

Для практических целей переводоведения важно понимать, что алгоритм построения эмбеддингов не производит семантического анализа слов, а «только» статистически фиксирует «семантику» в той мере, в которой она отражена в различных словоприменениях в текстах данного конкретного учебного корпуса. В определенном смысле этот метод позволяет улавливать следы смысла слов через их использование, но не сам смысл. (Представьте себе следы зайца на снегу. Скорее всего, по следам вы сможете получить представление о некоторых особенностях поведения животного, но ничего не узнаете об анатомии зайца и даже как он выглядит, — хотя сможете понять, что это небольшое животное с длинными задними и короткими передними лапами.)

Что же на самом деле удается зафиксировать при помощи эмбеддингов? Это не просто абстрактные философские рассуждения: этот вопрос напрямую связан с практическим применением машинного перевода. Действительно, при построении эмбеддингов фиксируются определенные аспекты, коррелирующие со «смыслом» посредством использования слов из учебного корпуса.

Современные алгоритмы машинного обучения на удивление эффективно улавливают особенности словоупотребления. Другие сложные методы были созданы для работы с эмбеддингами на последующих слоях энкодера, включая алгоритм «множественного внимания» (multi-head attention). Он предназначен для рассмотрения других слов в предложении, чтобы точнее кодировать слово, находящееся в определенном месте предложения. Для этого восемь «потоков анализа» оценивают каждое слово во входном предложении и в их связи со словом, которое требуется перевести.

Эти изобретательные (и другие, менее эффектные) алгоритмы позволили создать настоящее чудо сегодняшнего дня: современный машинный перевод нередко выглядит как достаточно гладкий текст, который буквально завораживает своей осмысленностью.

Тем не менее очень важно отметить следующие ключевые аспекты технологии машинного обучения:

  1. Для обучения одной модели требуются большие объемы данных — огромное количество текста, электроэнергии и вычислительных ресурсов. Обучение модели BERT требует нескольких часов, а для модели GPT-3 (с 7,5 миллиардами параметров, что в пять раз больше, чем у GPT-2) требуется 500 лет обучения на графическом процессоре Nvidia V100. Модель GPT-3 прошла обучение на суперкомпьютере и на самом большом корпусе текстов, который только можно было найти.
  2. Обученная модель представляет собой фиксированную коллекцию следов словоупотребления, взятых из конкретного корпуса — огромной «сборной солянки». Поэтому, учитывая саму природу языка (а важнейшие свойства человеческого языка — многозначность и двусмысленность), она эффективнее работает с наиболее часто употребляемыми словами и намного хуже справляется с редкими словами и их значениями, включая терминологию2.
  3. Алгоритм машинного перевода прогоняет исходные предложения через предварительно обученную модель, получая на выходе перевод, который во многих случаях гладко читается, при условии, что исходное предложение было правильно построено.

Если «все планеты расположились правильно» (выполнены все необходимые условия), то все это обеспечивает на выходе то самое чудо в виде по большей части грамматически правильных предложений. Невозможно устоять перед искушением воспользоваться всем этим, но что происходит на практике?

Переходим к практическим аспектам внедрения технологии

Несколько суровых фактов о текущем состоянии машинного перевода:

  1. Алгоритм МП анализирует исходный текст для перевода по одному предложению за раз. При этом он никак НЕ анализируют ни предыдущие, ни последующие предложения, не говоря уже о более широком контексте абзаца, документа и предметной области в целом.
  2. МП работает только с лингвистической формой данных, а не со смыслом, — но правильная лингвистическая форма сама по себе не гарантирует передачу смысла. Статистически переведенное предложение намного реже оказывается точным, нежели лингвистически правильным (иными словами, внешне хорошо выглядящие предложения часто скрывают грубые ошибки). Поэтому постредактору приходится проверять передачу смысла всего текста, полученного с помощью машинного перевода, внимательно читая все подряд, без исключения, предложения на выходе алгоритма МП — и исходник, и машинную выдачу. «Он не способен рассуждать. Он не понимает тех фраз, которые он генерирует...»3. Даже самая большая и самая продвинутая модель не имеет представления о том, что выдает: «GPT-3 ненадежна и способна совершать глупейшие ошибки, каких обычный человек никогда бы не допустил».
  3. Из-за ограниченности вычислительных возможностей не следует ждать от сегодняшней технологии значительного улучшения качества — это невозможно без применения совершенно новых подходов, которые смогут преодолеть этот барьер (модель GPT-3 уже обучена на суперкомпьютере при помощи всех лингвистических данных, которые только можно было найти).
  4. Нейронный машинный перевод предлагает статистически наиболее частые варианты использования, — и, в силу природы алгоритма, результат машинного перевода всегда формален (увы, это суровая правда для сторонников «достаточно хорошего» перевода).

Практическая сторона современных алгоритмов НМП выглядит следующим образом:

  1. Выдача НМП читается лучше, чем перевод очень плохого переводчика, и это часто нас обманывает. Мы читаем выдачу и говорим: «Как чудесно! Это очень хороший перевод. Я все понимаю!» Разумеется, это так, однако менее очевидно то, что правильная грамматика выдачи МП скрывает серьезные ошибки в передаче смысла, и найти эти ошибки труднее, чем было бы в случае «корявого текста».
  2. НМП не способен понимать и применять терминологию. Это невозможно в силу самого принципа его работы. Алгоритм Transformer4 представляет собой черный ящик, поэтому сам алгоритм нельзя подкорректировать для конкретной области применения, можно только поставить пред- и постпроцессор, что крайне сложно и трудоемко. Для одного и того же термина в двух идущих подряд приложениях НМП может применить два разных синонима. Весь выданный НМП текст необходимо проверять на единство терминологии, на синонимы.
  3. Терминологию все равно необходимо отслеживать отдельно, так как важность терминов не коррелирует с частотой их использования (вот почему все терминологические экстракторы, основанные на частоте употребления слов, настолько плохи). Очень важный термин может встретиться в корпусе несколько раз — но он, скорее всего, будет отсутствовать в общедоступном учебном корпусе.
  4. Очень глубокая настройка предварительно обученной модели невозможна. Модель НМП, обученную для конкретной цели, нельзя «перетренировывать» при помощи повторного обучения в попытке научить модель слишком многому, она теряет устойчивость. Качество машинного перевода быстро упадет до уровня «мусора».
  5. Выдача алгоритма НМП является буквальной. Он переводит текст слово в слово, потому что именно так он устроен. К сожалению, выражения, используемые в технической документации на разных языках, зачастую невозможно буквально перевести из одного в другое. Часто такие буквальные «переводы» оказываются «ложными друзьями» переводчика, будь то человек или машина. Большинство подобных случаев можно распознать, только проанализировав реальный смысл того, о чем говорится в источнике, в отличие от формы слова, используемого в корпусе, и в этом случае как раз НЕ следует использовать буквальный перевод.

Многие клиенты польстились на шумиху вокруг НМП. Одни пытаются использовать НМП в качестве основного инструмента перевода, отводя базе переводов (ТМ) только роль источника корпуса для начального обучения машины. Другие применяют гибридную методику ТМ+МП, когда, например, предварительно переведенный контент в виде 100-процентных совпадений обозначен желтым цветом с блокировкой, частичные совпадения свыше 75 % обозначены желтым, а синий цвет (АП, автоматический перевод) используется для новых предложений исходного текста, для которых в переводческой базе данных не нашлось совпадений. При применении «улучшенного традиционного подхода» считается, что переводчик вообще не должен проверять стопроцентные совпадения. Ему предписывается редактировать частичные совпадения с высоким уровнем соответствия и автоматический перевод (выдачу НМП), который предлагается для новых предложений и частичных совпадений с низким уровнем соответствия.

Подобный подход выглядит разумным в идеальной ситуации... которая в реальности никогда не наблюдается. Увы, последствия использования НМП уже очевидны, и на практике переводчикам теперь приходится иметь дело с постредактированием и ранее отредактированной выдачей НМП:

  1. Как говорится, «лень раньше нас родилась» (она определенно возникла до появления человечества). «Гладкий текст» затрудняет поиск существенных и критических ошибок в передаче смысла, кроющихся почти в каждом предложении машинного перевода, являющегося, увы, просто-напросто подстрочником. Хорошими редакторами оказываются только высококвалифицированные переводчики, а менее компетентные специалисты не особенно стремятся к «шлифовке» буквального перевода, и, что хуже всего, — даже не понимают необходимости сверки исходного текста и перевода, чтобы убедиться в его точности. Постредактирование ошибочно рассматривается как занятие, не требующее особых навыков, и неквалифицированные постредакторы пропускают большое количество самых разных ошибок. В результате множество неправильных переводов попадает в окончательный вариант текста, а затем — в общую базу переводов.
  2. Алгоритм МП по самому принципу своей работы не способен понимать терминологию. Таким образом, при редактировании НМП всегда важно проверять и исправлять терминологию.
  3. Необходимость проверять все подряд автоматические переводы и одновременно с этим просматривать исходный текст делает этот процесс крайне утомительным.
  4. Для того чтобы исправить буквальные переводы, требуются дополнительные усилия, — и еще сложнее выявить те фразы, где буквальный перевод искажает или скрывает смысл сказанного.

Последствия рекламной шумихи

Насколько велико повышение производительности в результате постредактирования по сравнению с переводом с нуля, особенно с учетом новых предложений и частичных неточных, «плохих» совпадений? Можно ли вообще говорить о повышении производительности, если для устранения недостатков перевода над ним должны поработать два человека?

Да, просмотр и редактирование при правильном подходе оказываются быстрее, чем перевод с нуля, — однако за скорость приходится платить. Уже сейчас мы видим базы переводов, загрязненные прошлыми неотредактированными машинными переводами и пропущенными ошибками перевода. Подобные базы переводов производят удручающее впечатление. Они похожи на горы мусора.

В результате значительно снижается качество лингвистических активов компании. Подобные загрязненные ТМ не подходят для дальнейшего обучения систем машинного перевода, и в конечном итоге такая «выродившаяся» база знаний оказывается немногим лучше переводов случайных исполнителей с биржи фрилансеров.

Последствия этого печальны:

  1. Снижение качества неизбежно без принятия дополнительных мер, а ошибки быстро проникают в финальные переводы.
  2. При использовании НМП абсолютно все предложения автоматического перевода подлежат анализу, поскольку в выдаче НМП могут быть (и будут!) ошибки В КАЖДОМ ПРЕДЛОЖЕНИИ. Вместо экономии на 100-процентных совпадениях нам придется рецензировать 100 % объема НМП для проверки точности передачи смысла.
  3. Вырождение корпуса ТМ происходит очень быстро. Когда это окончательно случится, преимущества процессов перевода на основе МП уйдут в небытие (см. еще раз пункт B).
  4. Необходимость работы с терминологией растет, что приводит к повышению расходов на создание, поддержку и проверку терминологической базы.
  5. Качественная ТМ требует индивидуального обучения и обслуживания, что влечет дополнительные затраты.
  6. Рост производительности оказывается сильно преувеличенным, а в некоторых случаях полностью нивелируется вышеперечисленными факторами А, B, C и D.

Шумиха, связанная с искусственным интеллектом, скрывает тот факт, что современный НМП не является «интеллектом» — искусственным или каким-либо иным. Он не анализирует и не обрабатывает смысл текста. НМП представляет собой серию линейных алгебраических преобразований употребления слов в рамках выученного корпуса текстов. Обрабатывается форма, но не смысл. Хуже того, когда профессиональные лингвисты пытаются указать на эти фундаментальные проблемы, на них навешивают ярлыки ретроградов, вставших на пути прогресса. И вот, шумиха уже овладела умами обитателей самых высоких кабинетов: достигнута точка невозврата с потенциально серьезными последствиями.

В практической работе мы видим, как быстро ухудшается качество корпоративных баз переводов из-за ошибок при постредактировании в части передачи смысла, терминологии и грамматики, проникающих сначала в «одобренные» переводы, а затем в общие базы переводов. На фоне ажиотажа, вызванного переоценкой значимости МП и занижением ценности профессиональных переводчиков, в бюджеты уже заложены нереалистичные целевые параметры экономии затрат, и отказаться от них сейчас практически невозможно.

Увы, разумный и даже чудесный, но определенно не «интеллектуальный» машинный перевод придется ограничить, чтобы вернуть процесс перевода в управляемое состояние с надежными результатами. В реальности люди намного более искусны и бесконечно более умны, чем фокусы линейной алгебры, превращающие живой текст в пустошь с «минными полями» бесчисленных ошибок.

Мы — люди — должны ценить себя выше!

Влияние машинного перевода на работу переводчика и услуги профессионального перевода

Несмотря на то, что машинный перевод в настоящее время широко используется, вышеупомянутые факты и последствия стимулируют исследователей к дальнейшему изучению постредактирования как вида деятельности и более рациональному анализу последствий его применения.

Недавно, в октябре 2020 года, Феликс до Кармо (Felix do Carmo) и Джосс Моркенс (Joss Moorkens) в своей статье предложили более реалистичный взгляд на постредактирование как на перевод с другими исходными данными5.

Авторы ставят под вопрос нынешнее представление о постредактировании как о низкозатратной и не требующей высокой квалификации задаче корректуры, утверждая, что добавление МП в рабочие процессы перевода требует еще большей специализации со стороны переводчиков.

Как показывает наш практический опыт, чтобы соответствовать требованиям потребителей к качеству перевода, нам необходимо уделять максимум внимания передаче смысла, терминологии, а также грамматике и стилю языка. Это определенно задачи более высокого порядка, чем перестановка слов, поскольку они необходимы для получения приемлемых, хороших результатов постредактирования.

Недавние исследования, а также опыт крупнейших заказчиков услуг перевода, таких как Европейский союз, указывают на то, что использование НМП в среде CAT-инструментария может оказаться более эффективным, чем рабочий процесс на основе только МП с традиционным постредактированием.

Специалистам-практикам также очевидно, что роль профессионального переводчика никоим образом не упраздняется. Напротив, она стала более сложной, но и более продуктивной.

Чтобы точнее определить особенности применения МП на практике, необходимы углубленные прикладные исследования. Подобно тому, как ученые пятидесятых годов обнаружили, что нам необходимо бережно обращаться с радиоактивными материалами, чтобы избежать серьезных проблем со здоровьем, в ситуации с машинным переводом мы сталкиваемся с еще более масштабным вызовом. То, о чем мы сейчас говорим, затрагивает все, что присуще человечеству: общение, науку, смысл и знания, — иными словами, все то, что делает нас разумными существами.

____________________
1 https://www.technologyreview.com/2020/07/20/1005454/openai-machine-learning-language-generator-gpt-3-nlp/.
2 Под терминологией понимаются редкие слова и словосочетания, в зависимости от частоты их встречаемости.
3 GPT-3 потрясает — и его сильно переоценивают (GPT-3 is Amazing – And Overhyped) Forbes: https://www.forbes.com/sites/robtoews/2020/07/19/gpt-3-is-amazingand-overhyped/?sh=e2be0c71b1cb.
4 Transformer, модель глубокого обучения, предложенная в 2017 году, используется главным образом в области обработки естественного языка (NLP). Как и в случае с рекуррентными нейронными сетями (RNN), так называемые «трансформеры» предназначены для обработки последовательных данных, таких как текст на естественном языке, для задач, связанных с переводом и реферированием текста.

13 января 2021

Узнать больше

Ваш запрос отправлен, спасибо!
Что-то пошло не так, Ваши данные не были отправлены, попробуйте позже.

Для правильного заполнения данной формы отключите, пожалуйста, на этом сайте блокировщики рекламы типа Adblock

Необходимо подтвердить согласие