Посреди майских праздников, 6 мая, крупнейший новостной отраслевой портал Slator опубликовал обзорную заметку об отчете группы исследователей Google Research, значение которого отрасли еще предстоит осмыслить. Несмотря на вводящее в заблуждение название, эта заметка несомненно привлечет внимание отрасли, ну а мы постараемся это исследование предварительно прокомментировать применительно именно к практике нашей отрасли.

Статья сложная, а вопрос измерения качества перевода, как отмечается первым предложением статьи, очень непростой, но мы попытаемся быть очень краткими.

WMT - конференция по машинному переводу, на которой обсуждаются результаты заданий ("shared tasks"), которые каждый год ставит перед исследователями оргкомитет. Одно из заданий - разработка автоматических метрик оценки качества перевода. Автоматические метрики нужны для того, чтобы оценивать качество машинного перевода при работе над моделями NMT, при разработке которых качество МП нужно уметь оценивать программно и мгновенно, не говоря уже о том, что оценка качества человеком стоила бы очень дорого.

Идея упражнения на оценку метрики такова: берется выдача машинного перевода, берется человеческий перевод, производится оценка качества человеком и затем исследователи пытаются построить метрику, которая бы лучше коррелировала с т.н. человеческой оценкой.

Звучит разумно, не правда ли? Но, как всегда, дьявол кроется в "мелочах". А "мелочь" такова, что когда мы осознали, как формируются эти "человеческие оценки", мы пришли в изумление. Дело в том, что все эти годы "человеческая" оценка качества формировалась... толпой случайных "работников" с Mechanical Turk. Т.е., просто буквально кто попало - не то, что не профессиональные переводчики, а вообще буквально кто попало - получали на Интернете переводы и ставили им "оценку" в интервале от 0 до 100 баллов.

Ну с чем можно сравнить подобный метод - разве что с лечением болезни путем обращения за советом к первому встречному, или попыткой получить юридическую консультацию на базаре.

Поразительная вещь - еще много лет назад нам приходилось доказывать крупным заказчикам, что для оценки перевода нужны тщательно разработанные метрики и обученные лингвисты, что даже обычный переводчик не может дать достоверную оценку качества, если он не прошел минимальное обучение по теме контроля качества. Но идея оказалась поразительно живучей и в течение многих лет вся отрасль вынуждена была терпеть оценки, полученные на абсолютно неверном подходе.

В обсуждаемой статье Google Research под названием "Experts, Errors, and Context: A Large-Scale Study of Human Evaluation for Machine Translation" впервые написано то, о чем специалисты в области перевода говорили последнее время неоднократно: "there is increasing evidence that inadequate evaluation procedures can lead to erroneous conclusions".

Кажется, в комнате есть слон, ага. Мы рады, что вы его наконец заметили!

Что же сделали и что обнаружили исследователи Google Research?

Сделали они то, что давно надо было сделать: применить то, что отрасль перевода и локализации выработала на последние годы, а именно типологию MQM (Multidimensional Quality Metrics) и разработать на ее основе метрику оценки качества машинного перевода, которую и использовать как "платиновый стандарт" оценка качества.

Т.е., специалисты Google Research наконец взяли типологию MQM, построили некое подмножество категорий ошибок и заказали профессиональным лингвистам аннотирование переводов по выбранному набору категорий и "тяжести" ошибок (severity levels).

Получили "эталонную" оценку качества перевода.

После этого они попросили две группы испытуемых, набранных случайно (crowdsourced) и профессиональных лингвистов, по этой метрике отрейтинговать переводы.

Полученные результаты показали, что:

  1. Результаты оценки качества перевода старым способом (толпа с Mechanical Turk) очень слабо коррелируют с оценкой MQM (проще говоря - никуда не годятся).
  2. Даже автоматические метрики, построенные на эмбеддингах, дают результат лучше.
  3. Объясняется это тем, что crowdsourced ratings не дают адекватной оценки качества перевода "Our results support the assumption that crowd-workers are biased to prefer literal, easy-to-rate translations and rank Human-P low". (Проще говоря, чтобы оценить хорош перевод или плох, надо хоть что-то понимать в языке и том, о чем, собственно, текст.)
  4. Разрыв качества между MT и человеческим переводом все еще велик. "The gap between human translations and MT is even more visible when looking at the MQM ratings which sets the human translations first by a large margin, demonstrating that the quality difference between MT and human translation is still large.", "Unlike ratings acquired by crowd-worker and ratings acquired by professional translators on simpler human evaluation methodologies, MQM labels acquired with professional translators show a large gap between the quality of human and machine generated translations. This demonstrates that MT is still far from human parity."

Иными словами, пока качество машинного перевода было совсем никуда не годным, даже оценка "работников" с Mechanical Turk была полезна; но поскольку качество МП улучшилось, то она только вводит в заблуждение, приводя к неверным выводам: "due to expedience, human evaluation of MT is frequently carried out on isolated sentences by inexperienced raters with the aim of assigning a single score or ranking. When MT quality is poor, this can provide a useful signal; but as quality improves, there is a risk that the signal will become lost in rater noise or bias. Recent papers have argued that poor human evaluation practices have led to misleading results."

Среди неверных выводов перечислены неверные оценки некоторых моделей машинного перевода, которые будучи переоценены, получили намного лучшие оценки. Просто раньше неправильный подход к оценке качества принижал их качество.

А мы еще заметили в отрасли заявления о том, что «наши оценщики вслепую выбирали скорее машинный перевод, чем человеческий», «машинный перевод дает качество на уровне человеческого», «ну и что, что машинный перевод хуже человеческого, привыкнут», «а им и так нравится» и прочие неверные и не полезные утверждения, которые объясняются непониманием целого ряда вещей, очевидных и интуитивно понятных специалистам в области перевода и локализации, профессиональным лингвистам, пользователям и грамотным заказчикам.

Спасибо ребятам из Google Research, за это исследование и эту статью, которая наконец признает и демонстрирует то, что вся отрасль перевода была вынуждена выслушивать в оглушительном хоре хайпующих так, что и возразить-то было сложно.

Итак, еще раз:

  1. До human parity еще далеко - машинный перевод сильно отличается от профессионального человеческого, несмотря на то, что переводы некоторых текстов общей лексики поражают своим качеством. Чем это вызвано можно прочитать в статье "ЧТО СКРЫВАЕТ «ИИ»: ОН ПОВСЮДУ ВОКРУГ НАС — НО СУЩЕСТВУЕТ ЛИ ОН ВООБЩЕ?".
  2. Автоматическую метрику оценки качества перевода еще предстоит разработать.
  3. Профессиональный перевод - это вам не лобио кушать.

Приятного изучения перечисленных материалов и осмысления "вновь открывшихся" фактов!

11 мая 2021

Узнать больше

Ваш запрос отправлен, спасибо!
Что-то пошло не так, Ваши данные не были отправлены, попробуйте позже.

Для правильного заполнения данной формы отключите, пожалуйста, на этом сайте блокировщики рекламы типа Adblock

Необходимо подтвердить согласие