Сергей Гладков, генеральный директор, группа компаний «Логрус Глобал»

Сегодня мы предлагаем вашему вниманию перевод на русский язык работы Антонио Тораля, профессора университета Кронинген, под названием «Постредактизм – это ухудшенный переводизм».

Восемнадцать лет назад в журнале Multilingual Computing and Technology была опубликована моя статья «Translation Is About People. A look at integrating automatic translation into the localization process». До сих пор я получаю отзывы о том, что высказанные в этой статье мысли во многом актуальны и сегодня.

Однако, в полном соответствии с предсказаниями Рэя Курцвейля, которые мы недавно сделали доступными русскоязычной аудитории в нашей программе «Окно в будущее» (https://www.youtube.com/watch?v=-vd1B2AaiwM&t=803s), успехи нейросетей и методик их глубокого обучения серьезно изменили ситуацию и в области профессиональных переводов. Если в течение 60 лет с появления компьютеров машинный перевод оставался мечтой, которая не годилась для реального применения, то сегодня системы машинного перевода на основе нейросетей выдают результат лучше, чем плохой переводчик.

Этот реальный прогресс сопровождается мифами, которые укореняют в общественном сознании ложные представления о том, что же предлагает нам технология нейросетей глубокого обучения. Они не позволяют разглядеть границы применения этой технологии и мешают осознать ее ограничения.

Специалисты компании Логрус Глобал давно следят за технологиями машинного перевода и тщательно изучают их практическую применимость.

Перечислим основное, что надо знать о технологии машинного перевода и её применимости.

Нейросеть глубокого обучения – это НЕ «Искусственный Интеллект»

Очень важно видеть основное различие между ИИ и машинным переводом. Оно заключается в том, что нейросеть не понимает, что она анализирует. А это означает, что как бы ни был гладок полученный текст (а нейросети выдают существенно более гладкий текст, чем все системы предыдущих поколений), он требует сплошной вычитки на предмет точности передачи мыслей исходного текста.Потому, что в нем есть фактические ошибки – и их, увы, теперь только труднее обнаружить.

Прямое следствие этого факта заключается в том, что если вы хотите получить гарантированно точный перевод, то всю выдачу в любом случае должен прочитать человек, роль которого – верифицировать суть, подтвердить, что смысл передан правильно.

Важно, на чем натренирована нейросеть, и очень важна терминология

Нейросети общего применения – такие как Google Translate, Bing Translator или Яндекс Переводчик, натренированы на общей лексике. Это означает, что они лучше справляются со всеми типами контента, которые изобилуют в Интернете – новостями, юридической и финансовой лексикой общего назначения (не специализированной). Но, как только речь заходит о сложной технической или специальной предметной области, механизм машинного перевода пасует, потому что в открытом доступе находится ничтожно мало специальной профессиональной терминологии либо она отсутствует по причине новизны. Когда выходит новый медицинский препарат или новое устройство, специалисты придумывают ему названия, которых раньше не существовало (либо используемые слова имели другое значение).. Специально обученная на данных определенной компании нейросеть лучше справится с терминологией, принятой в конкретной отрасли конкретной компанией, но новые термины она за переводчика не выдумает. Поэтому терминология – а главное, специальные отраслевые знания – приобретает исключительную важность.

Даже если человек отредактировал машинную выдачу, результат все равно будет существенно хуже, чем профессиональный перевод человеком «с нуля»

Бытует мнение, что если отредактировать машинный перевод, то можно добиться приемлемого качества.

Это отчасти верно, но это мнение лукаво, потому что тут используется слово «приемлемое». Что такое «приемлемое»? Устроит ли вас материал, качество которого заведомо хуже, чем у перевода профессиональным переводчиком, пусть в нем и нет фактических ошибок (подчеркнем это) на уровне предложений?

До недавнего времени по этому вопросу не существовало обоснованного доказательства того, о чем давно говорили профессионалы в области перевода.

Однако этим летом появилась работа профессора Тораля из университета Кронинген, в которой на основе понятных и четко описанных вычислительных экспериментов показаны результаты анализа параметров, относящихся ко всему тексту в целом, подтверждающих все утверждения теоретиков в области перевода.

Можно сказать, что эта работа сопрягает вычислительную лингвистику с классической, впервые показывая, чем конкретно отличаются переводы, созданные человеком, от выдачи механизма машинного перевода, причем постредактированной.

Чтобы не быть голословными, мы приводим перевод на русский язык отчета профессора Тораля о проделанной работе. (Мы сделали и публикуем этот перевод с разрешения профессора и отметим, что публиковать этот материал без нашего разрешения нельзя.)

Если сформулировать выводы этого исследования в одном предложении, то доказано, что постредактированный человеком же машинный перевод имеет упрощенный язык, более нормализован и буквален, чем перевод человеком.

Заметим, что выводы профессора Тораля основаны на анализе достаточно общих и примитивных количественных параметров всего текста в целом – лексического разнообразия, лексической плотности и анализа последовательности частей речи. Это достаточно грубые параметры измерения качества перевода. За кадром осталось то, что видит любой носитель языка, но что пока трудно измерить численно: единообразие различных фрагментов перевода, стройность использования и применения терминологии, стиль изложения и прочие очень важные вещи, например, степень фактического воздействия на целевую аудиторию.

Даже в общей лексике в области маркетинговых переводов совершенно недостаточно просто правильно перевести. Очень важно воздействие на аудиторию, так что затраты на постредактирование машинного перевода маркетингового текста, как правило, приносят не экономию, а полный убыток, ибо не достигают сознания целевой аудитории и, следовательно, уходят впустую. (Про это сказал еще Джон Раскин: «Неразумно платить слишком много, но еще хуже платить слишком мало. Когда платишь слишком много, теряешь немного денег. Когда же платишь слишком мало, иногда теряешь всю сумму, потому что купленное не работает вовсе.»)

Обо всем этом и многом другом мы постараемся рассказать в последующих материалах, следите за нашими публикациями.

В заключение мы приглашаем обращаться к специалистам компании «Логрус Глобал» за квалифицированными экспертными ответами на такие вопросы:

  • Можем ли мы воспользоваться машинным переводом для сокращения сроков и стоимости перевода? Если да, как это лучше сделать?
  • Как лучше использовать накопившиеся у нас материалы прошлых переводов для обучения нашего собственного механизма МП?
  • Как лучше подготовить имеющиеся у нас корпуса машинного перевода для обучения нашего собственного специализированного механизма МП?
  • Где границы применимости современной технологии глубокого обучения нейросетей? Как мы можем ею практически воспользоваться?

11 ноября 2019

Узнать больше

Ваш запрос отправлен, спасибо!
Что-то пошло не так, Ваши данные не были отправлены, попробуйте позже.

Для правильного заполнения данной формы отключите, пожалуйста, на этом сайте блокировщики рекламы типа Adblock

Необходимо подтвердить согласие