Эффективное применение обучаемых систем машинного перевода требует серьезной предварительной «очистки» учебных корпусов. В этих двуязычных массивах текстов не должно быть непереведенных сегментов, неправильных переводов, посторонних символов, гипертекстовой разметки и т. п. Желательно, чтобы корпус содержал единообразную терминологию. А вот с этим возникает большая проблема.

В большинстве случаев в качестве учебных корпусов используются накопленные массивы памяти переводов. Из-за постепенных изменений терминологии такой «накопитель переводов» со временем теряет единообразие терминологии. В нем встречаются и устаревшие, и обновленные переводы одних и тех же терминов. Основной инструмент переводчика — CAT-система — позволяет подключить актуальный глоссарий и проверить терминологию в подсказках из памяти переводов. Однако для проверки и унификации терминологии в огромном корпусе без автоматизации не обойтись. Для этого мы разработали решение на базе нашей программы Rigora, которая позволяет выполнять самые разные проверки качества переводов, в том числе больших массивов памяти переводов.

Обычно в программе Rigora после автоматической сверки переводов с глоссарием нужно пройти по списку строк с потенциальными ошибками в переводах терминов и вручную исправить реальные ошибки. Теперь мы расширили этот функционал возможностью просто экспортировать все строки, исключая строки с потенциальными ошибками в терминах, без ручной проверки каждой строки. В результате при сверке памяти переводов с глоссарием размер «очищенной памяти» несколько уменьшится, но зато будет обеспечено единство терминологии, быстро и дешево.

Но это еще не все! В программе Rigora уже имеется примерно 650 самых разных технических и лингвистических проверок. Многие из них имеют параметры для настройки пользователем. Также есть возможность самостоятельно «программировать» и комбинировать правила, создавая нужные пользователю проверки. Этот гибкий механизм с использованием регулярных выражений позволяет реализовать практически любую очистку корпусов текстов.

Очистка памяти переводов в программе Rigora — один из компонентов комплексного решения по автоматизации переводов на предприятии на основе нейронных систем машинного перевода и других современных технологий от компании Logrus Global. Подробнее см. https://cloud.logrusglobal.com/.

1 марта 2021

Узнать больше

Ваш запрос отправлен, спасибо!
Что-то пошло не так, Ваши данные не были отправлены, попробуйте позже.

Для правильного заполнения данной формы отключите, пожалуйста, на этом сайте блокировщики рекламы типа Adblock

Необходимо подтвердить согласие