Канадская лингвистическая компания Termologic опубликовала отчет о результатах конкурентного тестирования лучших на рынке программ для извлечения терминов из текстов.

Программа извлечения терминов сканирует набор документов («корпус») и определяет слова-кандидаты для включения в список терминов. Неудачные кандидаты называются «шум», а пропущенные термины — «тишина». Чем меньше «шума» и «тишины» производит программа извлечения терминов, тем лучше.

Существуют три подхода к извлечению терминов: статистический, грамматический и гибридный. Программы, использующие гибридный метод, как правило, имеют наилучшую производительность.

Пять лучших на рынке программ для извлечения терминов, проверенных компанией Termologic:

  • Relevant Topic Finder (RTF) компании Temis, Synchroterm компании Terminotix
  • Termostat Монреальского университета
  • Term Extract компании MultiTrans
  • «Старатель» компании Логрус Глобал

Все они используют гибридный подход — за исключением Term Extract, в котором применяется статистический подход.

Оценивались следующие характеристики: длина термина, соответствие словарю «золотого стандарта», качество высокочастотных терминов, уровень «шума» и извлечение сокращений. Из пяти программ, прошедших тестирование, лучшей признан «Старатель», на втором месте — RTF. Одним из преимуществ RTF является то, что он не только находит сокращения, но и расшифровывает их, в то время как «Старатель» выдает только найденные сокращения без расшифровок. Однако «Старатель» обеспечивает самый низкий уровень «шума».

Кара Уорбертон (Kara Warburton), генеральный директор Termologic, говорит: «Еще одно преимущество программы «Старатель» — ее доступность в виде веб-сервиса на сайте Логрус Глобал. RTF, напротив, пока не предлагается компанией Temis как отдельный продукт».