Тесты цифровой техники

Как развернуть Greenplum в облаке без потерь в производительности и роста затрат – новое исследование от «Кругов Громова»


	Переход на NNIT.ru


	Переход на MSKIT.ru

Новости на NNIT Новости на MSKIT

Технологии машинного обучения группы компаний «Ростелеком» признаны лучшими в морфологическом анализе текстов

20.06.2017 14:06
версия для печати

Самообучаемый алгоритм морфологического анализа и нормализации русскоязычных текстов, разработанный специалистами АО «Айкумен ИБС», показал наилучшие характеристики в конкурсной части состоявшейся в Москве XXIII Международной конференции «Диалог 2017», посвященной актуальной оценке уровня развития российских машинно-лингвистических технологий.

При подготовке к конкурсу «умный» классификатор набрал обучающую статистику признаков из текстового корпуса объемом более миллиона слов, а для оценки точности ему было предложен массив документов из 15000 слов.

В результате сравнительного тестирования на закрытой дорожке MorphoRuEval метод «Айкумен ИБС» признан победителем по точности нормализации русских слов, достигающей 92,22%. Кроме того, он занял второе место по восстановлению морфологических признаков с достоверностью свыше 93%.

По мнению директора Департамента разработки АО «Айкумен ИБС» Андрея Ярового, «независимая экспертиза «Dialogue Evaluation» подтвердила отличное качество морфологического анализа текстов, используемого в компании. Данный анализ является фундаментом всей текстовой аналитики, что позволяет нам с беспрецедентной точностью извлекать смысл из документов на русском языке».

«Мы продолжаем двигаться вперед, постоянно совершенствуем алгоритмы и разрабатываем инновационные методы в своей работе, предоставляя возможность нашим заказчикам максимально использовать преимущества IQPLATFORM^® – современного отечественного продукта в области Big Data, по ряду функционала не имеющего аналогов на российском и мировом рынках» – подводит итог участия в мероприятии генеральный директор АО «Айкумен ИБС» Ирина Касаткина.

Морфологический анализ выполняется на начальных этапах автоматической обработки текста и является одной из наиболее важных операций, влияющих на финальное качество анализа документов. К его задачам относится определение части речи и морфологических признаков (падеж, род, число, время, лицо и пр.) каждого слова предложения, а также нормализация – корректное восстановление начальной формы этих слов.

Представленная технология лингвистической обработки позволяет более качественно и с минимальным участием человека анализировать большие объемы текстовой информации на естественных языках.

Существующие методологии в этой области сконцентрированы на английском языке. Но они абсолютно несовместимы с русской языковой моделью по причине ее морфологической обогащенности более чем 300 различными комбинациями признаков.

Исходя из этих особенностей, лингвистическая группа компании «Айкумен ИБС» разработала свой алгоритм, объединяющий достоинства классических способов с методами машинного обучения в виде двухступенчатой фильтрации словарного разбора:

Формирование предположений о возможных разборах слова с применением грамматического словаря. При отсутствии в библиотеке необходимого термина производится поиск наиболее похожего слова для разбора по аналогии;
Выбор оптимального варианта признака из контекста предложения с помощью самообучаемого классификатора на основе линейной машины опорных векторов SVM (Support Vector Machine). Для дополнительной проверки каждого разбора применяется общая оценка из суммы оценок входящих в него признаков, а в качестве оптимального выбирается разбор с максимальной оценкой.

Роль указанных признаков играют различные комбинации префиксов, суффиксов и отдельных морфологических характеристик слов в пределах контекстного окна размером ±3 слова от анализируемого.

Научно-практический форум «Диалог» ежегодно собирает ученых, мировых экспертов и отраслевых вендоров для обсуждения передовых методов компьютерной лингвистики и обмена опытом создания прикладных решений по интеллектуальному анализу текстов на естественных языках. Наибольшим интересом в программе конференции-2017 пользовался конкурс MorphoRuEval, организованный лабораторией «Dialogue Evaluation» для тестирования инструментов морфологического анализа русскоязычных текстов из сети Интернет. В этом году в нем приняли участие 15 команд, представляющих компании ABBYY, OnPositive, Pullenti, Samsung R&D и «Айкумен ИБС», а также университеты МФТИ, НИУ ВШЭ, ИСП РАН, МГУ, МИЭМ и НГУ.

Редактор раздела: Тимофей Белосельцев (info@mskit.ru)

Рубрики: Интернет, Интеграция, Маркетинг, ПО, Web

наверх

Для того, чтобы вставить ссылку на материал к себе на сайт надо:

Скопировать код
Вставить скопированный код на свой сайт

<a href="http://spbit.su/news/n201354/">Технологии машинного обучения группы компаний «Ростелеком» признаны лучшими в морфологическом анализе текстов</a>

А знаете ли Вы что?

ITSZ.RU: последние новости Петербурга и Северо-Запада

05.02.2026 Новгородская область перевела СЭД «Дело» на российскую платформу

16.01.2026 VK Видео проанализировал контентные предпочтения россиян в новогодние каникулы

MSKIT.RU: последние новости Москвы и Центра

05.02.2026 Новгородская область перевела СЭД «Дело» на российскую платформу

16.01.2026 VK Видео проанализировал контентные предпочтения россиян в новогодние каникулы

NNIT.RU: последние новости Нижнего Новгорода

05.02.2026 Новгородская область перевела СЭД «Дело» на российскую платформу

16.01.2026 VK Видео проанализировал контентные предпочтения россиян в новогодние каникулы

Добавить новость

Добавить компанию

Добавить

Добавить мероприятие

Технологии машинного обучения группы компаний «Ростелеком» признаны лучшими в морфологическом анализе текстов

Для того, чтобы вставить ссылку на материал к себе на сайт надо:

ITSZ.RU: последние новости Петербурга и Северо-Запада

MSKIT.RU: последние новости Москвы и Центра

NNIT.RU: последние новости Нижнего Новгорода