2020-10-10

Команда ЦКТ — среди сильнейших

Высокий результат достигнут с помощью системы лингвистической обработки текста, используемой центром в инновационном продукте SmartCS.

Открытое соревнование по многоязычному распознаванию именованных сущностей BSNLP организовано Проблемной группой по автоматической обработке славянских языков Ассоциации компьютерной лингвистики и проводится с целью оценки и анализа текущего уровня развития технологии NLP (Natural Language Processing, обработка естественного языка) для определенной группы языков или отдельного языка. По итогам соревнования организация публикует выводы о качестве решения задач в рассматриваемом сегменте, методах и общих тенденциях.

В этом году в соревновании приняли участие 8 команд. Они продемонстрировали возможности разработанных систем распознавания именованных сущностей для текстов на болгарском, чешском, польском и русском языках. Правила позволяли ограничиться одним языком или представить решение сразу для нескольких.

Команда Центра когнитивных технологий приняла участие в двух дорожках соревнования: распознавании и лемматизации именованных сущностей для текстов на русском языке. Под именованными сущностями подразумеваются описывающие определенные объекты слова и фразы. В поставленной задаче требовалось извлечь из набора текстов пять типов таких объектов: персоны, локации, организации, события и продукты. Лемматизация — это одна из ключевых задач NLP для языков с развитой системой словоизменения, к которым относится и русский язык. При ее решении различные варианты написания сущностей приводятся к установленному.

Подобные задания отражают реальные потребности рынка обработки естественного языка и востребованы в различных контекстах. Например, для определения темы текстов, установления связей на основе упоминаемых в них географических мест или лиц, извлечения других фактов. Организаторы предложили участникам работу с двумя современными датасетами, источником для которых стали новостные сообщения русскоязычных онлайн-СМИ за март — апрель 2019 года.

«Мы хотели в первую очередь определить качество наших базовых технологий распознавания именованных сущностей на признанных мировым сообществом тестовых данных. Соревнование BSNLP-2019, несомненно, следует лучшим традициям подобных соревнований и не предоставляет возможных преимуществ определенному научному подходу или конкретной компании», — прокомментировал участие в соревновании старший лингвист Центра когнитивных технологий Сергей Куликов, к.ф.н.

На дорожке распознавания именованных сущностей команда ЦКТ заняла второе место, обойдя конкурентов с признанной на международном уровне экспертизой: Институт информатики Вроцлавского университета (Польша), NLP-Cube (совместная разработка румынского подразделения Adobe Systems и Исследовательского института искусственного интеллекта Румынской академии наук) и Центр компетенций текстовой аналитики Объединенного исследовательского центра ЕС.

На дорожке лемматизации эксперты Центра когнитивных технологий вошли в тройку лучших. В рамках соревнования применялась упрощенная версия системы лингвистической обработки текста, используемая в интеллектуальной системе корпоративного поиска SmartCS.

«Для нас значимо, что подобный результат был достигнут с помощью системы, являющейся основой наших коммерческих продуктов, которую мы незначительно адаптировали к решению соревновательных задач, — отметил руководитель ЦКТ Илья Калагин, к.т.н. — Высокое качество и точность обработки обеспечиваются применяемым нами гибридным подходом с использованием комбинации интеллектуальных правил и методов машинного обучения».

Еще публикации

СВЯЖИТЕСЬ С НАМИ
Расскажите нам о вашей задаче, и мы предложим варианты решения.
Или просто оставьте заявку — наши специалисты свяжутся с вами в ближайшее время.
Я даю согласие на обработку моих персональных данных
Предоставляя свои персональные данные Пользователь даёт согласие на обработку, хранение и использование своих персональных данных на основании ФЗ № 152-ФЗ «О персональных данных» от 27.07.2006 г. в следующих целях:
- Осуществление клиентской поддержки
- Получения Пользователем информации о маркетинговых событиях
- Проведения аудита и прочих внутренних исследований с целью повышения качества предоставляемых услуг.
Под персональными данными подразумевается любая информация личного характера, позволяющая установить личность Пользователя/Покупателя такая как:
- Фамилия, Имя, Отчество
- Дата рождения
- Контактный телефон
- Адрес электронной почты
- Почтовый адрес
Персональные данные Пользователей хранятся исключительно на электронных носителях и обрабатываются с использованием автоматизированных систем, за исключением случаев, когда неавтоматизированная обработка персональных данных необходима в связи с исполнением требований законодательства.
Компания обязуется не передавать полученные персональные данные третьим лицам, за исключением следующих случаев:
- По запросам уполномоченных органов государственной власти РФ только по основаниям и в порядке, установленным законодательством РФ
- Стратегическим партнерам, которые работают с Компанией для предоставления продуктов и услуг, или тем из них, которые помогают Компании реализовывать продукты и услуги потребителям. Мы предоставляем третьим лицам минимальный объем персональных данных, необходимый только для оказания требуемой услуги или проведения необходимой транзакции.
Компания оставляет за собой право вносить изменения в одностороннем порядке в настоящие правила, при условии, что изменения не противоречат действующему законодательству РФ. Изменения условий настоящих правил вступают в силу после их публикации на Сайте.
Скрыть

ВЕДУЩИЙ РОССИЙСКИЙ СИСТЕМНЫЙ ИНТЕГРАТОР
117036, Россия,
г. Москва, ул. Кедрова, 15
info@i-teco.ai
+7 (929) 555-98-80
+7 (495) 777-10-95
+7 (800) 200-10-95
© 2018-2020 ЦЕНТР КОГНИТИВНЫХ ТЕХНОЛОГИЙ
Разработка и внедрение систем искусственного интеллекта.

Яндекс.Метрика