gallery/gerb_rgpu_1
En
Ru

New Educational Strategies in Modern Information Space - 2020

Новые образовательные стратегии в современном информационном пространстве

Фомин В. В.

Осочкин А.А.

РГПУ им. А.И. Герцена

 

Сравнительное исследование индексных частотно-морфологических методов автореферирования текстов

 

  В статье исследуется потенциал внедрения в индексные методы автореферирования алгоритмов частотно-морфологического анализа. Представлены результаты оценки эффективности автоматического реферирования научно-образовательных документов, составленных на русском языке, с использованием различных методов индексирования. Предложена методика оценки эффективности автореферирования по материалам научного репозитория. По результатам экспериментов проведена оценка и качественное ранжирование методов индексации в алгоритмах автореферирования, сформулированы рекомендации их использования.

 

Fomin V.V.

Osochkin A.A.

Herzen University

 

A comparative study of the index of the frequency and morphological methods for automatic summarization of texts

 

  The paper considers the potential of implementation of frequency-morphological analysis in index methods of automatic text summarisation. The evaluation of the effectiveness of automatic text summarisation of scientific and educational documents in Russian using various indexing methods is presented in the paper. The methodology used for evaluating the efficiency of automatic text summarisation by materials of an educational repository is introduced. Based on the experiments results, indexing methods were evaluated and quality ranked in automatic text summarisation algorithms, recommendations for their use were made.

 

 

  Актуальность, цели:

  Одна из самых серьезных проблем современных образовательных сред – лавинообразное увеличение объема информации, которая храниться в репизоториях, архивах, базах знаний и т.д. Следствием данной ситуации является предоставление человеку, в результате запроса, огромного массива информации. В такой ситуации особую важность приобретают новые эффективные методы автореферирования, как вид аналитико-синтетической обработки текста, позволяющую предоставить информацию о содержании в кратком виде.

 

  В таких условиях особую важность приобретают новые эффективные методы борьбы с большими объемами информации. Одним из таких методов является автоматическое реферирование как вид аналитико-синтетической обработки документов [28, 29], позволяющий осуществлять требуемую информационную поддержку лиц, принимающих управленческие решения [18, 19].

 

  Цель исследования – оценка эффективности технологий реферирования с применением методик индексирования, в том числе и с использованием частотно-морфологического анализа. Для достижения цели были поставлены следующие задачи:

  1. Проанализировать подходы к автореферированию текстов на основе методов индексирования.
  2. Разработать компьютерные программы выбранных методов индексирования для создания авторефертов диссертаций на русском языке.
  3. Модифицировать выбранные методы индексирования используя частотно-морфологический анализ в качестве основного.
  4. Оценить и сравнить результаты автореферирования, частотного и частотно морфологического анализа по показателям точности, полноты и уменьшения объема от исходного текста и эталона.

  Автореферирование, описание проблематики:

  Автореферирование – автоматический процесс, в результате осуществления которого из одного или нескольких исходных текстов создается результирующий текст, передающий большую часть информации и при этом являющийся меньшим по объему [1, 8]. Среди множества различных методов автореферирования [14-18] особо стоит выделить методы индексирования, в основе которых лежат простые, хорошо зарекомендовавшие себя частотные методы анализа [11, 17-19] текстовой информации. Методы индексирования имеют ряд преимуществ, в том числе: сохранение основных слов оригинального текста, отсутствие сложного семантического анализа [22], разнообразием алгоритмов применения.

 

  Основной проблемой частотного метода индексирования, является анализ текста на уроне слова, с отсутствием связи между ними, учета специфики естественного языка, где существует разделение на основные и вспомогательные части речи и т.д. Поэтому все чаще индексные методы авто реферирования усложняются, добавлением морфологического анализа.

 

  Постановка эксперимента:

  Частотные и статистические методы активно используются для автореферирования текстов на ЕЯ [20], но всё чаще в работах видно смещение в сторону выявления информационной основы текста [22], в более высокоорганизованных единицах: словосочетаниях, предложениях, абзацах. При анализе более высоких единиц текста появляются новые свойства: когезия, когерентность, членораздельность и автосемантизация отдельных абзацев и отрезков текста. Использование более высокоорганизованных единиц при индексировании документа, требует перехода от частотного анализа к частотно-морфологическому анализу, для идентификации и использования особых свойств словосочетаний, предложений, абзацев.

 

  Проведем эксперимент по сравнению авторефератов полученных путем использования методов индексирования с частотным и частотно-морфологическим анализом.

 

  Для качественной оценки автореферирования текста, на основе анализа [8-12] из ряда метрических методов, был выбран метод «Rouge» [9,10]. В соответствии с метрикой «Rouge», каждый автореферат сравнивается по двум показателям, называемыми «F1 score» [9] точности реферирования (Precision), полноты (Recall), и на основе данных двух показателей рассчитывается еще один общий показатель - мера точности теста (m-measures). Более подробно о методах оценки результатов реферирования можно прочитать на интернет портале по обработке естественного языка «RxNLP» [23]. Расчеты в эксперименте осуществляются при помощи свободно распространяемого приложения «Rouge» [23].

 

  В качестве корпуса текстов был взят научный репозиторий представленный выпускными работами на получение степени кандидата наук, собранными с различных сайтов вузов РФ по разным направлениям и специальностям, к каждой диссертации прилагается автореферат автора. Общий объем 300 работ, разбитых по 30 научным областям.

 

  Программное обеспечение FaM [13-15], обеспечивает морфологический анализ, идентифицируя части речи в тексте. При индексировании документа на основе частотно-морфологического анализа, после индексации документа, в зависимости от части речи, каждый индекс умножается на коэффициент. Для самостоятельных частей речи коэффициент равен 0,65, для служебных 0,35. Данные коэффициенты были рассчитаны на основе результатов автореферирования и взаимосвязи частей речи в русском языке [18], для достижения сокращения использования вспомогательных частей речи на 15% и увеличения самостоятельных частей речи в автореферате. К самостоятельным частям речи относятся: существительные, глаголы, наречие, прилагательное, местоимение, все остальные части речи относятся к служебным.

 

  Процедура оценки эффективности. На вход алгоритма автореферирования подаются диссертации, затем на основе метода индексирования осуществляется ранжирование слов и предложений. Слова и словосочетания получившие низкий уровень ранжирования, удаляются из текста. Высоким уровнем ранжирования являются ранги, которые имеют вес более 20%, если методика индексирования не предполагает свой уровень ранжирования. В случаях если в предложении осталось менее 6 слов, предложение удаляется из автореферата, целиком. После сокращения текста, путем удаления из текста слов с низким рангом, текст согласуется при помощи библиотек морфологического анализа и сравнивается с эталоном – авторефератом, автора диссертации.

 

  На основе анализа работ по автореферированию [8-21], были выбраны для сравнительного анализа следующие шесть основных методов:

  1. TF-IDF. Лун ещё в 1957 году [11] разработал метод анализа текстовой информации, позволяющий выявить наиболее значимые, релевантные слова, которые предполагалось использовать для классификации документов на естественном языке.
  2. TF-ISF. Модификация TD-IDF, направленная на проверку гипотезы о том, что наиболее важные слова употребляются в одном предложении более одного раза, но редко встречаются во всем документе. [2].
  3. Словосочетания. Технология идентификации значимых предложений в тексте, в основе которой лежит анализ веса словосочетаний. В качестве минимальной единицы выступает униграмма из двух слов [3].
  4. Позиционный анализ предложений. Данная технология индексирования наиболее важных предложений сводиться к гипотезе, что все основные предложения используются в начале и конце текста [4].
  5. Сигнальный метод. Технология, основанная на теории, что в ключевых и наиболее важных предложениях используются специфические слова: значимый, сложный, тяжелый, задачи, цели и т.д. Слова используются из специального словаря, разработанного Х.П. Эдмансом [5].
  6. Нейронные сети. В основе данного метода лежит унифицированная процедура машинного анализа текста, предложенная Коллбортом [6, 7].

  Оценка точности авторефератов:

  Проведем оценку авторефератов, сформированных при помощи исследуемых методик индексирования с использованием частотного (Ч) и частотно-мифологического (ЧМ) анализа. Результаты представлены в таблице №1.

 

Таблица № 1 – Точность авторефератов

gallery/osochkin-tab1

  В таблице № 1 все результаты представлены в %. Лучшую точность при оценке автореферата униграмами (Rouge-1) показал метод индексирования, основанный на нейронных сетях с использованием частотно-морфологического анализа, где общая точность составила 48% и 18% при использовании частотного анализа. Полученный результат свидетельствует, что использование частотно-морфологического анализа с целью уменьшения использования в авторефератах служебных частей речи, увеличило схожесть с эталонным текстом.

 

  В частотном анализе при использовании оценки авторефератов униграммами, лучшую точность показал «TF-IDF» и его точность составила 19%. Следует отметить, что использование частотно-морфологического анализа положительно сказалось на всех методах, единственный метод индексирования, где не произошёл значимый прирост точности, это TF-IDF.

 

  При N-граммном подходе лучшую точность показал метод индексирования основанный на нейронных сетях, при использовании частотно-морфологического анализа. Средний прирост точности при использовании частотно-морфологического анализа, при сравнении с частотным составил 16%.

 

  Оценка изменения размера авторефератов

  Важным элементом реферирования является не только преобразование сохранение точности передачи смыслового содержания оригинального текста, но и предоставление данной информации в коротком, компактном виде, при помощи сжатия текста.

 

  Рассмотрим более детально изменение размеров текста авторефератов относительно оригинальных текстов. Сравнение с оригинальным текстом, а не с эталоном (авторефератом написанным человеком), осуществляется специально, т.к. при расчете «M-measures» в «Rouge-N», используется показатель сокращения объема автореферата от эталона. Результаты изменений объема авторефератов представлены в таблице № 2 (оценка метрической близости).

 

Таблица № 2 – Оценка сжатия автореферата

gallery/osochkin-tab2

  В таблице № 1 все результаты представлены в %. При реферировании текста, большее сокращение текста осуществилось при использовании индексов, рассчитанных на основе частотно-морфологического анализа и достигло до 7% (Юриспруденция и Физика), а сокращение размера с использованием частотного анализа достигло 18%. Среднее значение по всем методам индексирования основанных на частотно-морфологическом анализе составило 79,01%, а при использовании частотно анализа, среднее сокращение текста составило 59,76%.

 

  Наименьшее сокращение объема текста с использованием частотно-морфологического анализа, было получено при использовании метода индексирования нейронных сетей 38% и словосочетаний, сокращение составило 37%. Однако, не смотря на низкий уровень сокращения у данных методов, точность, при сравнении с эталоном оказалась лучше, чем у других авторефератов.

 

    Выводы

  Полученные результаты экспериментов свидетельствуют, что использование частотно-морфологического анализа, значительно увеличило схожесть авторефератов с эталонными авторефертами, написанными людьми.

 

  Метод оценки автореферирования «Rouge-N», показал, что авторефераты сформированные на основе частотно-морфологического анализа на 16% более близки к оригиналу, чем авторефераты с использованием только частотного анализа.

 

 Изменение длины последовательности индексируемых слов, с униграм до n-грамм, по-разному сказалось на общем качестве автореферирования: Метод TF-IDF показал себя лучше, чем остальные при использовании частотного анализа при индексировании униграмм, незначительно проиграл нейронным сетям в общей оценке, но при этом объем автореферата был значительно меньше, чем у нейронных сетей.

При использовании частотно-морфологического анализа при индексировании документов, было выявлено, что все методы, за исключением TF-IDF повысили сходство с оригинальным текстом. При сравнении с эталонными текстами, написанными людьми, было выявлено, что текст в среднем точен на 48%, а сокращение текста достигало до 93,05% при реферировании диссертаций.

 

  Полученные результаты позволяют говорить о высоком потенциале использования методов индексирования данных на основе нейронных сетей с использованием частотно-морфологического анализа, в интеллектуальном поиске или в информационно-образовательных сферах. В будущих работах мы рассчитываем расширить область применения частотно-морфологического анализа, для автореферирования художественных произведений и использованию при индексировании частоту употребления частей речи, ее признаков, с целью классификации данных на естественном языке.

 

Литература:

  1. R. Brandow, K. Mitze, and F. R. Lisa and etc (1995) «Automatic condensation of electronic publications by sentence selection» Inf. Process. Manag. Vol. 31. 67585, Sep. 1995 pp1-8 .
  2. P. B. Baxendale and etc (1958) “Machine-made index for technical literature: An experiment,” IBM J. Res. Dev., Vol. 2, no. 4,pp. 354, Oct. 1958
  3. H. P. Edmundson and etc (1969) «New methods in automatic extracting» J. ACM, Vol. 16, no. 2, pp. 2685, Apr. 1969. pp. 265-285
  4. Collobert, R. and Weston, J. (2008). A unified architecture for natural language processing: Deep neural networks with multitask learning. Conference: Machine Learning, Proceedings of the Twenty-Fifth International Conference (ICML 2008), Helsinki, Finland, June 5-9, 2008 1-8 pp.
  5. Collobert, R., Weston, J., Bottou, L., Karlen, M., Kavukcuoglu, K., and Kuksa, P. P. (2011) «Natural language processing (almost) from scratch». CoRR, abs/1103.0398. informal publication. pp/ 2492-2537
  6. Clayton Scott and etc «Experiments in Automatic Text Summarization Using Deep Neural Networks» Machine Learning, Fall 2011
  7. Radev, D. R., Hovy, E., and McKeown, K. (2002). Introduction to the special issue on summarization. Comput. Linguist №28 pp.399–408.
  8. Dragomir R. and etc (2012) «Single-document and multi-document summary evaluation using№ Relative Utility University of Michigan, Ann Arbor MI 48109 2012 Источник URL: https://www.eecs.umich.edu/techreports/cse/2007/CSE-TR-538-07.pdf (дата обращения: 30.09.2019).
  9. Приложение «Rouge», репозиторий «GtiHub» источник URL: https://github.com/kylehg/summarizer/blob/master/rouge/ROUGE-1.5.5.pl (дата обращения: 30.09.2019).
  10. Derczynski, L. (2016). «Complementarity, F-score, and NLP Evaluation» Proceedings of the International Conference on Language Resources and Evaluation.
  11. Mr. Sujit r. Sujit V. and etc «Classification of News and Research Articles Using Text Pattern Mining"IOSR Journal of Computer Engineering (IOSR-JCE) e-ISSN: 2278-0661, p- ISSN: 2278-8727Volume 14, Issue 5 (Sep. - Oct. 2013), pp. 120-126
  12. P. Luhn H. (1958) «The automatic creation of literature abstracts» IETE Journal of research J. Res. Dev., Vol. 2, no. 2, pp. 15965, Apr. 1958. pp 159-165
  13. Fomin V., Osochkin A., and Zhuk Y. (2019) « Frequency and morphological patterns of recognition and thematic classification of essay and full text scientific publications» CEUR-WS 2019 . pp 1-14.
  14. Евдокименко Е. Ю. (2013) Понятие информационного шума в социально-гуманитарных науках // Молодой ученый. — 2013. — №10. — С. 564-566. источник URL: https://moluch.ru/archive/57/7765/ (дата обращения: 30.09.2019).
  15. Абакумов А. и другие (2013) «Рост объема информации - реалии цифровой вселенной» , Журнал «Технологии и средства связи» #1, 2013 с.24-25.
  16. Mr. Sujit V. and etc (2013) "Classification of News and Research Articles Using Text Pattern Mining"IOSR Journal of Computer Engineering (IOSR-JCE) e-ISSN: 2278-0661, p- ISSN: 2278-8727Volume 14, Issue 5 (Sep. - Oct. 2013), pp120-126
  17. Shari T. (2018) «Optimize Optimize the A Commentary» 2018 Journal Search Voice pp 1-6.
  18. Молчанов А. Н. и другие, (2015) «Математическая модель текста на естественном языке, учитывающая свойство когерентности» , Интернет-журнал «Науквоведение» Том 7, №1 (январь - февраль 2015) [Электронный ресурс]. URL: https://naukovedenie.ru/PDF/70TVN115.pdf (дата обращения: 30.09.2019).
  19. Jansen, B. J. and Rieh, S. (2010) The Seventeen Theoretical Constructs of Information Searching and Information Retrieval. Journal of the American Society for Information Sciences and Technology. 61(8), 1517-1534
  20. Kumar Y. and etc (2014) «Analysis of Sentence Scoring Methods for Extractive Automatic Text Summarization» Proceedings of the 2014 International Conference on Information and Communication Technology for Competitive Strategies. – ACM, New York, NY, USA, 2014.
  21. Gambhir and V. Gupta. (2016) «Recent automatic text summarization techniques: a survey» Artificial Intelligence Review. –2016. pp.1-66.
  22. Тарасов С.Д. (2010) «Современные методы автоматического реферирования» Научно-технические ведомости СПБГПУ. Информатика, телекоммуникации и управление. 2010. №6 (113) .
  23. Интернет «Портал» посвященный обработке естественного языка «NLP» раздел «text-mining» URL: http://rxnlp.com (дата обращения: 30.09.2019).

Комментарии:

Оставить комментарий:

Имя  
Эл. почта  
Текст комментария  
 

Носкова Татьяна Николаевна:

 

Вопрос использования интеллектуальных технологий в образовании является одним из самых сложных. Важно, что коллеги занимаются разработкой конкретных систем и их экспериментальной проверкой. В условиях цифровизации образования интеллектуальные технологии являются ключевыми, сквозными в организации образовательного процесса в цифровой среде. Важно, что такие сообщения публикуются на нашей конференции.


Профессор Носкова Т.Н.

 

16.03.2020 16:00

Евдокимова Марьяна Михайловна:

 

Уважаемые авторы!
Поднятая Вами тема имеет большое значение для меня, как для студента ВУЗа, каждый день имеющего дело с значительными объёмами текстовых данных. Хотелось бы уточнить, применяется ли что-то из описанного Вами в антиплагиат-системах? И если применяется, то каким образом.

 

17.03.2020 19:33

Осочкин Александр Анатольевич:

 

Здравствуйте, Марьяна Михайловна:
В основе большинства антиплагиат-систем лежит, частотный и частотно-морфологический анализ. Многие антиплагиат-системы, используют схожие алгоритмы, в частности алгоритмы индексирования частей речи, которые позволяют уменьшить влияние добавленных автором слов в проверяемый текст, при оценке сходства на основе сравнения n-грамм последовательностей.

 

19.03.2020 16:58