En
Ru

New Educational Strategies in Modern Information Space - 2021

Новые образовательные стратегии в современном информационном пространстве

Осочкин А.А.

Фомин В. В.

Пиотровская К.Р.

Санкт-Петербург

РГПУ им.А.И. Герцена

 

Классификация предметной тематики текстового образовательного материала на основе квантитативного подхода с учетом коллокации

 

Исследуется проблематика в области автоматического анализа и обработки естественного языка (NLP). Представлен модифицированный квантитативный подход с использованием алгоритма коллокации, который позволяет устранить ранее обнаруженные проблемы векторной модели обработки текста в ряде задач тематической классификации. Предлагается авторская частотная методика, извлечения набора числовых показателей из русскоязычного текста с учётом морфологических признаков слов, а также коллокации между термами в тексте.

Представлена квантитативная технология автоматической тематической классификации в составе морфологического и синтаксического анализа, методов параметризации и индексации текстов, алгоритмов искусственного интеллекта анализа и извлечения знаний.

Продемонстрирована эффективность и преимущество метода регрессионных деревьев решений в задачах нахождения и логического представления, и описания значимых частотных индексов.

Представлены результаты сравнительных экспериментов по оценке эффективности классификации естественно-языковых текстовых данных, с применением авторской, векторной и теоретико-множественной модели представления текста. Приведены результаты экспериментов в рамках решения задачи идентификации предметной тематики текстового образовательного материала.

 

Osochkin A.

Fomin V.

Piotrowska X.

 

Topical classification of text educational material based on the quantitative approach, considering collocation

 

Automatic analyses perspective and natural language (NL) processing is being researched in the subject paper. The modified quantitative approach using a collocation algorithm is presented. This approach eliminates previously discovered issues of text processing using the vector model in the number of cases of thematic classification. The author's frequency method of extracting a set of numerical indicators taking into account the morphological features of words, as well as collocation between terms in text is proposed.

The quantitative technology of automatic thematic classification using indicators which reflect morphological and parsing text features, methods of parameterization, text indexing, algorithms of artificial intelligence analysis and knowledge extraction is presented.

The efficiency and advantage of the regression decision tree method in the tasks of finding of significant frequency indexes and their logical representation are demonstrated.

The results of comparative experiments to assess the effectiveness of classification of natural language text data, using the author's, vector and set-theoretic models of text representation are stated. The results of experiments in the framework of solving the problem of identifying the style and gender differences of authors of fiction works are presented.

 

 

Введение.

Актуальность. В процессе эволюции методов обработки естественного языка (NLP) появилось отдельное направление – квантитативная лингвистика, которая исследует язык на основе статистических закономерностей с включением алгоритмов и моделей лингвистического и семантического анализа [19, 14]. Квантитативные методы используют латентные семантических связи между элементами текста [14, 15, 16] и эффективно расширяют возможности статистического подхода анализа текста. Динамичное развитие квантитативного подхода к анализу текста, стало результатом создания множества различных моделей представления текста, которые ориентированы на решение узкоспециализированных задач [18, 20-23]. Значительная часть методов основывается на квантитативном подходе со сложными вычислительными лингвистическими алгоритмами анализа текста.

 

Актуальными остаются исследования по совершенствованию квантитативного подхода с учётом национальных, профессиональных, предметных лингвистических языковых особенностей. Перспективны разработки методов адаптации и применения его в локальных прикладных задачах, устранение недостатков и ограничений при цифровизации NLP.

 

Отдельная область возможного приложения NLP в обучении (образовательной деятельности) - помощь субъекту в решении образовательных задач в условиях информационной и коммуникационной избыточности электронной среды. Это принципиально новые возможности автоматизированного взаимодействия с текстовой информацией образовательных ресурсов и учебных продуктов, выявления ее содержательных и качественных характеристик. Оказание экспертной поддержки в поиске и извлечении знаний из разнообразных информационных ресурсов глобальной среды, повышение критичности и практичности мышления, формирования новых компетенций, формирования новых знаний и т.д.

 

Сложность извлечения знаний из текста обусловлена спецификой и вариативностью языка, устройством человеческого мозга, динамикой развития мышления и т.д. Часть задач для смыслового анализа текста с трудом поддаются формализации и описанию, и требуют привлечения математического аппарата неопределённости, методов статистики и искусственного интеллекта.

 

Технологической основой квантитативного подхода стала модель представления и обработки данных Bidirectional Encoder Representations from Transformers (BERT). Модель BERT показала высокую эффективность при решении широкого спектра задач [18] и легла в основу цифровых сервисов по обработке естественного языка. Модель BERT используется в передовых технологиях «Google AI» «Microsoft Azure Text Analysis», «Facebook RoBERTa AI» и др.

 

Последние исследования лингвистов и ученых в области анализа и обработки естественного языка (NLP), показали, что данный подход имеет ряд серьёзных недостатков. На крупнейшей конференции, посвященной развитию искусственного интеллекта и моделей обработки текстов «ассоциации компьютерной лингвистики», прошедшей в 2020 г. (ACL) [17, 18], представлены критические недостатки в современных моделях обработки текста, которые базируются на методе BERT. Важнейшие рекомендации по совершенствованию методов обработки текста определены в развитии проблематики учёта грамматической и лексической связности текста, его целостности (когерентности), в том числе с учётом устойчивости словосочетаний (коллокации) в текстах. Направление исследований - совершенствование моделей представления текста, процедур формирования и извлечения цифровых аналитических индексов и показателей, развитие алгоритмов лингвистического анализа с применением методов искусственного интеллекта.

 

Цель исследования – оценка эффективности технологии идентификации и кластеризации предметной тематики текстового образовательного материала на основе квантитативного подход с использованием алгоритмов коллокации и регрессионных деревьев решений.

 

Модель представления текстов

Применение математической модели для преобразования текста [1,2] позволяет извлечь из текстовых данных характеристики, которые могут быть представлены в виде числовых параметров или индексов [13]. В рамках квантитативного подхода, были разработаны частотные [28], частотно-морфологические [8], векторные [9], тематически-векторные [20-23], теоретико-множественные [3, 5] модели представления текста и т.д. Не смотря на существование достаточно большого количества подходов к преобразованию текста, так же их модификаций, условно все модели можно разделить на два вида: векторную и теоретико-множественную модели представления текста.

 

Рассмотрим и сравним перспективные вычислительные модели, используемые в рамках компьютерной индустрии обработки текста: векторную модель, теоретико-множественную модель, а также авторскую теоретико-множественную модель с учетом коллокации.

 

Векторная модель представления текста. Векторная модель представления текста – это математическая модель, в которой каждому слову или предложению в тексте сопоставляется вектор, отображающий смысл или тематику. Часто векторную модель называют тематической векторной моделью. Векторная модель может использовать различные элементы текста для анализа: слова, предложения, абзацы, части текста и т.д.

 

Векторная модель представления данных хорошо зарекомендовала себя и смогла устранить часть недостатков частотной и теоретико-множественной модели представления данных, в том числе частично решалась проблема омонимов и учета семантического смысла предложений. Развитие векторной модели представления данных, столкнулось с трудноразрешимой задачей вычислительной сложности, связанной с длительностью расчета векторов в больших текстах. Поэтому векторную модель в основном применяют в задачах, где обрабатываются небольшие тексты.

 

Помимо вычислительных ресурсов и времени, необходимого для расчета векторов, существенным недостатком является отсутствие учета специфики языка: порядок слов, расположение подлежащего и сказуемого, учет признаков частей речи, форм и других свойств текста.

 

В качестве основного инструментария для исследования векторной модели представления текста была выбрана библиотека «Word2Vec» [9]. Данная библиотека была выбрана по ряду причин:

  • поддержка более 40 языков, в том числе и русского;
  • отсутствие необходимости обучения c учителем;
  • использует встроенную модель замены ассоциативных слов, омонимов (bag of Words);
  • часто используется в научных работах по классификации текстов.

 

Теоретико-множественная модель представления текста. Теоретико-множественная модель предполагает, что каждый текст состоит из термов (слов, n-грамм, предложений), обладающих общими свойствами и уникальными характеристиками. Основной концепцией данной модели является отображение различных частотных характеристик текста в относительных показателях, к которым применяются математические методы для выявления общих и уникальных характеристик каждого текста из анализируемой выборки. В основе теоретико-множественной модели используется аппарат частотного анализа, меры и метрики близости (Дайса, Отиаи, Жаккара, Симпсона и т.д.).

 

В качестве метрики преобразования текста в набор числовых показателей был взят интервальный коэффициент сходства Жаккара. Данный коэффициент является наиболее простым в расчетах, его значения эквивалентны в частных случаях другим метрикам сходства (Сёренсена, Сокала-Снита). Алгоритм расчёта показателей на основе коэффициента схожести Жаккара, подробно представлен в работе Молотона [7]. Обобщенный коэффициент Жаккара для сравнения близости двух слов A и B, рассчитывается по формуле:

Коэффициенты схожести могут быть рассчитаны для слов, n-граммы слов, предложения и т.д. Для реализации вычислений коэффициента схожести «Жаккара» применена свободно распространяемая библиотека Python «Jaccard-index» [11]. В качестве основной единицы анализа используются слова.

 

Теоретико-множественная модель представления текста с учетом коллокации. Следуя рекомендациям Macro T. [18], мы поставили задачу исследования влияния на повышение точности классификации текстов не только тематических аспектов, но и морфологических признаков слов, а также коллокации между термами в тексте.

 

Разработанное авторами программное обеспечение FaM, подробное описание которого представлено в [8], реализует авторский алгоритм представления текста в виде частотно-морфологического набора показателей с учетом коллокации. Алгоритм может быть использован для повышения точности классификации в широком наборе задач NLP.

 

Математическая модель представления текста с учетом коллокации, подходит к текстам исключительно как взаимосвязанным последовательностям термов. Предполагается, что учет устойчивых связей в словосочетаниях, взаимосвязи между элементами текста позволит создать более точную модель представления текста.

 

Для учета коллокации, FaM рассчитывает ряд специальных показателей, в основе которых лежит частота использования последовательности слов (n-грамм) в тексте, обладающих некоторыми характеристиками. Авторский алгоритм, реализованный при помощи нескольких морфологических библиотек, удаляет при расчете последовательностей n-грамм служебные части речи и слова, которые не находятся в семантической связи с членами предложения (предлоги, водные слова и т.п.). Формируется нормализованный текст в виде массива данных, где каждое слово описано как объект со свойствами: часть речи и морфологические признаки. Для каждой последовательности объектов и комбинации их морфологических признаков рассчитывается отдельный частотный показатель, как количество вхождений последовательности объектов в нормализованном тексте, поделённое на общее количество объектов.

 

Таким образом, множество показателей n-грамм определяется естественным языком, на котором написан текст и длиной n последовательности. Набор извлекаемых биграмм для русского языка превышает 200 показателей.

 

Ключевым фактом в повышении эффективности классификации является преобразование текста в набор числовых показателей при помощи частотно-морфологического анализа. Морфологический анализ осуществляется специальным гибридным алгоритмом, который использует два модуля морфологического анализа – «АоТ» [24] и «Solarix Engine» [25].

 

Специальный алгоритм, заложенный в FaM позволяет использовать одновременно две библиотеки, позволяя получить информацию об анализируемом слове, его семантической связи с другими словами в предложении, провести морфологический, синтаксический, частотный анализ. Алгоритм нахождения семантической связи осуществляет синтаксический разбор, в рамках которого идентифицируются основные и служебные части речи в предложении и строится синтаксическое дерево. На последующих этапах, алгоритм ищет слова, которые взаимосвязаны синтаксически с подлежащим или сказуемым в предложении и проверяет наличие семантической связи. Семантическая связь проверяется путем синтезирования нового предложения без анализируемого слова, построения нового синтаксического дерева и анализом узловых изменений дерева. В случае если изменения контекста в узлах дерева, связанных с удалённым словом, не произошли, в нормализованный текст данное слово не попадает.

 

При использовании термина коллокация, мы остановились на понятии устойчивого семантически взаимосвязанного бинарного словосочетания (последовательность биграмм) в тексте.

 

Нормирование и релевантность показателей. Почти все интеллектуальные пакеты анализа текста, осуществляют предварительную обработку текста (preprocessing) для нормализации данных. Предварительная обработка текста позволяет получить более точные и достоверные данные и более детальное описание особенностей текста.

 

Основной процедурой, позволяющей значительно сократить размеры векторного пространства за счет уменьшения вариации слов, является процедура лемматизации. Сокращение вариации слов также положительно сказывается на индексах векторов, уменьшая размерность векторного пространства. Для лемматизации текста была выбрана библиотека NLTK4Russian [29].

 

Нормирование данных, полученных в рамках теоретико-множественной модели, осуществляется с применением технологии TF-IDF, библиотеки scikit-learn [31].

 

Индексы TF ij определяются как частота употребления слова в анализируемом тексте, относительно общего числа слов в тексте:

где TFij - индекс для j-ого слова в i-ом тексте, fij – частота употребления fj – ого слова в i-ом тексте, fn - n-ое слово в i-ом тексте.

Метод TF-IDF [30] рассчитывает вес j-ого терма IDFij в i-ом тексте, как произведение частоты использования терма в тексте TFij и нормализованной обратной частоты содержания терма в корпусе текстов.

где D – общее количество текстов в корпусе. Dfi – число текстов в которых встречается терм fj .

Такой подход позволяет определить важность терма во всей коллекции анализируемых текстов. Наибольшим весом обладают термы с высокой уникальностью, которые реже встречаются в других документах, и часто встречаются в анализируемом.

 

Алгоритмы искусственного интеллекта

Для задач параметрического анализа, регрессии, классификации, распознавания, извлечения знаний при работе с NLP используется обширный инструментарий искусственного интеллекта (нейронные сети, метрические алгоритмы, опорные вектора, регрессионные деревья и т.д.). В авторских исследованиях [8, 26] был сделан выбор в пользу алгоритмов регрессионных деревьев решений для применения их в задачах тематической классификации текстов. Эффективность обусловлена получением более высокой точности классификации, при использовании небольших корпусов текстов, по сравнению с нейронными сетями и методом опорных векторов. Существенным преимуществом всех методов регрессионных деревьев решений является представление результатов в виде иерархического набора логических правил вида «if then». Логические правила позволяют осуществить осмысленную идентификацию, интерпретацию, проверку результатов классификации, оценку влияния, весовую значимость каждого показателя. Многообразие алгоритмов построения регрессионных деревьев решений («Random Forest», «ID3», «С4.5», «С5.0», «CRT», «CHAID» и т.д.), предоставляет значительный потенциал статистического анализа в рамках квантитативного подхода к обработке текстов на естественном языке. В исследованиях данной работы используются несколько алгоритмов построения деревьев решений пакета анализа данных IBM SPSS [27].

 

Материал исследования

Для проведения эксперимента был собран корпус текстов на русском языке.

Корпус текстов представлен различными образовательными материалами, разделенными на 10 предметных областей (кластеров): IT, История, Химия, Юриспруденция, Биология, Медицина, Педагогика, Физика, Философия, Экономика. Текстовые материалы представлены различными видами документов, в том числе: учебные пособия, учебники, конспекты лекций, рефераты, научные статьи, диссертации, авторефераты к диссертациям и т.д. (таблица 1).

 

Таблица 1 – Учебные материалы

Эксперимент классификации предметной области

Проведем сравнительные эксперименты по эффективности двух классических методов идентификации предметной области текста и предложенного авторами метода коллокаций.

 

Задача эксперимента – классификация корпуса текстов по предметным областям (без учета вида документа). Расчётные данные извлекаются при помощи ранее описанных моделей преобразования текстов (векторная, множественная, коллокация). В качестве основного алгоритма построения дерева решений был выбран алгоритм «исчерпывающий CHAID» с использованием индекса Джини. Выбор данного алгоритма обусловлен сложностью классификации по одновременно более 10 кластерам, высокой точностью [8, 11] и уменьшением глубины генерируемого дерева за счёт не бинарного разбиения.

 

Отношение обучающей и тестовой выборки 50%, без соблюдения пропорций размерности кластера. Максимальная глубина дерева составляет 10. В качестве проверки гипотезы нахождения общих характеристик используется метрика хи-квадрат Пирсона. Т.к. все показатели являются относительными, то критерий значимости, для разбиения на узлы составляет 0,005.

 

Проведём серию экспериментов и исследуем влияние значения настройки «минимальное количество объектов в узле» на точность классификации.

 

В таблице № 2 представлены данные по экспериментам с разной надстройкой минимального количества объектов в узле алгоритма деревьев решений – от 50 до 10 с уменьшением на 5. Отображена точность идентификации предметной области на основе параметров трёх математических моделей текстов.

 

Таблица 2 – Точность идентификации предметной области

Данная настройка в значительной степени влияет на точность классификации, из-за обработки статистических выбросов и создания правил для небольшого количества уникальных текстов.

 

Модели текстов, полученных при помощи метода коллокации, показали лучшую общую точность классификации при сравнении с векторной и множественной моделью представления текста. Минимальная разница в точности между методами была достигнута при надстройке алгоритма делить узел, если в него попало не менее 10 объектов и составила на 2,49% выше, чем векторной модели представления текста и на 5,59% выше, чем у множественной модели представления текста. Максимальная разница в точности составила 10,08% при сравнении с векторной моделью и 15,13% при сравнении с множество моделью представления текста (при надстройке алгоритма делить узел, если в него попало 40 объектов). Общая средняя точность классификации при использовании метода коллокации оказалась выше на 6,51%, чем векторной модели представления текста и на 11,32% чем у множественной модели.

 

Наибольшее количество ошибок было допущено при идентификации текстов, относящихся к области «Юриспруденция». Тексты «Юриспруденция» попадали в область Истории, Философии и Экономики. Данная ошибка при идентификации предметной области обусловлена спецификой юриспруденции, которая включает римское право, гражданское, международное, уголовное, налоговый кодекс и т.д. Из-за данной особенности часть текстов, попадают в схожие кластеры, использующие общую терминологию.

 

Из таблицы результатов классификации также можно заметить тенденцию увеличения точности классификации, при уменьшении количества текстов необходимых для разбития узла на дочерние. Данная тенденция обусловлена наличием статистических выбросов, отклонений в содержании текстов, а также детализированием отдельных групп образовательных материалов.

 

В таблице № 3 представлены детальные результаты классификации при использовании математической модели представления текста, основанной на теоретико-множественном представлении текста с коллокацией.

 

Таблица 3 – Классификация образовательных материалов по 10 предметным областям

В таблице 4 представлены показатели и их вес, которые использовались алгоритмом метода построения дерева решений исчерпывающий CHIAD.

 

Таблица 4 – Деcять наиболее значимых показателей при идентификации предметной области

Результаты экспериментов свидетельствуют об эффективности метода коллокации, которые были достигнуты благодаря использованию более сложных показателей, таких как биграммы частей речи, морфологических признаков и синтаксических характеристик.

 

Для оценки значимости данных показателей, мы также решили провести дополнительные исследования с надстройками, где был получен лучший результат (деление на дочерние узлы от 10 объектов). Было проведено три эксперимента, с удалением одного из значимых показателя из общего набора.

 

При удалении показателя «Латинских символов на предложение», общая точность уменьшилась на 8,68%, и составила 89,52%. В таблице №5 представлены 10 пересчитанных наиболее значимых показателей.

 

Таблица 5 – Значимые показатели при построении дерева без «Латинских символов на предложение»

При удалении показателя «Существительное + прилагательное», общая точность уменьшилась на 9,54%, и составила 88,66%. В таблице №6 представлены 10 наиболее значимых показателей.

 

Таблица 6 – Значимые показатели при построении дерева без «Существительное + прилагательное»

При удалении показателя «Наречие + наречие», общая точность уменьшилась на 8,68%, и составила 89,52%. В таблице №7 представлены 10 пересчитанных наиболее значимых показателей.

 

Таблица 7 – Значимые показатели при построении дерева без «Наречие + наречие»

В результате проведения трех экспериментов с удалением показателей с разной значимостью, точность значительно падала, что свидетельствует, о важности использования данных показателей при классификации текстов по предметной области. Два показателя включают в себя биграммы, удаление которых понизило точность на 8% и 9%, а сам алгоритм CHAID заменил данные показатели при классификации другими биграммами.

 

Извлечение из текста показателей, связанных с использованием частей речи и их признаков, позволило значительно увеличить точность классификации, при идентификации предметной тематики текстового образовательного материала. Эксперименты показали преимущество учёта коллокации в сравнении с двумя классическими моделями. Полученные результаты свидетельствуют о перспективности модели представления текста, основанной на теоретико-множественном представлении текста с коллокацией.

 

Выводы

Использование квантитативного подхода с учетом коллокации, позволяет увеличить точность идентификации предметной области. Полученные результаты экспериментов по автоматической идентификации предметной области подтвердили эффективность предложенной модификации теоретико-множественной модели обработки образовательного материала на русском языке.

 

Алгоритмы частотно-морфологического извлечения числовых показателей и формирования индексов текста, отражающих частоту использования отдельных частей речи и n-грамм частей речи, могут быть успешно использованы для идентификации тематического стиля предметных областей. Эксперименты подтвердили повышение общей точность классификации с использованием коллокации при сравнении с векторной моделью представления текста.

 

Использование модели с коллокацией позволяет устранить часть недостатков модели представления данных BERT, а в связке с методами регрессионных деревьев решений - расширить потенциал интеллектуального анализа текстов.

 

Благодарности

Работа выполнена в рамках государственного задания при финансовой поддержке Минобрнауки России (проект № FSZN-2020-0027).

The research was supported by the Ministry of Science and Higher Education of the Russian Federation (project No. FSZN-2020-0027).

 

Литература:

  1. Yongchang W. and etc «Research on improved text classification method based on combined weighted model» National Natural Science Foundation of China. 2019, Vol. 7(11), 783-796 pp.
  2. Martin D., Jurafsky D. «Speech and Language Processing. An introduction to natural language processing, computational linguistics, and speech recognition». 2019 October 16, 621 pp. URL: https://web.stanford.edu/~jurafsky/slp3/ed3book.pdf
  3. Mehdi A. and etc «A Brief Survey of Text Mining: Classification, Clustering and Extraction Techniques». Computer Science. 2017, 260 pp.
  4. Y. Kang and etc Natural language processing (NLP) in management research: A literature review Journal of Management Analytics. 2020 May Vol. 7(12) 1-34 pp.
  5. Harish B. «Text Document Classification: An Approach Based on Indexing» ternational Journal of Data Mining & Knowledge Management Process. 2012 2 January Vol.(1). 43-66 pp.
  6. Maheshan M. and etc «Indexing-Based Classification: An Approach Toward Classifying Text Documents Information Systems» Design and Intelligent Applications. 2018 January, Vol. 1   894-902 pp.
  7. Moulton, R. Jiang, Y. «Maximally Consistent Sampling and the Jaccard Index of Probability Distributions». International Conference on Data Mining, Workshop on High Dimensional Data Mining 2018 : 347–356 pp. URL: https://arxiv.org/abs/1809.04052
  8. Осочкин А.А., Фомин В.В. и другие «Классификация текстов на основе частотного и морфологического анализов с применением алгоритмов data-mining» Информатизация образования и науки. Издательство: Государственный научно-исследовательский институт информационных технологий и телекоммуникаций. 2016 г. (Москва) выпуск 3 (31). 137-152 с.
  9. Официальный интернет репозиторий библиотек для Python, библиотека «Word2Vec» URL: https://pypi.org/project/word2vec/
  10. Jadhao A. and etc «Text Categorization using Jaccard Coefficient for Text Messages.» International Journal of Science and Research (IJSR). 2016 May, Vol. (5) 2046- 2050 pp.
  11. Официальный интернет репозиторий библиотек для Python, библиотека «Jaccard-index» URL https://pypi.org/project/jaccard-index/
  12. Фомин. В.В. и другие «Эксперименты text-minig по классификации текстов в рамках задач персонализации образовательной среды» Информатизация образования и науки. 2018 , № 2 (38). 38-50 с.
  13. Кащеева А.В. «Квантитативные и качественные методы исследования в прикладной лингвистике» Социально-экономические явления и процессы. 2013, №3 (049). 1-8 с.
  14. Грехов А.В. «Квантитативный метод: поиск латентной информации» Вестник Нижегородского университета им. Лобачевского. Нижний Новгород: Нижегородская государственная медицинская академия. 2012, выпуск №1 (3) 94-100 с.
  15. McCann B., Bradbury J., and etc «Learned in translation: Contextualized word vectors». In Advances in Neural Information Processing Systems. 2017 , 6294–6305 pp.
  16. Zhilin Y. and etc «XLNet: Generalized Autoregressive Pretraining for Language Understanding» Internnet Journal Cornell College Jan 2020 URL: https://arxiv.org/abs/1906.08237
  17. Интернет портал об Искусственном интеллекте «venturebeat», статья Khari J.«AI researchers create testing tool to find bugs in NLP from Amazon, Google, and Microsoft» URL: https://venturebeat.com/2020/07/09/ai-researchers-create-testing-tool-to-find-bugs-in-nlp-from-amazon-google-and-microsoft/
  18. Macro T. and etc «Beyond Accuracy: Behavioral Testing of NLP Models with CheckList», Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics , pp. 4902–4912 URL: https://www.aclweb.org/anthology/2020.acl-main.442
  19. Moschitt A. «omplex Linguistic Features for Text Classification: a comprehensive study» Lecture Notes in Computer Science 2б European Conference on IR Research, 2004 Sunderland, UK April, 181-196 pp.
  20. Devlin J. and etc «Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing» Google AI Language. 2018 November 2 URL: https://ai.googleblog.com/2018/11/open-sourcing-bert-state-of-art-pre.html
  21. Yonatan Belinkov and Yonatan Bisk. «Synthetic and natural noise both break neural machine translation». In International Conference on Learning Representations, 2018. URL: https://arxiv.org/abs/1711.02173
  22. Yonatan Belinkov and James Glass. Analysis methods in neural language processing: A survey. Transactions of the Association for Computational Linguistics, 2019, Vol 7. 49–72 pp.
  23. Mohit Iyyer, John Wieting, Kevin Gimpel, and Luke Zettlemoyer.. Adversarial example generation with syntactically controlled paraphrase networks. In Proceedings of NAACL-HLT 2018, 1875–1885 pp.
  24. Сайт библиотеки автоматической обработки текста «АоТ» URL: http://www.aot.ru
  25. Сайт библиотеки «Solarix Engine» URL: http://www.solarix.ru/for_developers/api/grammar-engine-api.shtml
  26. Фомин В.В., Осочкин А.А. «Классификация текста по творческим категориям с применением частотно-морфологического анализа и алгоритмов регрессионных деревьев» «Актуальные вопросы и перспективы развития математических и естественных наук» Сборник научных трудов по итогам международной научно-практической конференции (11 мая 2016г., г.Омск) 64 – 66 с.
  27. Официальный сайт IBM SPSS Statistics URL: https://www.ibm.com/ru-ru/products/spss-statistics
  28. Langer S. and etc «TF-IDuF: A Novel Term-Weighting Scheme for User Modeling based on Users' Personal Document Collections» iConference Preliminary Results Papers. 2017, 1-8 pp.
  29. Сайт разработчика NLTK4Russian «Кафедра математической лингвистики» URL: http://mathling.phil.spbu.ru/node/160
  30. Rajendra K. «Modified TF-IDF Term Weighting Strategies for Text Categorization» Conference: 14th IEEE India Council International Conference (INDICON) 1-6 pp.
  31. Официальный сайт разработчика «SciKit-learn» URL: https://scikit-learn.org/stable/index.html

Оставить комментарий: