Новые образовательные стратегии в современном информационном пространстве

New Educational Strategies in Modern Information Space - 2022

Ru
En

Кустицкая Т.А.,

Есин Р.В.

СФУ,

г. Красноярск

 

Визуализация многомерных данных для выявления закономерностей в образовательной деятельности студентов

 

В статье рассмотрен подход к визуализации многомерных образовательных данных на основе методов многомерного шкалирования. Приведены результаты применения этого подхода к данным об успеваемости и образовательной активности студентов. Применение рассмотренного подхода может быть полезно на ранних этапах внедрения учебной аналитики на основе данных в вузе.

 

Kustitskaya T.A.,

Esin R.V.

SFU

Krasnoyarsk, Russia

 

Visualization of multidimensional data to identify patterns in student’ educational activities data

 

In this article we consider an approach to the visualization of multidimensional educational data based on multidimensional scaling. We present the results of applying this approach to data on student’ performance and activeness. The application of the considered approach can be useful in the early stages of implementing learning analytics in a university.

 

Введение

В настоящее время анализ образовательных данных – бурно развивающееся направление, способное качественно улучшить эффективность образовательного процесса. Применение методов машинного обучения в образовательной практике стало возможным благодаря тому, что электронные информационно-образовательные системы университета непрерывно собирают огромное количество информации как об активности студента внутри системы, так и о результатах его обучения. 

 

Все больше работ посвящено предсказанию успешности обучения и раннему выявлению студентов с высоким риском неуспешности. Для этих целей используют различные предиктивные модели: на основе байесовских сетей [1], дискретных цепей Маркова [2], градиентного бустинга на решающих деревьях [3] и другие. Кроме того, образовательные институты все чаще стремятся использовать анализ образовательных данных для повышения осведомленности о ходе обучения и улучшения его качества.

 

Прежде чем приступать к созданию прогностических моделей и разработке инструментов учебной аналитики, необходимо наладить сбор и предварительную подготовку данных для анализа. На наш взгляд, также имеет смысл провести пилотное исследование данных, уже имеющихся в распоряжении вуза (собранных LMS и /или информационной системой), чтобы определить содержат ли эти данные достаточно информации для решения тех или иных задач учебной аналитики, высказать гипотезы о взаимосвязях между различными показателями учебного процесса.

 

Для проведения предварительного анализа данных часто используются методы визуализации. Удачные визуальные представления благодаря наглядности могут позволить педагогам, даже не являющимся специалистами в машинном обучении, заметить некоторые закономерности в образовательном поведении студентов, выявить определённые стили обучения, обнаружить связи различных характеристик с успешностью обучения или, наоборот, выявить аномалии в данных и нетипичное поведение.

 

К сожалению, при визуализации мы ограничены трехмерным пространством, и не смотря на существование технических решений, позволяющих немного расширить пространство признаков (например, путем использования цветовых шкал, размера меток объектов, параллельных осей координат и т.д.), тем не менее, проблема интерпретации полученных визуализаций не позволяет повсеместно их использовать.

 

Для снижения размерности можно использовать методы многомерного шкалирования, основная идея которых заключается в размещении объектов, описываемых множеством признаков, в пространстве низкой размерности на основе значений мер близости между этими объектами. При радикальном уменьшении размерности признакового пространства, особенно хорошо работают метод SNE (Stochastic Neighbor Embending) [4] и его разновидность t-SNE (t-Distributed Stochastic Neighbor Embedding) [5], сохраняющие не расстояний между объектами, а пропорции этих расстояний

 

Методы многомерного шкалирования в настоящее время реализованы в Mathlab, SPSS Modeler, языках программирования R, Python, Julia, Java.

В данной работе мы описываем ход и результаты пилотного исследования образовательных данных на основе многомерного шкалирования t-SNE, проведенное нами для одного из учебных курсов, на основе данных из LMS и информационной системы вуза, а также из журналов преподавателей. Обработка данных, вычисления и построение изображений проводились на языке программирования Python.

 

Пилотное исследование образовательных данных

В данной работе мы исследовали образовательные данные 172 студентов, изучавших дисциплину «Теория вероятностей и математическая статистика» в 2019/2020 и 2020/2021 годах обучения. Источниками данных об активности и успеваемости студентов были: электронный курс по дисциплине в LMS Moodle (текущие показатели собирались еженедельно), информационная система вуза АСУ ИКИТ, журналы преподавателей.

 

В результате для каждого студента были собраны следующие данные:

показатели успеваемости:

  • результаты входного тестирования по дисциплине (источник – электронный курс);
  • результаты выполнения 16 индивидуальных электронных заданий, проверяемых автоматически (электронный курс);
  • результаты 3 письменных контрольных работ (журналы преподавателей);
  • результаты итоговой аттестации, представленные в виде 8 классов:
  • -1 – студент отчислен к концу семестра, 0 – не сдал зачет, н/я – не явился на экзамен или зачет, 1 – успешно сдал зачет, 2, 3, 4, 5 – студент получил соответствующую оценку на экзамене (АСУ ИКИТ).

характеристики образовательного поведения:

  • количество совершенных попыток пройти входное тестирование (электронный курс);
  • количество совершенных попыток выполнить индивидуальные электронные задания (электронный курс);
  • посещаемость лекционных и практических занятия (АСУ ИКИТ);
  • активность работы на практических занятиях (журналы преподавателей).

 

В совокупности эти два типа признаков характеризуют текущую образовательную деятельность обучающихся – студенты проявляют определенную степень и направленность в активности обучения, добиваются определенных результатов в плане успеваемости.

 

В рамках исследования были поставлены следующие цели:

 - определить, возможно ли по данным о текущей успеваемости и активности (без учета результатов итоговой аттестации) выявить какие-либо подгруппы студентов, на каком этапе это можно сделать, можно ли предположить связь между принадлежностью студента к какой-то подгруппе и успешностью обучения, а также между принадлежностью к подгруппе и типом итоговой аттестации;

- определить набор информативных признаков, рассмотрев разные подгруппы признаков, и на основании этого среди признаков, собираемых вручную, выделить те, сбор которых стоит автоматизировать.

 

На основе собранных данных было проведено 4 варианта визуализации: 1) визуализация только на основе показателей успеваемости; 2) визуализация только на основе показателей, фиксируемых в электронном курсе; 3) визуализация только на основе характеристик образовательного поведения; 4) визуализация по всему набору характеристик текущей образовательной деятельности.

 

После анализа полученных визуализаций мы пришли к выводу, что показатели успеваемости не достаточны, чтобы явно выделить кластеры студентов: на 4 неделе обучения имеется только одна явная кластерная структура – инактивные студенты, при этом на 16 неделе кластеры плавно перетекают один в другой без явной разделяющей границы.

 

Визуализация на основе показателей, фиксируемых в электронном курсе, уже лучше позволяет выделить 3 явных кластера студентов, но на 16 неделе картина аналогична первому варианту.

 

Вариант визуализации на основе характеристик образовательного поведения плохо работает на 4 неделе обучения, однако на 16 неделе явно выделяются два кластера, в некоторой степени согласованные с успеваемостью по итогам промежуточной аттестации.

 

Наилучший вариант визуализации основан на всех данных по образовательной деятельности. Результаты визуализации данных по всему набору признаков приведены на рисунке 1. Как видно, уже на 4 неделе обучения четко выделяются две подгруппы студентов, достаточно далеко отстоящие друг от друга в редуцированном (двухмерном) пространстве.

 

При этом отметим, что на 4 неделе связь между принадлежностью к одной из подгрупп и результатами аттестации не прослеживается, однако на 16 неделе 91% студентов из первой подгруппы (102 из 112 человек) – студенты, получившие зачет или положительную оценку на экзамене, 85% студентов из второй подгруппы – это студенты не прошедшие итоговую аттестацию или отчисленные в течение семестра (51 из 60).

а)                                                                                                                 б)

Рисунок 1 – Визуализация данных об обучающихся по всему набору признаков а) после 4 недели обучения, б) после 16 недели обучения.

 

Таким образом, полученные нами визуализации не позволяют выявить закономерностей между текущей образовательной деятельностью и типом итоговой аттестации. Похоже, что студенты, сдающие экзамен, и студенты, у которых итоговая аттестация – зачет, в целом одинаково подходят к изучению данной дисциплины.

 

В то же время результаты пилотного исследования позволили нам:

1. Сформулировать гипотезу о достаточно сильной связи текущей образовательной деятельности и успешности обучения. Полный набор признаков скорее всего будет информативным набором предикторов при построении прогнозной модели.

2. Сделать выводы о недостаточности данных, собираемых в автоматическом режиме как для определения стиля обучения, так и для прогнозирования успешности обучения. В дальнейшем для построения описательных и прогнозных моделей необходимо будет автоматизировать сбор данных об оценках за контрольные работы, проводимые аудиторно, и об активности на практических занятиях.

 

Заключение

Описанный подход к предварительному исследованию образовательных данных с помощью визуализации на основе многомерного шкалирования может быть весьма полезен на первых этапах внедрения data-driven аналитики в учебный процесс вуза как инструмент обнаружения закономерностей в данных об обучающихся и об учебном процессе, определении набора информативных предикторов для построения прогнозных моделей.

 

С другой стороны, полученные визуализации позволяют выявлять аномальное поведение или оценки у студентов, когда в результате промежуточной аттестации студент получает завышенную или заниженную оценку и, как следствие, находится не в том кластере. Эти данные можно использовать как рекомендации для преподавателей на пересдаче, чтобы определить причину аномалии.

 

Предложенный подход может оказаться полезным и при решении задачи определения стилей обучения по данным цифрового следа студента. Выявление отдельных кластеров по данным, косвенно характеризующим стиль обучения, сможет дополнить методики выявления стилей обучения с помощью психометрических опросников.

 

Исследование выполнено при финансовой поддержке гранта РНФ, проект № 22-28-00413.

 

Литература

  1. Кустицкая, Т. А. Прогнозирование успешности обучения студента с помощью байесовской сети / Т. А. Кустицкая // Информатизация образования и методика электронного обучения: Материалы III Междунар. науч. конф. – Красноярск: Сибирский федеральный университет, 2019. – С. 257-262.
  2. Озерова Г. П. Прогнозирование успешности студентов при смешанном обучении с использованием данных учебной аналитики / Г. П. Озерова, Г. Ф. // Science for Education Today. 2019. Т. 9. № 6. С. 73–87
  3. Есин, Р. В. Значимость данных из электронного курса для прогнозирования успешности обучения / Р. В. Есин, Т. А. Кустицкая // Информатизация образования и методика электронного обучения: цифровые технологии в образовании: Материалы V Междунар. науч. конф. – Красноярск: Сибирский федеральный университет, 2021. – С. 160-165.
  4. Hinton G. Stochastic neighbor embedding / G. Hinton, S. T. Roweis // NIPS. – 2002. – Т. 15. – С. 833-840.
  5. Van der Maaten L. Visualizing data using t-SNE / L. Van der Maaten, G. Hinton //Journal of machine learning research. – 2008. – Т. 9. – №. 11.

Оставить комментарий: