En
Ru

New Educational Strategies in Modern Information Space - 2021

Новые образовательные стратегии в современном информационном пространстве

Никандров А.А.

РГПУ им. А.И. Герцена,

г. Санкт-Петербург

nik190397@mail.ru

 

Проблема эффективного хранения открытых данных для перспективы использования предсказательных инструментов в образовании

 

   Рассматривается проблема эффективного извлечения всех возможных подходящих под поставленную задачу открытых данных для анализа, извлечения новых знаний об успеваемости студентов и презентации дальнейших выводов. На примере экспериментальной работы продемонстрированы выявленные проблемы в области сбора и хранения данных.

   Ключевые слова: анализ данных, образовательный анализ данных, хранение данных, уменьшение отсева учащихся.

 

Nikandrov A.A.

HSPU

St. Petersburg, Russia

 

The problem of effective storage of open data for the prospects of using predictive tools in education

 

   The problem of effective extraction of all possible open data suitable for the analysis task, extraction of new knowledge about student performance, and presentation of further conclusions is considered. On the example of experimental work, the identified problems in the field of data collection and storage are demonstrated.

   Keywords: data analysis, educational data mining, data storage, student retention.

 

Введение

   Для профессионального персонализированного развития студентов необходим динамический подход к образовательному процессу [2]. В первую очередь требуется организовать эффективное извлечение открытых данных, удовлетворяющих требованиям исследовательской задачи для анализа и дальнейших выводов. Достижение решения поставленной задачи реализуемо лишь в случае привлечения автоматических средств с целью сбора и хранения данных. Далее на основании полученной информации применив современные предсказательные инструменты позволит приобретать новые знания.

 

   В настоящее время интеллектуальный анализ образовательных данных, как правило, фокусируется на разработке новых инструментов для обнаружения закономерности в данных. Образовательный анализ данных [3] —по крайней мере, в том виде, в каком он в настоящее время противопоставляется интеллектуальному анализу данных, — фокусируется на применении инструментов и методов в более крупных масштабах, таких как он-лайн курсы, школы и высшие учебные заведения. Но обе дисциплины работают с закономерностями и предсказаниями: если мы можем различить закономерность в данных и понять, что происходит, мы можем предсказать, что должно произойти дальше, и принять соответствующие меры.

 

   Интеллектуальный анализ образовательных данных и образовательный анализ используются для исследования и построения моделей в нескольких областях, которые могут влиять на системы онлайн-обучения. Моделирование пользователей профилирование визуализация результатов.

 

Материалы и методы

   Одной из важных областей является моделирование пользователей, которое включает в себя построение модели учащегося: что знает учащийся, каковы его поведение и мотивация, каков пользовательский опыт и насколько он удовлетворен онлайн-обучением. На самом простом уровне анализ может обнаружить, когда студент в онлайн-курсе сбивается с маршрута, и помочь в разрешении осложнений. В самом сложном случае позволяет обнаружить снижение внимания обучающегося по нажатиям клавиш и перенаправить внимание студента [4]. Поскольку эти данные собираются в режиме реального времени, существует реальная возможность непрерывного улучшения с помощью нескольких циклов обратной связи, которые работают в разных временных масштабах: немедленно ученику для решения следующей задачи, ежедневно учителю для организации учебного процесса на следующий день, ежемесячно директору для оценки прогресса и ежегодно районным и государственным служащим для общего улучшения школы.

 

   Для профилирования пользователей могут использоваться те же типы данных, на которых обучаются модели пользователя или обучаемого. Профилирование, используемое здесь, означает группировку похожих пользователей по категориям с использованием схожих характеристик. Затем эти категории могут быть использованы для предоставления соответствующего события группам пользователей или для выработки рекомендаций пользователям и адаптации к тому, как работает система.

 

   Как уже было сказано, моделирование и профилирование пользователей предполагает адаптацию в реальном времени. Напротив, некоторые приложения сбора и последующего анализа предназначены для более экспериментальных целей. Моделирование предметной области в значительной степени экспериментальный процесс с целью понимания того, как представить тему и на каком уровне детализации. Изучение компонентов обучения и принципов также использует экспериментирование, чтобы понять, что эффективно способствует обучению.

 

   Также стоит отметить визуальный анализ данных, популяризирующий полученные результаты, помогающий понять смысл данных, от первоначального обнаружения закономерностей и построения моделей до сложных информационных панелей, которые представляют данные в доступном непрофессиональному пользователю виде. Создание видимой учебной и оценочной деятельности студентов открывает возможность развить навыки мониторинга собственного обучения и непосредственно увидеть, как усилия преподавателей влияют на достижение их успеха. Преподаватели могут получить представление об успеваемости учащихся, которое помогает им адаптировать учебный процесс, инициировать организацию самостоятельной работы учащихся, репетиторство, индивидуальные задания и тому подобное.

 

   Надежное применение методов сбора и интеллектуального анализа образовательных данных сопряжено с затратами и проблемами по подготовке данных, а также с определенной ответственностью задействованных структур. Отделы информационных технологий (ИТ) должны понимать затраты, связанные со сбором и хранением протоколированных данных, в то время как разработчики алгоритмов должны осознавать вычислительные затраты, которые эти методы все еще требуют. Еще одна техническая проблема заключается в том, что образовательные информационные системы не всегда совместимы между собой, поэтому объединение административных данных и данных на уровне классов остается сложной задачей. Однако объединение этих данных может дать алгоритмам лучшую прогностическую силу. Объединение данных об успеваемости учащихся: онлайн-трекинг, стандартизированные тесты, тесты, созданные преподавателями, предназначены для формирования одной упрощенной картины того, что знает обучающийся, может быть трудным и должно соответствовать приемлемым стандартам валидности. Также необходимо обратить внимание на конфиденциальность студентов и преподавателей и соответствия этическим обязательствам, связанным со знанием и действиями на основе данных студентов.

 

   Сбор и последующий интеллектуальный анализ образовательных данных должен позволить извлечь данные скрытые от непосредственного наблюдения. Для оптимизации развития этой области преподавательским составам и администрациям образовательных учреждений рекомендуется [5]:

  • развивать культуру использования данных для принятия учебных решений,
  • вовлекать ИТ-отделы в планирование сбора и использования данных, причем начинать с конкретных областей, где данные помогут, покажут успех, а затем расширять их до новых областей,
  • оказывать помощь в согласовании государственной политики с техническими требованиями к системам онлайн-обучения.

 

   Исследователям и разработчикам программного обеспечения рекомендовано:

  • проводить исследования по удобству использования и эффективности моделей по сбору, хранению, обработке данных и визуализации результатов,
  • оказывать помощь преподавателям для повышения продуктивности при проведении занятий с помощью более эффективных инструментов поддержки принятия решений в режиме реального времени и на основе данных, включая рекомендательные услуги,
  • исследовать целесообразность использования идентифицированной и анонимизированной информации учащихся, а также механизмы перепрофилирования под конкретную исследовательскую ситуацию уже созданных прогностических моделей.

 

   Когда данные должным образом подготовлены, исследователь неизбежно достигает рефлексии в восприятии содержания, диапазона применимости и пределов использования данных. При правильной подготовке и обзоре данных качество создаваемых моделей для интеллектуального анализа будет зависеть главным образом от содержания данных, а не от способностей моделиста.

 

   В то же время, подчас вместо адекватной подготовки данных и точного обозрения данных строятся и перестраиваются трудоемкие модели в попытке понять данные. Моделирование и ремоделирование – это не самый экономичный и не самый эффективный способ узнать, что заключено в наборе данных. Если модель необходима, обзор показывает, какая именно модель (или несколько моделей, если они лучше всего подходят для этой цели) подходит, как ее построить, насколько хорошо она будет работать, где ее можно применить, насколько она надежна, и каковы ее пределы производительности. Все это можно сделать до того, как будет построена какая-либо модель, и за небольшую долю времени, необходимого для изучения данных с помощью моделирования.

 

   Из вышесказанного следует необходимость формирования надежного фундамента исследования – продуманно организованных данных, т.к. без них никакого практического интеллектуального анализа провести не удается.

 

   В качестве примера приведем наш опыт сбора данных с поддерживающих учебный процесс ресурсов, предоставляемых в Российском государственном университете им. А.И. Герцена в 2020 году [1].

 

   В 2020 году по причине пандемии в вузах Санкт-Петербурга было широко введено дистанционное обучение. Мы задались целью выявить связь между посещаемостью он-лайн занятий и успешностью обучения на отдельном он-лайн курсе, а также связь между баллами ЕГЭ и студенческой успешностью. Только по посещаемости отдельно взятой дисциплины вместе со средним баллов ЕГЭ в принципе не исключена возможность предсказать общий успех студента, т.е. допустим получение диплома бакалавра. Мы попытались рассмотреть информацию, которую можно извлечь по количеству присутствий отдельно взятого студента. Естественно предположить, что учащийся, посетивший более 90% занятий, с высокой вероятностью закроет дисциплину своевременно.

 

   Информация по посещаемости. Нами была проанализирована работа кабинета преподавателя: https://iis.herzen.spb.ru/, который позволяет заполнять электронные ведомости, электронный журнал, осуществлять запрос на открытие электронного курса в системе центра дистанционной поддержки обучения(ЦДПО) Moodle. Кабинет преподавателя позволяет обращаться в Интегрированную информационную систему управления учебным процессом (ИСУП) для работы с электронным справочником, атласом, путеводителем, к ресурсам дистанционной системы обучения Moodle, а также ресурсам фундаментальной библиотеки имени императрицы Марии Федоровны РГПУ им. А.И. Герцена. Хотя разработчиками переход в систему Moodle из ИСУП предусмотрен, но обмен данными не осуществляется, поэтому несмотря на то, что студенты университета активно пользовались ЦДПО Moodle в 2020 г., но, например, присутствие каждого из них на занятии не отслеживалось системой в удобном для преподавателя виде. Существующий в системе ИСУП журнал посещаемости при заполнении вручную не включает в себя возможность скачивания имеющейся информации по курсу, не предусмотрена возможность просмотра сводной таблицы. Поэтому преподаватель тратит время на заполнение журнала по каждому отдельному занятию и вынужден вести собственный, дополнительный учет посещаемости, например, для учета баллов по посещаемости и активности на курсе. Возможность отметить присутствующих с помощью данных передаваемых через систему Moodle пока отсутствует.

 

   Получается, преподаватель тратит время, чтобы внести в Электронный журнал информацию, которую потом крайне тяжело совокупно использовать для анализа. Это ведет к значительным суммарным временной и информационной потерям, т.к. учащийся может дать ответ не мгновенно при проведении онлайн «переклички». Ситуацию в данном случае усугубляли дефекты дистанционного соединения. Кроме выше озвученного страдает как раз процесс автоматизации анализа данных.

 

   Распознавание данных по ЕГЭ. На сайте Герценовского университета размещен приказ с уже зачисленными первокурсниками 2020 года. В качестве эксперимента эти данные в формате portable document format (PDF) были выгружены нами с сайта, а далее при помощи оптического распознавания символов, т.к. документ являлся ксерокопией, его содержимое было переведено в формат Excel Workbook (xlsx). К сожалению, показатели более половины студентов были утеряны (см. гистограмму). По дисциплине «Основы математической обработки информации» в первой половине 2020 учебного года были использованы действия 61 студента, но при этом из-за слабой поддержки открытых данных произошли серьёзные потери (до 21 человека) только во время сопоставления фамилии и имени отдельно взятого учащегося с его баллами (см. рис. 1). Хотя данные по суммарному баллу ЕГЭ были получены благодаря открытому доступу на сайте РГПУ им. А. И. Герцена, но для полноценного качественного анализа они оказываются не совсем пригодными, т.к. произошли серьёзные затруднения, связанные с извлечением необходимых мест с информацией. Проблемы были выявлены именно с форматом, ибо все листы в файле были отксерокопированы. В итоге необходимо было использовать оптическое распознавание символов, что на настоящий момент не всегда гарантирует полный успех. Часть информации была утрачена или оказалась доступна с ошибками в символах.

Рисунок 1 – Количественные потери при распознавании документа

 

Заключение

   Для использования предсказательных инструментов возможно использовать различные показатели, но в первую очередь их вообще надо откуда-то брать. Желательно в таком случае иметь уже хотя бы удобный и быстрый способ извлечения всего открытого и необходимого. Это значительно сэкономит время исследователя, к тому же серьёзно увеличит шансы на достоверность полученного результата. В настоящее время Центр дистанционной поддержки обучения РГПУ им. А. И. Герцена, а также сайт университета не имеют удобных возможных функций, необходимых для сбора подходящих содержательных образовательных данных.

 

Литература:

  1. Никандров А.А., Пиотровская К.Р. Анализ образовательных данных дисциплины «Основы математической обработки информации» // Проблемы теории и практики обучения математике. Сборник научных работ, представленных на Международную научную конференцию «73 Герценовские чтения». 2020. С. 91-97.
  2. Носкова Т.Н., Павлова Т.Б., Яковлева О.В. ИКТ-инструменты профессиональной деятельности педагога: сравнительный анализ российского и европейского опыта // Инграция образования. 2018. Т. 22. № 1 (90). С. 25-45.
  3. B.K. Bharadwaj and S. Pal. “Data Mining: A prediction for performance improvement using classification”, International Journal of Computer Science and Information Security (IJCSIS), Vol. 9, No. 4, pp. 136-140, 2011.
  4. Chalaris, Manolis, et al. "Examining students' graduation issues using data mining techniques-The case of TEI of Athens." INTERNATIONAL CONFERENCE ON INTEGRATED INFORMATION (IC-ININFO 2014): Proceedings of the 4th International Conference on Integrated Information. Vol. 1644. AIP Publishing, 2015.
  5. Richard A. Huebner «A survey of educational data-mining research», Research in Higher Education Journal, v 19 Apr 2013.

Оставить комментарий: