
О проекте
Выбор данной темы был обусловлен тем, что изучение данных, влияющих на успеваемость студентов, важно для выявления ключевых факторов, таких как время учебы, стиль обучения, участие в обсуждениях, уровень стресса и сон, которые напрямую влияют на результаты. Это позволяет создавать персонализированные программы обучения, улучшать качество образования, своевременно поддерживать студентов с трудностями и эффективно распределять ресурсы, что в итоге повышает общую успеваемость и успешность студентов.
В качестве источника я использовала базу данных Kaggle Student Performance & Learning Style.

Цветовая палитра

Генерация Adobe Color
Цветовая палитра была вдохновлена основными цветами шариковых нам ручек. Для меня именно текстура и цвет самих канцелярских принадлежностей уже имеет определенную ценность как важный элемент обучения и дисциплины.
Визуализация
Выявление данных и закономерностей в обучении студентов играет важную роль в повышении качества образования и успешности обучающихся. Анализ таких данных позволяет понять, какие факторы влияют на успеваемость студентов, что помогает образовательным учреждениям и преподавателям принимать обоснованные решения для улучшения учебного процесса.
Генерация Recraft
Как первый фактор я взяла зависимость посещаемости и итогового балла на экзамене.
Данная точечная диаграмма демонстрирует зависимость между уровнем посещаемости студентов и их результатами на экзаменах. На графике видно, что в целом студенты с более высокой посещаемостью имеют тенденцию получать более высокие экзаменационные баллы. Это указывает на положительную корреляцию между регулярным посещением занятий и успеваемостью, что логично, поскольку активное участие в учебном процессе и присутствие на занятиях способствуют лучшему усвоению материала. Однако, несмотря на общую тенденцию, на графике также присутствует разброс значений, что говорит о том, что посещаемость — не единственный фактор, влияющий на успех на экзаменах. Другие переменные, такие как качество подготовки, стиль обучения, уровень стресса и использование образовательных технологий, также могут играть важную роль в формировании итоговых результатов.
import matplotlib.pyplot as plt import seaborn as sns
plt.figure (figsize=(10, 6)) sns.scatterplot (x='Attendance_Rate (%)', y='Exam_Score (%)', data=df, color='darkblue', edgecolor='white', alpha=0.7) plt.title ('Зависимость между посещаемостью и экзаменационным баллом', fontsize=18, fontweight='bold') plt.xlabel ('Attendance Rate (%)', fontsize=14) plt.ylabel ('Exam Score (%)', fontsize=14) plt.grid (True, axis='y', linestyle='--', alpha=0.7) plt.tight_layout () plt.show ()
Следующая визуализация показывает то, как количество потраченный на учебу часов влияет на средний балл студентов.
Из графика видно, что средний балл экзамена не растет линейно с увеличением часов учебы. Например, студенты, которые учатся очень мало (0-5 часов в неделю), показывают высокий средний балл, затем баллы снижаются в группах с 5 до 25 часов, после чего наблюдается резкий рост среднего балла в группе с 25-30 часами учебы. Далее средний балл колеблется, но не показывает устойчивого роста с увеличением часов учебы.
Это может указывать на то, что количество часов учебы в неделю не является единственным или прямым фактором, влияющим на успех на экзамене, и что существуют другие важные переменные, влияющие на результаты студентов. Также возможно, что слишком большое или слишком малое количество часов учебы не всегда коррелирует с лучшими результатами, и важна оптимальная учебная нагрузка.
import matplotlib.pyplot as plt import seaborn as sns
categories = df['Preferred_Learning_Style'].unique ()
pen_colors = ['black', 'red', 'darkblue']
palette_pen = pen_colors * (len (categories) // len (pen_colors)) + pen_colors[: len (categories) % len (pen_colors)]
plt.figure (figsize=(12, 7)) sns.boxplot (x='Preferred_Learning_Style', y='Exam_Score (%)', data=df, palette=palette_pen)
plt.title ('Влияние Preferred_Learning_Style на Exam_Score (%)', fontsize=18, fontweight='bold') plt.xlabel ('Preferred Learning Style', fontsize=14) plt.ylabel ('Exam Score (%)', fontsize=14) plt.grid (True, axis='y', linestyle='--', alpha=0.7) plt.xticks (fontsize=12) plt.yticks (fontsize=12) plt.tight_layout () plt.savefig ('preferred_learning_style_vs_exam_score_pen_colors_fixed.png') plt.show ()
Следующий график показывает, как средний процент баллов на экзамене меняется в зависимости от групп студентов, сгруппированных по количеству часов учебы в неделю.
Балл не увеличивается линейно с ростом часов учебы. Например, студенты, которые учатся очень мало (0-5 часов в неделю), имеют высокий средний балл, затем баллы снижаются в группах с 5 до 25 часов, после чего наблюдается резкий рост среднего балла в группе с 25-30 часами учебы. Далее баллы колеблются, но не показывают устойчивого роста с увеличением часов.
Это может означать, что количество часов учебы — не единственный фактор, влияющий на успех на экзамене, и важна оптимальная учебная нагрузка, а также другие факторы, влияющие на результаты.
import matplotlib.pyplot as plt import numpy as np
bins = np.arange (0, df['Study_Hours_per_Week'].max () + 5, 5) df['Study_Hours_Bin'] = pd.cut (df['Study_Hours_per_Week'], bins)
mean_scores = df.groupby ('Study_Hours_Bin')['Exam_Score (%)'].mean ().reset_index ()
plt.figure (figsize=(10, 6)) plt.plot (mean_scores['Study_Hours_Bin'].astype (str), mean_scores['Exam_Score (%)'], marker='o', color='darkblue') plt.title ('Средний Exam_Score (%) по группам Study_Hours_per_Week', fontsize=18, fontweight='bold') plt.xlabel ('Часы учебы в неделю (группы)', fontsize=14) plt.ylabel ('Средний Exam_Score (%)', fontsize=14) plt.xticks (rotation=45) plt.grid (True, axis='y', linestyle='--', alpha=0.7) plt.tight_layout () plt.show ()
Данный график показывает влияние времени, проведенного студентами уже в социальных сетях (, на их средний балл на экзамене. Из графика видно, что связь между временем в соцсетях и успеваемостью не является однозначной или линейной. Средний балл колеблется в разных диапазонах времени, иногда достигая пиков при определенных значениях часов, но в целом не демонстрирует устойчивого снижения или повышения с увеличением времени в соцсетях.
Это может свидетельствовать о том, что время, проведенное в социальных сетях, не оказывает прямого и однозначного влияния на академическую успеваемость студентов. Возможно, важны другие факторы, такие как качество использования времени, баланс между учебой и отдыхом, а также индивидуальные особенности студентов.
import matplotlib.pyplot as plt
plt.figure (figsize=(10, 6)) plt.plot (social_media_groups['Time_Spent_on_Social_Media (hours/week)'], social_media_groups['avg_exam_score'], marker='o', color='darkblue') plt.title ('Влияние времени, проведенного в соцсетях, на оценку студента', fontsize=18, fontweight='bold') plt.xlabel ('Время, проведенное в соцсетях (часов в неделю)', fontsize=14) plt.ylabel ('Средний балл (Exam Score %)', fontsize=14) plt.grid (True, axis='y', linestyle='--', alpha=0.7) plt.savefig ('social_media_vs_exam_score_matplotlib.png') plt.show ()
Здесь график показывает распределение студентов по итоговым оценкам в зависимости от использования ими образовательных технологий. Среди студентов, использующих образовательные технологии, больше тех, кто получил высокие оценки, по сравнению с теми, кто не использует технологии. Также количество студентов с низкими оценками меньше в группе пользователей технологий.
Это свидетельствует о положительном влиянии использования образовательных технологий на успеваемость студентов — они чаще получают более высокие итоговые оценки.
import matplotlib.pyplot as plt import seaborn as sns
plt.figure (figsize=(12, 7)) sns.countplot (data=df, x='Use_of_Educational_Tech', hue='Final_Grade', palette=['black', 'red', 'darkblue', 'green', 'purple']) plt.title ('Использование образовательных технологий и итоговая оценка', fontsize=18, fontweight='bold') plt.xlabel ('Использование образовательных технологий', fontsize=14) plt.ylabel ('Количество студентов', fontsize=14) plt.grid (True, axis='y', linestyle='--', alpha=0.7) plt.show ()
Заключение
Генерация Recraft
Анализ данных датасета имеет важное значение для понимания факторов, влияющих на успеваемость студентов, и позволяет выявить ключевые закономерности в образовательном процессе. Полученные результаты имеют возможность помочь определить, какие аспекты учебной деятельности, такие как количество часов учебы, использование образовательных технологий, участие в обсуждениях и время, проведенное в социальных сетях, оказывают существенное влияние на итоговые оценки и экзаменационные баллы. Это знание способствует более эффективному планированию учебных программ, адаптации методов преподавания и созданию условий, способствующих максимальному раскрытию потенциала каждого студента. В конечном итоге, анализ данных помогает образовательным учреждениям принимать обоснованные решения, направленные на повышение качества образования и успешности обучающихся, что является ключевым фактором развития современного общества.
Ресурсы
Генерация Recraft