

О проекте
Для финального проекта по курсу я выбрала данные о сердечных заболеваниях, найденные на сайте Kaggle. Мне стало интересно проанализировать именно эти данные, потому что заболевания сердца — это одна из самых распространённых причин смерти в мире. Помимо этого, приведенная проблема затрагивает мою семью напрямую, а также многих из нас, кто потерял близких из-за внезапно случившего инфаркта. Я хотела посмотреть, какие факторы действительно оказывают влияние и можно ли с помощью данных предсказать риск. Анализ данных сердечных заболеваний поможет понять, на что стоит обращать внимание в первую очередь, чтобы снизить риски и жить дольше.

Для визуализации данных я выбрала две круговые диаграммы (показывает соотношение здоровых и больных, а также долю мужчин и женщин среди больных пациентов), гистограмму (отображает возрастное распределение пациентов), точечную диаграмму (демонстрирует связь возраста с максимальным пульсом) и тепловую карту (выявляет ключевые взаимосвязи между показателями). Каждый график помогает раскрыть разные аспекты сердечно-сосудистых заболеваний.
Палитра

Для цветовой палитры проекта были использованы насыщенные оттенки, подобранные с помощью Adobe Color, отражающие медицинскую тематику: глубокий бордовый (D9435F) и нежный розовый (F27983) символизируют сердце и кровеносную систему, темно-бирюзовый (075959) добавляет акцент профессиональной достоверности, а приглушенный пыльно-розовый (D99191) смягчает композицию, создавая баланс между эмоциональным воздействием и клинической точностью. Такая гамма визуально связывает проект с темой кардиологии и подчеркивает важность здоровья сердца.
Обработка данных
Первым делом я импортировала необходимые библиотеки: pandas для работы с данными, matplotlib.pyplot и seaborn для построения графиков, а также numpy для математических операций.
Затем я загрузила датасет heart.csv, который содержит данные о пациентах и их сердечных показателях. Этот шаг позволил мне получить доступ ко всем данным и начать анализ.
Для соблюдения единого стиля всех графиков я создала словарь colors, где каждому ключу соответствует определённый цвет из моей палитры, что позволило удобно обращаться к цветам при построении графиков.
После этого я настроила общий стиль графиков, установив цвет фона графиков, цвет текста и шрифт.
Визуализация данных
Круговые диаграммы
Следующим шагом стало создание круговой диаграммы, которая показывает соотношение здоровых и больных пациентов.
Я подсчитала количество пациентов в каждой категории, задала подписи и выбрала цвета из палитры.
Затем я построила сам график. График был дополнен заголовком, удалена ненужная подпись оси Y, и он был сохранён в файл.
Круговая диаграмма показывает, что доля пациентов с сердечными заболеваниями составляет около 54,5%, а доля здоровых пациентов — около 45,5%. Это говорит о том, что среди обследуемых преобладают пациенты с признаками сердечной патологии. Разница между группами — около 9%, что подчеркивает важность анализа факторов риска и необходимости ранней диагностики.
Далее мне стало интересно: какую процентную долю среди людей с заболеванием сердца составляют мужчины, а какую женщины. Для этого я построила следующую диаграмму.
Круговая диаграмма показала, что среди больных пациентов доля мужчин составляет около 56,4%, а доля женщин — 43,6%. Это говорит о том, что мужчины чаще сталкиваются с сердечными заболеваниями.
Гистограмма
Для анализа возрастного фактора я построила гистограмму, чтобы понять, в какой возрастной группе чаще встречается заболевание.
Гистограмма демонстрирует, что большинство пациентов находятся в возрасте от 50 до 65 лет, средний возраст — около 54 лет. Это позволяет сделать вывод, что основная группа риска — это люди среднего и предпенсионного возраста. Также наблюдается относительно малое количество молодых пациентов, что может быть связано как с низкой заболеваемостью в этой группе, так и с особенностями сбора данных.
Точечная диаграмма
Чтобы выявить связь между возрастом и максимальным пульсом, я построила точечную диаграмму, разделив точки по наличию болезни.
Точечная диаграмма выявила обратную зависимость: с увеличением возраста максимальный пульс снижается. Особенно выражено это у пациентов с сердечной болезнью. Это может говорить о снижении функциональной активности сердца с возрастом и при наличии патологии. Такая закономерность даёт основание полагать, что пульс может быть одним из маркеров состояния сердечно-сосудистой системы.
Тепловая карта
Для выявления взаимосвязей между числовыми параметрами я построила тепловую карту.
Сначала была создана матрица корреляции и маска для скрытия дубликатов, затем построена сама тепловая карта.
Тепловая карта позволила выделить ключевые факторы, связанные с риском сердечных заболеваний: exang — стенокардия при нагрузке, oldpeak — смещение ST-сегмента, ca — число поражённых сосудов, thal — таллиевый дефект и age — возраст.
Однако многие параметры слабо коррелируют между собой, поэтому их влияние стоит рассматривать в совокупности. Это делает прогнозирование более сложным и требует комплексного подхода при диагностике.
Описание применения генеративной модели
Для создания обложек и иллюстративного сопровождающего материала была использована нейросеть recraft.ai.
Список промптов для генерации каждого изображения: https://docs.google.com/document/d/1eS51DOZtMQw3htj821K_TwXKf9qhNeDp7QVup3M7Q1I/edit?usp=sharing
Ссылка на модель: https://www.recraft.ai/
Источники
[1] Heart Disease Dataset https://www.kaggle.com/datasets/nzr8225/heart-disease-dataset/data
[2] Создание цветовой палитры: https://color.adobe.com/ru/