
Описание
Туберкулёз — серьёзное инфекционное заболевание, с которым человечество борется из покон веков. Огромное количество людей, поражённое этой болезнью, гибло, не в силах побороть её, и даже в наши дни, когда медицина вышла на новый уровень, поражение этой инфекцией может иметь смертельный исход, если вовремя не начать лечение. Я выбрала именно эту тему, так как сама проходила через лечение от данного заболевания. Это оставило отпечаток на всю мою жизнь. Из-за чего я решила поглубже погрузиться в неё и исследовать некоторые данные.
Для представления результатов анализа я выбрала несколько типов графиков:
1. Столбчатые диаграммы для сравнения количественных показателей между различными группами. 2. Составные (stacked) диаграммы для отображения пропорций в разных категориях. 3. Тепловые карты для визуализации взаимосвязей между различными факторами. 4. Комбинированные графики для одновременного представления нескольких аспектов данных.
Я решила, что такой набор графиков позволит наиболее полно и наглядно представить результаты анализа, делая их доступными даже для людей без специальной подготовки.
Выбор данных
Для анализа был выбран датасет, который содержит подробную информацию о пациентах, их симптомах и диагнозах. Этот набор данных особенно интересен, поскольку позволяет исследовать взаимосвязи между различными факторами риска и вероятностью положительного диагноза туберкулеза. Данные включают такие параметры как:
1. Возраст и пол пациентов 2.Тяжесть симптомов (кашель, одышка, усталость, потеря веса) 3. Наличие крови в мокроте 4. История курения 5. Предыдущая история туберкулеза 6. Наличие ночной потливости 7. И многие другие показатели
Основной целью данного проекта является выявление ключевых закономерностей и взаимосвязей между различными факторами и диагнозом туберкулеза с помощью представления результатов в виде понятных и информативных визуализаций.
Оформление
Особое внимание было уделено стилизации визуализаций для создания единого визуального языка:
1. Была выбрана единая цветовая схема с основными цветами: #3498db (синий), #e74c3c (красный), #2ecc71 (зеленый), #f39c12 (оранжевый), #9b59b6 (фиолетовый) 2. Все графики имеют одинаковый фоновый цвет и стиль сетки 3. Подписи осей и заголовки оформлены в едином стиле 4. На всех графиках добавлены числовые значения для лучшего восприятия данных 5. Высокое разрешение (600 DPI) обеспечивает четкость изображений даже при печати.
#3498db (синий), #e74c3c (красный), #2ecc71 (зеленый), #f39c12 (оранжевый), #9b59b6 (фиолетовый)
Для стилизации я не стала использовать готовые шаблоны, а создал собственный стиль, который лучше всего подходит для визуализации медицинских данных.
График 1: Распределение пациентов по возрасту и диагнозу
Этот график показывает, как возраст пациентов связан с вероятностью положительного или отрицательного диагноза туберкулеза. Можно видеть, что определенные возрастные группы имеют повышенный риск заболевания.
График 2: Средняя тяжесть симптомов при различных диагнозах
Визуализация сравнивает среднюю тяжесть основных симптомов (кашель, одышка, усталость, потеря веса) у пациентов с положительным и отрицательным диагнозом. Это позволяет выявить наиболее характерные симптомы для туберкулеза.
График 3: Распределение наличия крови в мокроте по диагнозу
Стековая диаграмма показывает процентное соотношение пациентов с наличием или отсутствием крови в мокроте в зависимости от диагноза. Кровь в мокроте является одним из важнейших симптомов при диагностике туберкулеза.
График 4: Влияние курения на тяжесть кашля при разных диагнозах
Этот график иллюстрирует, как история курения влияет на тяжесть кашля у пациентов с положительным и отрицательным диагнозом. Можно увидеть, усугубляет ли курение тяжесть симптомов при туберкулезе.
График 5: Комбинированный анализ симптомов и истории ТБ
Двойная визуализация показывает:
1. Влияние предыдущей истории туберкулеза на тяжесть симптомов. 2. Распределение интенсивности ночной потливости в зависимости от диагноза.
Этот комбинированный график позволяет выявить важные взаимосвязи, которые могут помочь в более точной диагностике заболевания.
Выводы
Проведенный анализ данных о туберкулезе выявил несколько важных закономерностей:
1. Тяжесть симптомов действительно коррелирует с положительным диагнозом, особенно это касается кашля и кровохарканья. 2. История курения значительно влияет на тяжесть симптомов, особенно у пациентов с положительным диагнозом. 3. Наличие предыдущего опыта заболевания туберкулезом увеличивает вероятность положительного диагноза в текущем обследовании. 4. Ночная потливость является важным индикатором для диагностики, существенно чаще встречаясь у пациентов с положительным диагнозом.
Подобный анализ может иметь практическую ценность для медицинских работников, помогая им выявлять пациентов с повышенным риском туберкулеза и более точно интерпретировать комбинации симптомов.
Описание применения генеративной модели
В данном проекте была использована генеративная модель Claude от компании Anthropic. Модель применялась для создания Python-кода для обработки и визуализации данных, а также для разработки единого стиля оформления графиков. Вот основные задачи, которые я решала с её помощью:
1. Написание эффективного и чистого кода для обработки данных 2. Подбор оптимальных параметров для визуализации 3. Создание универсального кода, который корректно работает с разными форматами входных данных 4. Повышение читаемости графиков и общего качества визуализаций
Основными промптами были:
1. «Создай код для анализа данных о туберкулезе с использованием Python» 2. «Улучши визуализацию данных, повысив разрешение и читаемость графиков» 3. «Сделай универсальный код, работающий с английскими названиями колонок» 4. «Упрости код, убрав лишние комментарии и сохранив функциональность»
Основным преимуществом использования Claude было значительное ускорение процесса разработки кода и повышение его качества. Модель помогла создать универсальный код, который корректно работает с различными форматами входных данных и автоматически адаптируется к ним.
Кроме того, Claude помог в оптимизации визуальных параметров графиков, повышении их четкости и информативности, что сделало результаты анализа более понятными и доступными.
Заключение
Проект демонстрирует, как визуализация данных может помочь в медицинских исследованиях, делая сложные взаимосвязи более наглядными и понятными. Созданные графики могут быть полезны как для медицинских работников, так и для образовательных целей.
Ссылки
1. Ссылка на используемую генеративную модель: https://claude.ai
2. Блокнот и Датасет: https://drive.google.com/drive/folders/1RyAPCbaZOgGYtxmAheJTT1s1RVN31Cti?usp=drive_link
3. Colored x-ray of the chest patient with lung cancer // motion elements URL: https://www.motionelements.com/ru/stock-image-25368476-colored-x-ray-of-the-chest-patient-with-lung-cancer (дата обращения: 23.03.2025).