Original size 795x1118

Анализ данных FitBit Fitness Tracker Data

PROTECT STATUS: not protected
13

Описание

Был выбран набор данных, созданный респондентами распределенного опроса через Amazon. Механический турок в период с 03.12.2016 по 05.12.2016. Тридцать соответствующих критериям пользователей Fitbit дал согласие на отправку персональных данных трекера, в том числе поминутных выход для физической активности, частоты сердечных сокращений и мониторинга сна. Индивидуальный отчеты можно анализировать по идентификатору сеанса экспорта (столбец A) или метке времени (столбец B). Разница между выходными данными отражает использование различных типов трекеров Fitbit. и индивидуальное отслеживание поведения/предпочтений.

Выбранный для анализа на сайте https://www.kaggle.com/ датасет:

Ссылка: https://www.kaggle.com/datasets/arashnic/fitbit

big
Original size 2080x1016

Краткое описание изменений в проекте:

В ходе выполнения проекта я работала с данными, полученными с фитнес-браслетов. Основная цель заключалась в том, чтобы провести полноценный анализ и построить линейную модель, строго следуя критериям, предъявляемым к проекту.

Подготовка данных:

• Был выбран файл с дневной активностью, поскольку он содержит все необходимые для анализа признаки: количество шагов, калории, минуты активности и т. д. • Далее преобразовали формат даты и добавили новый признак: день недели (это наш категориальный признак). • Провела проверку на пропущенные значения — их не оказалось.

Данные брала с сайта-трекера: https://www.kaggle.com/datasets/arashnic/fitbit

документ с материалами, кодами

https://colab.research.google.com/drive/1Ob65nTvwbFkdfIvMz7hXzHLHSleZcd8S?usp=sharing

Original size 1922x870
0
Original size 1964x874

Фильтрация и сортировка:

• Были отфильтрованы пользователи, проходившие более 15 000 шагов в день, и проанализированы их калории. • Провела фильтрацию по двум условиям одновременно: количество шагов больше 12 000 и при этом меньше 800 минут сидячей активности. Это помогло сравнить разные стили поведения. • Для каждого случая выстроены графики

Original size 1904x374
0
Original size 1792x274
Original size 1814x1100
Original size 1914x388
0
Original size 1814x366
Original size 1936x1134

Создание новых признаков:

• Добавила признак «уровень активности» по количеству шагов (низкий, средний, высокий). • Создала признак, который показывает, сколько калорий тратится в среднем на 1000 шагов. Это позволило оценить эффективность.

Original size 1912x500
Original size 1850x392
Original size 1838x558
Original size 1924x978
Original size 1880x524
Original size 1858x398
Original size 1870x354
Original size 1918x1146

Сводные таблицы:

• Построила пять разных сводных таблиц, как требуется по критериям: с одной и несколькими группировками, одним и несколькими агрегатами, с разными методами (среднее, максимум и т. д.). • Каждую таблицу визуализировали.

Original size 1870x446
Original size 1842x500
0

Работа с выбросами:

Original size 1972x1208

• Сначала произвела очистку данных по признаку «калории» с помощью метода 3 стандартных отклонений.

Original size 1854x356
Original size 1834x396
0
Original size 1960x1120
Original size 1844x360
Original size 1832x284
Original size 1844x368
Original size 1890x1150

• Затем была произведена очистка по признаку «шаги» с помощью метода межквартильного размаха.

• Далее все расчёты и построения делались уже на очищенных данных.

Original size 1850x320
Original size 1854x502
0
Original size 1998x1150

Описательные статистики:

• Посчитала среднее, медиану, все квартильные значения, размах, дисперсию и стандартное отклонение по калориям. • Построила гистограммы и диаграммы для наглядности. • Также посчитала моду (самое частое значение) и количество уникальных значений для категориального признака — дня недели.

Original size 1868x378
Original size 1826x438
Original size 1842x482
Original size 1942x1024
Original size 1864x646
Original size 1868x432
Original size 1892x1126
Original size 1870x600
Original size 1860x332
Original size 1952x1146
Original size 1872x378
Original size 1828x970
0
Original size 1878x1012
Original size 1856x936
Original size 1882x1104
Original size 1846x944
Original size 1834x440
Original size 1846x988
Original size 1828x684
Original size 1854x448
Original size 1868x524

Корреляция:

• Вычислялись коэффициенты корреляции между всеми числовыми признаками. • Визуализация в виде тепловой карты. • Выделила два признака с самой сильной связью и построила по ним график разброса.

Original size 2172x1090
Original size 2168x864
Original size 2016x1018
Original size 2182x1124

Линейная регрессия:

• Была сформулирована задача: можно ли по количеству шагов предсказать количество сожжённых калорий. • Построила уравнение линейной зависимости. • Нарисовала прямую регрессии на графике и рассчитала метрики качества: точность, среднюю ошибку, и среднеквадратичное отклонение.

Original size 2098x590
Original size 2044x842
Original size 2044x562
Original size 2138x1126
Original size 2044x640

Итог работы:

Проект выполнен строго по всем требованиям. Все этапы проанализированы, графики построены, выводы сделаны. Использовались только корректные, очищенные данные. Визуализация помогает лучше понять поведение пользователей и эффективность их активности.

Original size 2322x698

Ссылка на генерацию обложки: https://app.leonardo.ai/image-generation

Анализ данных FitBit Fitness Tracker Data
13
We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...
Show more