
Описание
Был выбран набор данных, созданный респондентами распределенного опроса через Amazon. Механический турок в период с 03.12.2016 по 05.12.2016. Тридцать соответствующих критериям пользователей Fitbit дал согласие на отправку персональных данных трекера, в том числе поминутных выход для физической активности, частоты сердечных сокращений и мониторинга сна. Индивидуальный отчеты можно анализировать по идентификатору сеанса экспорта (столбец A) или метке времени (столбец B). Разница между выходными данными отражает использование различных типов трекеров Fitbit. и индивидуальное отслеживание поведения/предпочтений.
Выбранный для анализа на сайте https://www.kaggle.com/ датасет:

Краткое описание изменений в проекте:
В ходе выполнения проекта я работала с данными, полученными с фитнес-браслетов. Основная цель заключалась в том, чтобы провести полноценный анализ и построить линейную модель, строго следуя критериям, предъявляемым к проекту.
Подготовка данных:
• Был выбран файл с дневной активностью, поскольку он содержит все необходимые для анализа признаки: количество шагов, калории, минуты активности и т. д. • Далее преобразовали формат даты и добавили новый признак: день недели (это наш категориальный признак). • Провела проверку на пропущенные значения — их не оказалось.
Данные брала с сайта-трекера: https://www.kaggle.com/datasets/arashnic/fitbit
документ с материалами, кодами
https://colab.research.google.com/drive/1Ob65nTvwbFkdfIvMz7hXzHLHSleZcd8S?usp=sharing
Фильтрация и сортировка:
• Были отфильтрованы пользователи, проходившие более 15 000 шагов в день, и проанализированы их калории. • Провела фильтрацию по двум условиям одновременно: количество шагов больше 12 000 и при этом меньше 800 минут сидячей активности. Это помогло сравнить разные стили поведения. • Для каждого случая выстроены графики
Создание новых признаков:
• Добавила признак «уровень активности» по количеству шагов (низкий, средний, высокий). • Создала признак, который показывает, сколько калорий тратится в среднем на 1000 шагов. Это позволило оценить эффективность.
Сводные таблицы:
• Построила пять разных сводных таблиц, как требуется по критериям: с одной и несколькими группировками, одним и несколькими агрегатами, с разными методами (среднее, максимум и т. д.). • Каждую таблицу визуализировали.
Работа с выбросами:
• Сначала произвела очистку данных по признаку «калории» с помощью метода 3 стандартных отклонений.
• Затем была произведена очистка по признаку «шаги» с помощью метода межквартильного размаха.
• Далее все расчёты и построения делались уже на очищенных данных.
Описательные статистики:
• Посчитала среднее, медиану, все квартильные значения, размах, дисперсию и стандартное отклонение по калориям. • Построила гистограммы и диаграммы для наглядности. • Также посчитала моду (самое частое значение) и количество уникальных значений для категориального признака — дня недели.
Корреляция:
• Вычислялись коэффициенты корреляции между всеми числовыми признаками. • Визуализация в виде тепловой карты. • Выделила два признака с самой сильной связью и построила по ним график разброса.
Линейная регрессия:
• Была сформулирована задача: можно ли по количеству шагов предсказать количество сожжённых калорий. • Построила уравнение линейной зависимости. • Нарисовала прямую регрессии на графике и рассчитала метрики качества: точность, среднюю ошибку, и среднеквадратичное отклонение.
Итог работы:
Проект выполнен строго по всем требованиям. Все этапы проанализированы, графики построены, выводы сделаны. Использовались только корректные, очищенные данные. Визуализация помогает лучше понять поведение пользователей и эффективность их активности.
Ссылка на генерацию обложки: https://app.leonardo.ai/image-generation