
Предварительно расследовано преступлений, совершенных лицами, ранее совершавшими преступления
Водная часть
Для своего исследования я выбрала данные о количестве предварительно расследованных преступлений, совершённых ранее судимыми лицами, в различных регионах и субъектах Российской Федерации. Источник информации — открытый портал crimestat.ru, данные представлены в формате XML.
Анализ такой статистики имеет практическую значимость — он может способствовать выработке эффективных решений со стороны органов государственной власти и правоохранительных структур.
В рамках анализа я визуализирую данные с помощью круговых и линейных диаграмм, чтобы сделать информацию более наглядной и доступной для восприятия.
Процесс работы
Сравнение преступности в субъектах РФ и федеральных округах на основе предварительно расследованных преступлений, совершённых ранее судимыми лицами
Шаг 1: Загрузить .xml файл в Colab

Шаг 2: Прочитать XML-файл

Шаг 3: Посмотреть всех потомков indicatorData

Шаг 4: Посмотреть, что внутри одного подэлемента

После этого нам становится ясно, как устроены данные, каждая запись выглядит следующим образом: < row > < value >… < / value > < report_period_begin >… < / report_period_begin > < region_name >… < / region_name > < report_period_end >… < / report_period_end > < / row >
Шаг 5: Преобразуем XML в pandas DataFrame
Шаг 6: Построим график
(1) Сравнение преступности в субъектах РФ и федеральных округах на основе предварительно расследованных преступлений, совершённых ранее судимыми лицами
Разделим все регионы на два типа:
субъекты Российской Федерации (области, края, республики)
федеральные округа (например, Приволжский ФО, Южный ФО и т. п.)
Затем сравним совокупное количество преступлений, совершённых ранее судимыми, в этих двух группах.
Шаг 1: Добавим столбец «Тип» (Субъект РФ или Федеральный округ)
Шаг 2: Суммируем значения по типу региона
Шаг 3: Рисуем диаграмму
(2) Топ-10 регионов с наибольшим ростом преступлений во втором полугодии
Сравним два периода:
первое полугодие (например, до 01.07.2022)
второе полугодие (например, до 01.12.2022)
И найдём регионы, где прирост был наибольшим.
Шаг 1: Загрузка и парсинг XML
Шаг 2. Оставим только два периода
Шаг 3. Преобразуем таблицу: строки — регионы, столбцы — периоды
Шаг 4. Отберём топ-10 регионов по приросту
Шаг 5. Построим столбчатую диаграмму
(3) Тепловая карта: Преступления ранее судимыми в топ-20 регионах РФ
Шаг 1: Загрузка и парсинг XML
Шаг 2: Создадим сводную таблицу
Шаг 3: Визуализируем — создадим тепловую карту
(4) Вариант графика: Линейная диаграмма динамики по федеральным округам
Покажем, как менялась динамика преступлений, совершённых ранее судимыми лицами, по федеральным округам за годы.
Шаг 1: Загрузка и парсинг XML
Шаг 2: Отфильтруем только федеральные округа
Шаг 3: Сгруппируем по году и округу
Шаг 4: Преобразуем в таблицу для графика
Шаг 4: Построим линейный график
(5) Диаграмма рассеяния: Преступность и её изменение по регионам
Покажем не только абсолютное число преступлений, но и насколько оно изменилось по сравнению с предыдущим периодом.
Шаг 1. Укажем путь к XML-файлу
Шаг 2. Распарсим XML-файл и собери таблицу
Шаг 3. Выделим данные за июль и декабрь 2022
Шаг 4. Объединим и рассчитаем изменения
Шаг 7. Построим scatter plot