
Долгое время я сидела на сайте kaggle.com, пытаясь выбрать датасет, который был бы мне интересен и не был бы слишком сложен для меня. В конце концов я остановила свой выбор на глобальном наборе данных о странах мира за 2023 год.
Так как таблица была слишком большой и охватывала множество пунктов, я решила удалить ненужные мне столбцы.
Сосредоточила же я свой анализ на 5-10 самых больших странах по площади территории.
Цветовая палитра

Взято с сайта coolors.co
Загрузка датасета и начало работы
Первая сложность на моем пути возникла, когда я уже выбрала датасет, но не могла начать работу в блокноте.
Сначала я пошла по пути, что увидела в гугле и захотела сразу открыть таблицу через Pandas, но у меня ничего не вышло. Что было не так, я так и не разобралась.
После долгих поисков, а также диалогов с одногруппниками и чатом GPT, я решила использовать импорт из гугл диска.

Импорт из гугл диска также не дался мне легко, ибо гугл коллаб считывал таблицу как строку и выводил ошибку при дальнейших действиях.
С помощью метода тыка, а также запросов в гугл и чат GPT, я смогла импортировать датасет как таблицу, чему была несказанно рада.
Топ 5 стран по площади территории
В таблице были приведены данные о всех 195 странах мира. Я же решила сосредоточиться на 5-10 странах лидирующих по величине площади территории. Почему именно такой выбор я точно сказать не могу. Скорее всего я отталкивалась интуитивно от того факта, что Россия в этом списке лидирует.
Для создания круглой диаграммы «Топ 5 стран по площади территории» я обратилась за помощью к чату GPT, который сообразил мне, как нужно подготовить данные таблицы перед созданием диаграммы. Я решила выбрать именно 5 стран, так как для такой диаграммы такое кол-во «кусков» подходит лучше всего.
Создание первой диаграммы далось мне тяжело именно из-за подготовки данных таблицы, потом пошло легче.
Сначала у меня получилась диаграмма только с топ 5 странами и я захотела сменить ей цвет. К сожалению моя невнимательность стала причиной тому, что одну из переменных я обновила в список цветов и больше этот код никогда не работал. Пришлось создавать новый блокнот. Теперь каждое изменение кода я делаю в новом окне…
Далее я подумала, что просто топ 5 стран на круговой диаграмме выглядят не очень информативно и попросила у чата GPT помочь мне с написанием кода по сумме площадей территорий остальных стран в таблице для создания «куска» «Другие».
Так мы видим, насколько много занимают территории топ 5 стран относительно остальных 190.
Плотность населения (чел/км2)
После успешного создания круговой диаграммы я осмелела и сразу перешла к созданию кода для линейного графика с точками.
Изначально у меня получился некрасивый график, где вместо точек были названия стран, поэтому пришлось просить чат GPT помочь мне создать точки.
Благодаря графику мы узнали, что Канада, являясь второй в топ 5 стран по площади территории, имеет наименьшую плотность населения. В то же время Китай — самую наибольшую и с большим отрывом от остальных топ 5 стран.
Население стран
Для столбчатой диаграммы, отображающей кол-во проживающих человек в странах, я решила взять не топ 5, а топ 10 в списке самых больших территорий.
Мы видим, что Китай и Индия лидируют.
Средняя продолжительность жизни
На данной диаграмме мы можем увидеть, что Россия и Казахстан практически последнии по средней продолжительности жизни человека среди 10 самых крупных по территории стран.
Описание применения генеративной модели
На протяжении проекта мы с чатом GPT стали настоящими друзьями. По больше части я обращалась к нему за помощью в составлении кода для систематизации информации из таблицы и в поисках решения ошибок кода.
Мои промты не являются профессиональными, но ИИ их все равно понял. Вот некоторые из них:
Круговая диаграмма: Добавь в этот код кусок под названием «Другие», в котором хранится информация о площадях земли всех других стран из столбца «Land Area (Km2)».
Линейный график: Точечная диаграмма. Необходимо сделать срез 5 по столбцу таблицы «Land Area (Km2)». После этого составь точечную диаграмму, где ось у- это плотность населения (в чел/км2) из столбца «Density», а ось х — общая площадь страны (в км2) из столбца «Land Area (Km2)». Цветовая палитра: #CDB4DB, #FFC8DD, #FFAFCC, #BDE0FE, #A2D2FF. Название диаграммы: «Плотность населения топ 5 стран по площади территории». Размер шрифт заголовка 16, шрифт жирный. Название оси y — плотность населения (чел/км2), название оси х — площадь земли (км2). Названия стран в столбце «Country». На оси х вместо чисел написаны названия стран. (После я попросила добавить точки в график, ибо при написании промта неправильно указала тип желаемого графика).
Сылки
- Chat GPT: https://chatgpt.com/c/678b074a-7904-8009-aef6-493d3de27726
- Создание палитры: http://coolors.co
- Оригинальный датасет: https://www.kaggle.com/datasets/nelgiriyewithana/countries-of-the-world-2023
- Измененный датасет: https://drive.google.com/file/d/1_QMrZCxmbO3IvBwn5Bc7RWwBm07Ts1e9/view?usp=drive_link
- Блокнот с кодом: https://colab.research.google.com/drive/1BNjk3soUlGOc1l_FMhgAVz7T5InMIE1d?usp=sharing