Original size 2480x3500

Анализ самых больших стран мира

PROTECT STATUS: not protected
4

Долгое время я сидела на сайте kaggle.com, пытаясь выбрать датасет, который был бы мне интересен и не был бы слишком сложен для меня. В конце концов я остановила свой выбор на глобальном наборе данных о странах мира за 2023 год.

Так как таблица была слишком большой и охватывала множество пунктов, я решила удалить ненужные мне столбцы.

Сосредоточила же я свой анализ на 5-10 самых больших странах по площади территории.

Цветовая палитра

big
Original size 3500x2480

Взято с сайта coolors.co

Загрузка датасета и начало работы

Первая сложность на моем пути возникла, когда я уже выбрала датасет, но не могла начать работу в блокноте.

Сначала я пошла по пути, что увидела в гугле и захотела сразу открыть таблицу через Pandas, но у меня ничего не вышло. Что было не так, я так и не разобралась.

После долгих поисков, а также диалогов с одногруппниками и чатом GPT, я решила использовать импорт из гугл диска.

big
Original size 3500x2266

Импорт из гугл диска также не дался мне легко, ибо гугл коллаб считывал таблицу как строку и выводил ошибку при дальнейших действиях.

С помощью метода тыка, а также запросов в гугл и чат GPT, я смогла импортировать датасет как таблицу, чему была несказанно рада.

Топ 5 стран по площади территории

В таблице были приведены данные о всех 195 странах мира. Я же решила сосредоточиться на 5-10 странах лидирующих по величине площади территории. Почему именно такой выбор я точно сказать не могу. Скорее всего я отталкивалась интуитивно от того факта, что Россия в этом списке лидирует.

Для создания круглой диаграммы «Топ 5 стран по площади территории» я обратилась за помощью к чату GPT, который сообразил мне, как нужно подготовить данные таблицы перед созданием диаграммы. Я решила выбрать именно 5 стран, так как для такой диаграммы такое кол-во «кусков» подходит лучше всего.

0

Создание первой диаграммы далось мне тяжело именно из-за подготовки данных таблицы, потом пошло легче.

Сначала у меня получилась диаграмма только с топ 5 странами и я захотела сменить ей цвет. К сожалению моя невнимательность стала причиной тому, что одну из переменных я обновила в список цветов и больше этот код никогда не работал. Пришлось создавать новый блокнот. Теперь каждое изменение кода я делаю в новом окне…

Далее я подумала, что просто топ 5 стран на круговой диаграмме выглядят не очень информативно и попросила у чата GPT помочь мне с написанием кода по сумме площадей территорий остальных стран в таблице для создания «куска» «Другие».

Так мы видим, насколько много занимают территории топ 5 стран относительно остальных 190.

Плотность населения (чел/км2)

После успешного создания круговой диаграммы я осмелела и сразу перешла к созданию кода для линейного графика с точками.

Изначально у меня получился некрасивый график, где вместо точек были названия стран, поэтому пришлось просить чат GPT помочь мне создать точки.

0

Благодаря графику мы узнали, что Канада, являясь второй в топ 5 стран по площади территории, имеет наименьшую плотность населения. В то же время Китай — самую наибольшую и с большим отрывом от остальных топ 5 стран.

Население стран

Для столбчатой диаграммы, отображающей кол-во проживающих человек в странах, я решила взять не топ 5, а топ 10 в списке самых больших территорий.

Original size 3500x1803

Мы видим, что Китай и Индия лидируют.

Средняя продолжительность жизни

Original size 3500x1803

На данной диаграмме мы можем увидеть, что Россия и Казахстан практически последнии по средней продолжительности жизни человека среди 10 самых крупных по территории стран.

Описание применения генеративной модели

На протяжении проекта мы с чатом GPT стали настоящими друзьями. По больше части я обращалась к нему за помощью в составлении кода для систематизации информации из таблицы и в поисках решения ошибок кода.

Мои промты не являются профессиональными, но ИИ их все равно понял. Вот некоторые из них:

Круговая диаграмма: Добавь в этот код кусок под названием «Другие», в котором хранится информация о площадях земли всех других стран из столбца «Land Area (Km2)».

Линейный график: Точечная диаграмма. Необходимо сделать срез 5 по столбцу таблицы «Land Area (Km2)». После этого составь точечную диаграмму, где ось у- это плотность населения (в чел/км2) из столбца «Density», а ось х — общая площадь страны (в км2) из столбца «Land Area (Km2)». Цветовая палитра: #CDB4DB, #FFC8DD, #FFAFCC, #BDE0FE, #A2D2FF. Название диаграммы: «Плотность населения топ 5 стран по площади территории». Размер шрифт заголовка 16, шрифт жирный. Название оси y — плотность населения (чел/км2), название оси х — площадь земли (км2). Названия стран в столбце «Country». На оси х вместо чисел написаны названия стран. (После я попросила добавить точки в график, ибо при написании промта неправильно указала тип желаемого графика).

Сылки

Анализ самых больших стран мира
4
We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...
Show more