
Концепция
Люди всегда тянулись к тому неизведанному, что таит в себе пространство космоса. Я не исключение. Обратившись к kaggle.com, я нашла датасет о всех космических миссиях, начиная с 1957 года и заканчивая 2020. И мне стало интересно проанализировать, какие компании участвовали в исследовании нашей Вселенной наиболее активно, сколько было удачных и не очень миссий, а также проследить пики активности в этой области.

Для визуализации данных я использовала:
1. Гистограмму (хорошо отражает разницу между количеством миссий от каждой компании, а также динамику полётов за каждое десятилетие) 2. Круговую диаграмму (идеально показывает соотношение удачных и неудачных миссий) 3. График с маркерами (наглядно демонстрирует таймлайн миссий RVSN USSR и их динамику)
За основные цвета я взяла оттенки фиолетового, так как именно он ассоциируется у меня с космосом. Также я выбрала шрифт TH Sarabun New, так как он показался мне довольно нейтральным и не отвлекающим от самих графиков.

Для вдохновения я использовала генерации ideogram.ai. Промт сформулировала так:
Infinite Space Galaxy photo. Mysterious, grainy, peaceful. Purple, pink, blue colors.

Обработка данных
Для начала я загрузила все необходимые библиотеки, которые работают с таблицами, данными и массивами чисел, а также matplotlib.font_manager, которая управляет шрифтами, и matplotlib.pyplot, которая строит графики. Потом я загрузила файл шрифта с GitHub с помощью команды терминала! wget. После этого я указала путь к этому ширфту и добавила его в систему matplotlib.
После этого я импортировала скачанный SCV-файл датасета и вывела его на экран с помощью df.
В следующей ячейке я удалила ненужные колонки, которые не несут важной информации, и преобразовала колонку 'Datum' в формат даты и времени. Если в данных была какая-то ошибка, errors='coerce' преобразовала их в NaT (not a time). Также я достала из колонки с подробной датой только год и сохранила это в новую колонку 'Year'.
Следующим шагом была настройка визуала. Я установила dpi 300, чтобы получить в итоге хорошее качество графиков, а также задала для них скачанный шрифт, тёмный фон и определённые цвета.
Далее я приступила к непосредственной визуализации данных с помощью диаграмм.
Визуализация данных
Первая гистограмма показывает, какие компании наиболее активно участвовали и участвуют в исследовании космоса. Так как в датасете их указано довольно много, я решила оставить только те, чьих миссий было больше 50-ти. Можно увидеть, что RVSN USSR до сих пор является абсолютным лидером.
Вторая диаграмма показывает довольно оптимистичное соотношение удачных и неудачных миссий. В датасете также указаны partial и prelaunch failures, то есть частичные и предстартовые неудачи, но я решила объединить их в одно ёмкое failure.
Третья диаграмма и вторая по счёту гистограмма показывает таймлайн космических миссий и их количество каждое десятилетие. Можно заметить, что основные пики активности приходятся на семидесятые (самый разгар космической гонки) и двадцатые годы уже нашего века.
После первой гистограммы мне захотелось подробнее проследить таймлайн миссий от нашей RVSN USSR. График с маркерами показывает соотношение годов с количеством миссий. Пик, что неудивительно, снова приходится на разгар космической гонки и, естественно, сводится к нулю после 1991 года.
Заключение
По итогам исследования я оказалась приятно удивлена соотношением удачных и неудачных миссий, а также впервые наглядно увидела, насколько активно СССР участвовал в освоении космоса.
Также не может не радовать тот факт, что новый пик активности в этой области приходится на 2020-е, а следовательно наука не стоит на месте и мы становимся всё ближе к тому неизведанному, что таит в себе пространство космоса.
Описание применения генеративной модели
В ходе исследования я использовала нейросеть Ideogram для создания изображений, из которых составила коллаж для вдохновения, а также для генерации обложки проекта. Единый промт указан в концепции.
Ссылка на нейросеть — https://ideogram.ai