데이터 분석

Kaggle 캐글(데이터 분석) | 타이타닉 데이터 분석하기 (1) 데이터 준비 및 필요한 모듈

WinGyu 2023. 12. 12. 23:28

#구글 코랩을 사용해 진행하였습니다. (주피터 노트북)

최근 회사에서 AI 분야 업무를 많이 진행하다 보니 데이터 분석부터 머신러닝, 딥러닝까지 배워보고 싶었다. 그중 데이터 전문가의 놀이터라 불리는 Kaggle 캐글에서 기초공부할때 많이 쓰이는 타이타닉 데이터셋 분석하기를 진행해볼려고 한다. 

 

1장에서는 필요한 데이터 준비 및 모듈에 대해 간단히 알아볼것이다.

 

우선 타이타닉 데이터를 캐글에서 가져온다 . 

 

1. 데이터 준비

https://www.kaggle.com/

 

Kaggle: Your Machine Learning and Data Science Community

Kaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals.

www.kaggle.com

 

우선 회원가입 후 (회원가입 과정은 생략하겠다) Titanic을 검색한다. 

Titanic - Machine Learning from Disaster 

위 처럼 나온 데이터셋을 찾을거다.

 

검색했더니 2번째에 바로 나온다. 

 

Data 에 들어가 구조를 간단하게 살펴보고 맨 아래에 Download All을 눌러준다.

 

 

 

친절히 사이트 주소도 업로드 해 두겠다.

https://www.kaggle.com/competitions/titanic/data

 

Titanic - Machine Learning from Disaster | Kaggle

 

www.kaggle.com

2. 데이터 분석에 필요한 모듈 (1) 기본 데이터 정리 및 처리

1. Numpy

import numpy as np

 

 

numpy 넘파이는 행렬이나 다차원 array를 간단히 처리하기 위한 파이썬 라이브러리

파이썬에 리스트 및 이미지 처리할때도 많이 쓰입니다.

 

데이터 구조 외에도 수치 계산을 위해 효율적 구현된 기능을 제공합니다.

(실제로 인공지능 모델을 사용할때 계산식 속도 향상을 위해 많이쓰인다.)

 

2. Pandas

import pandas as pd

 

Pandas 판다스는 데이터 조작 및 분석을 위한 파이썬 소프트웨어 라이브러리

숫자 테이블 및 시계열을 조작하는 등의 데이터 구조와 처리를 제공함.

 

데이터 분석 부분에서는 Pandas 판다스는 필수다. 어떻게 보면 가장 많이 쓰는 모듈 중 하나이다.

 

3. 데이터 분석에 필요한 모듈 (2) 시각화 

1. matplotlib

import matplotlib.pyplot as plt
%matplotlib inline

 

matplotlib 는 그래프 및 시각화 도구이다. 데이터를 시각화할때 가장 많이 쓰이는 모듈 중 하나이다. 

그중 pyplot를 많이 사용한다. 위처럼 plt로 사용하는게 대부분이다.

(Pose estimation 모델을 구현할때 키포인트 색상 처리를 matplotlib를 유용하게 사용했던 경험이 있었다.)

 

그리고 2번째 줄 %matplotlib inline은 시각화에서 더 나은 결과물 (출력값)을 보여준다. 

그래프나 사운드 또는 애니메이션 등을 제공한다. (matplotlib를 쓸때 보통 기본으로 같이 사용함)

 

2. seaborn

import seaborn as sns
plt.style.use('seaborn-whitegrid')

 

seaborn 시본은 데이터 분석할때 가장 많이 듣는 라이브러리 중 하나이다. matplotlib 기반으로 제작되어 제공하는 라이브러리다.

sns 로 많이 사용한다. 

 

2번째줄은 스타일 지정이다. pyplot에서 가져올수있다.

 

3. missingno

import missingno

 

missingno (미싱노?, 발음은 댓글로 알려주세요.) 이것도 많이 사용하는 파이썬 시각화 모듈이다.

 

4. 데이터 분석에 필요한 모듈 (3) 전처리 및 머신 러닝 알고리즘

1. sklearn

 

.. 너무 많음 모듈이. 구글링 필수

전처리 및 머신러닝에 매우 많이 쓰이는 모듈 

 

한줄 설명 : ML 머신러닝 알고리즘 라이브러리

 

추후에 타이타닉 데이터 분석을 진행하면서 설명해 추가할 예정

 

5. 그밖에 모듈

import sys
import warnings

import warnings
warnings.filterwarnings('ignore')

 

Pandas가 경고 메세지를 많이 만들어 내는데 이것을 제외하는 방법

 

 

6. Colab 구글 코랩에서 데이터 열기

 

다운받은 데이터를 구글 Drive에 업로드 해 두었다. 

 

그 다음 코랩에서 구글 드라이브를 마운트해 데이터를 사용할 것이다.

 

from google.colab import drive
drive.mount('/content/drive')

 

코랩 주피터 노트북에서 위와같이 작성하고 실행하면 

 

 

이러한 메세지가 뜨는데 Google Drive에 연결을 눌러서 연결을 진행해준다.

내 작업 폴더에 drive가 생긴걸 알수있다!

 

 

가져올 데이터에 마우스 우클릭을 누르고 경로 복사를 한다. 

 

import pandas as pd
test = pd.read_csv('/content/drive/MyDrive/데이터분석/titanic/test.csv')
train = pd.read_csv('/content/drive/MyDrive/데이터분석/titanic/train.csv')

 

그런 다음 경로를 위와같이 붙여 넣어준다.

아까 캐글에서 다운받은 test 와 train을 가져와 준다. 

 

가져온데이터를 print 찍어서 확인하면 위 사진과 같이 정상적으로 데이터를 불러왔다.

 

 

 

2장에서부터 데이터 분석을 차근차근 시작해보자.ㅎㅎ