목록데이터 분석 (4)
WinGyu_coder
저번 1장에서 데이터를 가져왔는데 이제 EDA과정을 거칠때 사용하는 Pandas 판다스 라이브러리 일부 명령어를 설명하겠습니다. (EDA는 데이터 분석을 하기전 시각화 및 데이터 형태를 알아보는 것이라고 생각하면 편합니다. 추후에 정의할 예정) import pandas as pd test = pd.read_csv('/content/drive/MyDrive/데이터분석/titanic/test.csv') train = pd.read_csv('/content/drive/MyDrive/데이터분석/titanic/train.csv') 저번 시간에 Pandas을 사용해서 csv파일을 가져왔습니다. 이걸 간단하게 형태를 확인해 보도록 하죠. 1. head() train.head() head()는..
#구글 코랩을 사용해 진행하였습니다. (주피터 노트북) 최근 회사에서 AI 분야 업무를 많이 진행하다 보니 데이터 분석부터 머신러닝, 딥러닝까지 배워보고 싶었다. 그중 데이터 전문가의 놀이터라 불리는 Kaggle 캐글에서 기초공부할때 많이 쓰이는 타이타닉 데이터셋 분석하기를 진행해볼려고 한다. 1장에서는 필요한 데이터 준비 및 모듈에 대해 간단히 알아볼것이다. 우선 타이타닉 데이터를 캐글에서 가져온다 . 1. 데이터 준비 https://www.kaggle.com/ Kaggle: Your Machine Learning and Data Science Community Kaggle is the world’s largest data science community with powerful tools and re..
#ChatGPT가 작성하였습니다. np.array와 Python의 기본 리스트(list)는 데이터를 저장하고 처리하는 방식에 여러 차이점이 있습니다. 주요 차이점은 다음과 같습니다: 효율성: np.array: Numpy 배열은 고정된 타입의 데이터를 저장할 수 있어 메모리 사용이 효율적이며, 내부적으로 C로 구현된 연산들로 인해 계산이 빠릅니다. list: Python 리스트는 다양한 타입의 객체를 저장할 수 있지만, 이로 인해 메모리 사용이 덜 효율적이며 일반적인 연산에서 Numpy 배열보다 느릴 수 있습니다. 데이터 타입: np.array: 하나의 Numpy 배열은 동일한 데이터 타입만을 포함할 수 있습니다. list: Python 리스트는 다양한 데이터 타입의 원소를 동시에 포함할 수 있습니다. 연..
#python을 사용했습니다. 시본 사이트 :https://seaborn.pydata.org/index.html seaborn: statistical data visualization — seaborn 0.12.1 documentation seaborn: statistical data visualization seaborn.pydata.org seaborn 사이트 각종 문서 및 예제, 데이터 분석, api등 열람 가능 seaborn 이란? Statistical Data Visualization library based on matplotlib. matplotlib 기반의 통계 데이터 시각화 라이브러리. 1. 파이썬 오픈소스 라이브러리 중에 가장 널리 사용되는 시각화 라이브러리입니다. 2. 2002년부터 ..