[Python] Pandas 패키지로 데이터 불러오기 / 인덱스 없이 출력 / 특정 컬럼(column) 가져오기
안녕하세요~이번 포스팅에서는 pandas 패키지로 데이터 불러오는 방법을 알려드리려고 합니다!
코드에서 사용한 데이터는 해당 게시글 맨 밑에 있으니 다운받아서 해보시면 될 것 같습니다. 바로 시작할게요:)
Pandas 패키지
》 데이터프레임과 시리즈라는 자료형과 데이터 분석을 위한 다양한 기능을 제공하는 Python 라이브러리 입니다.
》 파이썬을 이용해 엑셀과 같은 역할을 수행한다고 생각하면 편합니다.
》 pandas는 대용량 데이터를 효율적으로 다룰 수 있기 때문에 빅데이터 분석에 유리하며 여러가지 복잡한 기능을 구현할 수 있습니다.
pandas패키지를 불러온 후 코드에서 간편하게 쓰기 위해 pd라고 이름을 재명명하겠습니다.
# 패키지 불러오기
import pandas as pd
csv 파일 데이터 불러오기
csv 파일 데이터를 불러오는 방법은 pd.read_csv("파일명")을 해주면 됩니다.
그 후 변수 dataframe_no_index에 넣어주겠습니다.
# 데이터 불러오기
dataframe_no_index = pd.read_csv("College.csv")
차원의 형태 shape
shape 메서드는 DataFrame 객체의 차원의 형태를(레이블 정보)를 튜플의 형식으로 반환합니다.
즉, 3행 2열의 객체의 경우 (3,2)를 반환합니다.
data의 shape를 알아보는 방법은 " dataframe_no_index.shape "이런 식으로 변수 뒤에 ".shape"를 입력해주면 됩니다.
그 후 상위 5개를 출력해보았습니다.
head()는 기본적으로 5개를 출력하기 때문에 괄호 안에 숫자를 입력하지 않아도 자동으로 5개를 출력합니다.
# 데이터의 shape (row * column) : 불러온 데이터의 matrix 사이즈를 나타냄
print("data의 shape",dataframe_no_index.shape)
# 상위 5개 출력
dataframe_no_index.head()

인덱스 없이 출력하는 방법
위의 출력 이미지를 살펴보면 왼쪽 row에 인덱스 번호가 붙어있는 것을 확인할 수 있습니다.
인덱스 없이 출력하는 방법은 아래의 코드와 같이 index_col = "Unnamed: 0"를 해주면 "Unnamed: 0"라는 이름의 column을 기준으로 인덱스를 설정하였다는 뜻이 됩니다. 그러므로 인덱스 번호가 사라지고 Unnamed: 0 컬럼의 값들이 인덱스가 되게 됩니다.
* 다른방법
다른 방법으로는 index_col = 0을 해주면 인덱스 없이 출력하라는 의미로 말 그대로 인덱스 없이 출력이 됩니다.
# 데이터 프레임의 특정 컬럼(여기서는 Unnamed: 0)을 index 로 가져오고 싶을 때 index_col="Unnamed: 0" 명령어를 쓰면 된다
dataframe = pd.read_csv("College.csv", index_col = "Unnamed: 0") # "Unnamed: 0"기준으로 인덱스를 잡았다.
dataframe.head(5) # index_col = 0 (인덱스가 없음. False)

dataframe의 coulmn과 index 가져오기
# 컬럼 가져오기
dataframe.columns
# 인덱스 가져오기
dataframe.index
특정 column가져오기
# 특정 column 가져오기
dataframe['Private']
# 특정 컬럼 여러개를 가져오기 - 이중 대괄호 [[]] 사용
df_double = dataframe[["Private", "Apps" ,"Accept", "Enroll"]]
df_double.head()
