본문 바로가기
데이터 분석 도전기

파이썬 데이터 분석 시리즈 6편: Pandas를 이용한 데이터 분석 소개

by 프로 탈출러 2023. 6. 18.
반응형

 

파이썬 데이터 분석 시리즈 6편: Pandas를 이용한 데이터 분석 소개

Pandas는 데이터 분석에 가장 널리 사용되는 파이썬 라이브러리 중 하나입니다. 데이터프레임(DataFrame)이라는 효과적인 데이터 구조를 제공하여, CSV, 엑셀 파일, SQL 쿼리 결과 등 다양한 형식의 데이터를 쉽게 처리할 수 있습니다.

데이터프레임 만들기

데이터프레임은 테이블 형식의 데이터를 저장할 수 있는 2차원의 데이터 구조입니다. 여기서는 파이썬의 딕셔너리를 사용하여 데이터프레임을 만드는 방법을 보여주고 있습니다.


import pandas as pd

data = {'Name': ['John', 'Anna', 'Peter'],
        'Age': [28, 24, 22]}
df = pd.DataFrame(data)
print(df)
        

Output:
    Name  Age
0   John  28
1   Anna  24
2  Peter  22
        

데이터 읽기와 쓰기

Pandas는 다양한 형식의 데이터를 읽고 쓸 수 있는 기능을 제공합니다. 이 예제에서는 CSV 파일을 읽고 쓰는 방법을 보여주고 있습니다.


# CSV 파일 읽기
df = pd.read_csv('filename.csv')

# CSV 파일 쓰기
df.to_csv('new_filename.csv', index=False)
        

데이터 선택 및 필터링

Pandas를 사용하면 원하는 데이터를 선택하거나 필터링하는 것이 매우 간단합니다. 아래 예제에서는 'Name' 컬럼을 선택하는 방법과, 나이가 25세 이상인 데이터만 필터링하는 방법을 보여줍니다.


# 'Name' 컬럼 선택
names = df['Name']

# 25세 이상의 데이터만 선택
df_over_25 = df[df['Age'] > 25]
print(df_over_25)
        

Output:
   Name  Age
0  John   28
        

다음 포스트에서는 Pandas의 다른 유용한 기능들을 더 자세히 살펴보도록 하겠습니다.

반응형
LIST