판다 상세 튜토리얼
파이썬에서 가장 인기 있는 데이터 처리 및 분석 라이브러리 중 하나입니다. 데이터 프레임과 시리즈와 같은 유연하고 효율적인 데이터 구조를 제공하여 데이터 정리, 처리 및 분석을 더 쉽게 해줍니다. 다음은 일반적인 연산과 예제를 통해 Pandas를 사용하는 방법에 대한 자세한 튜토리얼입니다.
판다 설치하기
먼저 판다가 설치되어 있는지 확인합니다. 설치되어 있지 않은 경우 다음 명령을 사용할 수 있습니다:
pip install pandas
데이터 구조 소개
Series
시리즈는 다양한 데이터 유형을 포함할 수 있는 1차원 레이블이 지정된 배열입니다. 시리즈를 만듭니다:
import pandas as pd
s = pd.Series([1, 3, 5, np.nan, 6, 8])
print(s)
DataFrame
데이터프레임은 여러 개의 시리즈로 구성된 것으로 볼 수 있는 2차원 테이블입니다. 데이터프레임을 만듭니다:
import pandas as pd
data = {'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30, 35],
'City': ['New York', 'San Francisco', 'Los Angeles']}
df = pd.DataFrame(data)
print(df)
데이터 읽기 및 쓰기
판다스는 CSV, Excel, SQL 등 다양한 데이터 형식을 지원합니다. 다음은 CSV 파일 읽기 및 쓰기 예제입니다:
import pandas as pd
# CSV 파일 읽기
data = pd.read_csv('example.csv')
# Excel 파일에 데이터 쓰기
data.to_excel('output.xlsx', index=False)
데이터 정리 및 처리
누락된 값 처리하기
판다스는 드롭나, 필나 등 누락된 값을 처리하는 메서드를 제공합니다:
# 누락된 값이 포함된 행 삭제하기
data.dropna(inplace=True)
# 누락된 값을 지정된 값으로 채우기
data['column_name'].fillna(value, inplace=True)
데이터 유형 변환
Pandas를 사용하면 데이터 유형을 쉽게 변환할 수 있습니다:
data['column_name'] = data['column_name'].astype(int)
데이터 분석 및 통계
판다스는 설명, 그룹별, 피벗 테이블 등 다양한 통계 방법을 지원합니다:
# 기술 통계
print(data.describe())
# 통계 그룹화하기
grouped_data = data.groupby('category_column')['numeric_column'].mean()
#
pivot_table = pd.pivot_table(data, values='value_column', index='index_column', columns='column_to_pivot', aggfunc='mean')
판다스는 강력한 데이터 처리 도구로, 이 튜토리얼에서는 기본 데이터 구조, 설치 방법, 데이터 읽기 및 쓰기, 정리 및 처리, 데이터 분석 및 통계에 대한 일반적인 작업 등을 소개합니다. 이러한 기본 사항을 익히면 데이터 처리 및 분석에 Pandas를 보다 유연하고 효율적으로 사용할 수 있습니다.




