학습 목표
- 기초 통계로 데이터의 분포를 살펴보고, 시각화해봅니다.
강의 자료
핵심 키워드
- mean : 데이터의 산술 평균 (데이터의 합/데이터 개수)
# 평균 계산 mean_value = df['Values'].mean()
- median : 데이터의 중간값 계산. 정렬했을 때 가운데 위치하는 값을 반환
- 정규분포를 따르지 않을 때(이상치가 존재할 때) 평균보다 중심경향성을 더 잘 나타냄
# 중간값 계산 median_value = df['Values'].median()
- 정규분포를 따르지 않을 때(이상치가 존재할 때) 평균보다 중심경향성을 더 잘 나타냄
- max : 데이터셋에서 가장 큰 값을 반환
# 최대값 계산 max_value = df['Values'].max()
- min : 데이터셋에서 가장 작은 값을 반환
# 최소값 계산 min_value = df['Values'].min()
- count : 결측값을 제외한 데이터셋에서 값의 개수.
- 데이터셋에 얼마나 많은 유효한 데이터가 있는지 확인할 때 사용
# 데이터 개수 계산 count_value + df['Values'].count()
- 데이터셋에 얼마나 많은 유효한 데이터가 있는지 확인할 때 사용
- describe : 데이터의 주요 통계 정보를 요약해서 보여줌
- 평균(mean), 표준편차(std), 최소값(min), 25% 백분위수(25%), 중간값(50% or median), 75% 백분위수(75%), 최대값(max)
# 데이터 요약 통계 sumary = df['Values'].describe() # 2가지 정보 요약 통계 sumary = df[['Age', 'Salary']].describe() # 숫자형 데이터에 대한 요약 통계 summary_numeric = df.describe(include="number")
- 평균(mean), 표준편차(std), 최소값(min), 25% 백분위수(25%), 중간값(50% or median), 75% 백분위수(75%), 최대값(max)
'[STUDY] > [NAVER_boostcourse]' 카테고리의 다른 글
코칭스터디 Generative AI 2024 (1) | 2024.09.25 |
---|---|
온라인 판매 분석 퀴즈 (0) | 2024.08.25 |
결측치 다루기 (0) | 2024.08.10 |
데이터 분포 확인 퀴즈 (0) | 2024.08.10 |
공공데이터 사용 (0) | 2024.08.03 |