[STUDY]/[NAVER_boostcourse]

수치 데이터 요약하기 - 기술통계 값 보기

eunma 2024. 8. 10. 16:44

학습 목표

기초 통계로 데이터의 분포를 살펴보고, 시각화해봅니다.

강의 자료

네이버 부스트코스

핵심 키워드

mean : 데이터의 산술 평균 (데이터의 합/데이터 개수)
```
# 평균 계산
mean_value = df['Values'].mean()
```
median : 데이터의 중간값 계산. 정렬했을 때 가운데 위치하는 값을 반환
- 정규분포를 따르지 않을 때(이상치가 존재할 때) 평균보다 중심경향성을 더 잘 나타냄
```
# 중간값 계산
median_value = df['Values'].median()
```

max : 데이터셋에서 가장 큰 값을 반환

# 최대값 계산
max_value = df['Values'].max()

min : 데이터셋에서 가장 작은 값을 반환
```
# 최소값 계산
min_value = df['Values'].min()
```
count : 결측값을 제외한 데이터셋에서 값의 개수.
- 데이터셋에 얼마나 많은 유효한 데이터가 있는지 확인할 때 사용
```
# 데이터 개수 계산
count_value + df['Values'].count()
```

describe : 데이터의 주요 통계 정보를 요약해서 보여줌

평균(mean), 표준편차(std), 최소값(min), 25% 백분위수(25%), 중간값(50% or median), 75% 백분위수(75%), 최대값(max)

# 데이터 요약 통계
sumary = df['Values'].describe()
# 2가지 정보 요약 통계
sumary = df[['Age', 'Salary']].describe()
# 숫자형 데이터에 대한 요약 통계
summary_numeric = df.describe(include="number")

'[STUDY] > [NAVER_boostcourse]' 카테고리의 다른 글

코칭스터디 Generative AI 2024 (1)	2024.09.25
온라인 판매 분석 퀴즈 (0)	2024.08.25
결측치 다루기 (0)	2024.08.10
데이터 분포 확인 퀴즈 (0)	2024.08.10
공공데이터 사용 (0)	2024.08.03

현재글수치 데이터 요약하기 - 기술통계 값 보기

EunmaStudio

티스토리챌린지, 이상감지시스템, 에버엑스, ai, deepseek, human pose estimation, 학습계획서, KDT, 카부캠, exaone, GPT, 카카오테크부트캠프, 카카오테크부트캠프1기, 네이버부스트코스, 카테부, 오블완, 딥식이, Agent, ktb, magentic_one,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

EunmaStudio

수치 데이터 요약하기 - 기술통계 값 보기

학습 목표

강의 자료

핵심 키워드

'[STUDY] > [NAVER_boostcourse]' 카테고리의 다른 글

'[STUDY]/[NAVER_boostcourse]'의 다른글

티스토리툴바

수치 데이터 요약하기 - 기술통계 값 보기

학습 목표

강의 자료

핵심 키워드

'[STUDY] > [NAVER_boostcourse]' 카테고리의 다른 글

'[STUDY]/[NAVER_boostcourse]'의 다른글

관련글

티스토리툴바