[네이버부스트코스]/[데이터 사이언스]

수치 데이터 요약하기 - 기술통계 값 보기

eunma 2024. 8. 10. 16:44

학습 목표

  • 기초 통계로 데이터의 분포를 살펴보고, 시각화해봅니다.

강의 자료

네이버 부스트코스


핵심 키워드

  • mean : 데이터의 산술 평균 (데이터의 합/데이터 개수)
    # 평균 계산
    mean_value = df['Values'].mean()
  • median : 데이터의 중간값 계산. 정렬했을 때 가운데 위치하는 값을 반환
    • 정규분포를 따르지 않을 때(이상치가 존재할 때) 평균보다 중심경향성을 더 잘 나타냄
      # 중간값 계산
      median_value = df['Values'].median()
  • max : 데이터셋에서 가장 큰 값을 반환
    # 최대값 계산
    max_value = df['Values'].max()
  • min : 데이터셋에서 가장 작은 값을 반환
    # 최소값 계산
    min_value = df['Values'].min()
  • count : 결측값을 제외한 데이터셋에서 값의 개수.
    • 데이터셋에 얼마나 많은 유효한 데이터가 있는지 확인할 때 사용
      # 데이터 개수 계산
      count_value + df['Values'].count()
  • describe : 데이터의 주요 통계 정보를 요약해서 보여줌
    • 평균(mean), 표준편차(std), 최소값(min), 25% 백분위수(25%), 중간값(50% or median), 75% 백분위수(75%), 최대값(max)
      # 데이터 요약 통계
      sumary = df['Values'].describe()
      # 2가지 정보 요약 통계
      sumary = df[['Age', 'Salary']].describe()
      # 숫자형 데이터에 대한 요약 통계
      summary_numeric = df.describe(include="number")

'[네이버부스트코스] > [데이터 사이언스]' 카테고리의 다른 글

온라인 판매 분석 퀴즈  (0) 2024.08.25
결측치 다루기  (0) 2024.08.10
데이터 분포 확인 퀴즈  (0) 2024.08.10
공공데이터 사용  (0) 2024.08.03
아나콘다 파일 경로 설정  (0) 2024.08.02