[네이버부스트코스]/[데이터 사이언스] 8

수치 데이터 요약하기 - 기술통계 값 보기

학습 목표기초 통계로 데이터의 분포를 살펴보고, 시각화해봅니다.강의 자료네이버 부스트코스핵심 키워드mean : 데이터의 산술 평균 (데이터의 합/데이터 개수)# 평균 계산mean_value = df['Values'].mean()median : 데이터의 중간값 계산. 정렬했을 때 가운데 위치하는 값을 반환정규분포를 따르지 않을 때(이상치가 존재할 때) 평균보다 중심경향성을 더 잘 나타냄# 중간값 계산median_value = df['Values'].median()max : 데이터셋에서 가장 큰 값을 반환# 최대값 계산max_value = df['Values'].max()min : 데이터셋에서 가장 작은 값을 반환# 최소값 계산min_value = df['Values'].min()count : 결측값을 제외..

결측치 다루기

학습 목표결측치를 처리하는 방법을 익힌다.강의 자료네이버 부스트코스핵심 키워드isnull() : 데이터프레임에 결측값이 있는지 여부를 확인. True = 결측값/ False = 결측값 없음.sum() : 각 열에 있는 결측값의 총합 계산plot1.plot() : 기본적인 선 그래프2.plot.bar() : 수직 막대 그래프3.plot.barh() : 수평 막대 그래프reset_index : 데이터프레임의 인덱스를 리셋하여 새로운 정수형 인덱스를 부여sort_values() : 데이터프레임을 특정(여러) 열을 기준으로 정렬하는 함수NaN : not a number - 결측값을 나타내는 표준drop() : 데이터프레임에서 특정 행(axis=0)/열(axis=1)을 제거하는데 사용학습내용결측치 확인하기null..

공공데이터 사용

공공 데이터1강 공공데이터 포털 및 데이터셋 소개목표공공데이터를 찾는 방법을 이해하고, 분석할 데이터셋을 알아보자.공공데이터공공데이터포털실습파일직접 해보기코드 예시2강 데이터 로드 및 미리보기목표라이브러리를 불러오고, pandas로 데이터를 가져온다.핵심키워드read_csv()shapehead()/tail()info()columnsdtypes주요 코드주요 라이브러리불러오기# pandas 불러오기impoort pandas as pd# 수치계산/다차원배열처리 라이브러리import numpy as np# 데이터 시각화 라이브러리import seaborn as sns# 데이터 시각화 라이브러리import matplotlib.pyplot as plt데이터 로드# 데이터를 df 변수에 담고, df.shape로 모양..

아나콘다 파일 경로 설정

파일 경로 설정강의 자료 : https://www.boostcourse.org/ds112/lecture/59936참고 링크 : 공공데이터포털목차학습목표 핵심키워드강의 내용추가 심화 학습 - GPT4키워드 정리학습 확인을 위한 간단한 퀴즈 - GPT41. 학습목표데이터 파일의 경로를 설정하는 방법을 학습한다.2. 핵심 키워드%mv%pwd%lspd.read_csvcp9493. 강의 내용데이터분석을 시작하시는 분들이 처음에 가장 어렵게 느끼시는 것이 파일 경로 설정입니다.다소 복잡해 보이더라도 이번 학습내용을 차근차근 따라오시다 보면어느덧 능숙하게 하고계신 모습을 발견하실 수 있을 것입니다.1) 'file-path-setting'의 이름을 가진 주피터 노트북 파일을 만들어 줍니다.2) 공공데이터포털(도로교통공..

Pandas 치트시트를 활용한 기초

pandas 치트시트를 활용한 기초강의 자료 : https://www.boostcourse.org/ds112/lecture/59933?isDesc=false참고 링크 : pandas공식문서, 10분pandas목차학습목표핵심키워드강의 내용추가 심화 학습 - GPT4키워드 정리학습 확인을 위한 간단한 퀴즈 - GPT41. 학습 목표판다스 치트시트를 활용하여 기초를 학습한다.2. 핵심키워드pandasdataframeseriessortdropgroupbypivot tableplot3. 강의 내용Pandas : 수식으로 계산할 수 있고 시각화도 할 수 있는 데이터 분석도구입니다.엑셀로도 데이터를 분석할 수 있는데 왜 판다스를 사용하는 것일까요?엑셀로는 힘든 대용량의 데이터를 판다스는 분석할 수 있기 때문입니다.아..