Data Analysis
-
[데이터 분석]데이터분석에서 가장 많이 시간이 걸리는 작업, 데이터 클리닝Data Analysis/데이터분석(Data Analysis) 2021. 3. 14. 18:49
데이터 클리닝 데이터분석 과정을 크게 데이터 수집, 데이터 클리닝, 데이터 분석, 데이터 시각화 이렇게 4단계로 나눌 수 있습니다. 오늘은 원하는 데이터가 있다는 전제 하에 데이터 클리닝에 대한 글을 정리하고자 합니다. 데이터 클리닝 데이터 클리닝이란, 목적에 맞는 분석을 하기위해서 데이터를 그에 맞게 정리하는 작업을 의미합니다. 최신 통계 분석 기법과 머신러닝 방법론을 사용하기위해서는 거기에 맞는 데이터 셋이 필요합니다. 즉, 데이터를 정리하는 과정인 데이터 클리닝을 제대로 하지 않으면 그 다음 단계인 데이터 분석으로 넘어가지 못 합니다. 실제로 현업 데이터분석가는 데이터 분석 업무보다는 데이터를 정리하는 일에 많은 시간을 사용합니다. 전체 업무 중 70~80%를 데이터 클리닝에 사용하고 있습니다. 이..
-
코로나 바이러스(COVID-19)로 조건부확률 이해하기Data Analysis/베이지안 통계학(Bayesian statistics) 2020. 10. 19. 11:49
코로나 바이러스(COVID-19)로 조건부확률 이해하기 이 글은위니버스님의 [전 국민을 코로나 진단키트로 검사하지 않는 수학적 이유 | 조건부확률] 동영상을 참고하여 정리하는 자료입니다. 전 국민을 코로나 진단키트로 검사하지 않는 수학적 이유 전염병 확산 방지 전염병이 인류를 위협할 때, 진단 키트 활용해서 발병 유무를 확인할 수 있음 전염병 진단 키트의 성능? 불행하게도 100% 완벽한 진단 키트를 만들어내기는 어려움 의문1. 진단 키트의 검사 결과를 얼만큼 신뢰해야할까? 의문2. 전 국민(전수조사)를 대상으로 진단 검사를 하면 전염병 확산 방지에 도움이 될까? 의문1. 진단 키드의 검사 결과를 얼만큼 신뢰해야할까? 1. 양성과 음성의 의미를 정확하게 이해하기 우리는 상황을 매우 단순하게 보는 경향이 ..
-
데이터 살펴보기 : 상자그림(Box plot) 그리기Data Analysis/데이터분석(Data Analysis) 2020. 9. 24. 14:32
데이터 살펴보기 상자그림(Box plot) 그리기 상자그림 연속형 변수의 특성이 요약된 그래프 연속형 변수의 전체적인 모습을 한 눈에 파악하기 아웃라이어 등의 이상치를 바로 확인 할 수 있음 Code # df_movie의 변수 살펴보기 names(df_movie) [1] "영화명" "관객수" "매출액" "상영횟수" # 관객수의 히스토그램 그리기 관객수 = movie$관객수 boxplot(관객수, main = "히스토그램") 여러 상자그림 Code # df의 변수 살펴보기 names(df) [1] "age" "sex" "bmi" "children" "smoker" "region" "charges" # 관심변수를 그룹변수 기준으로 Box plot 그리기 # 지역별 청구금액의 상자금액 그리기 # 관심변수: 청..
-
데이터 살펴보기 : 히스토그램(Histogram) 그리기Data Analysis/데이터분석(Data Analysis) 2020. 9. 24. 14:12
데이터 살펴보기 히스토그램(histogram) 그리기 히스토그램 연속형 데이터를 이용하여 자료의 분포나 흐름 등을 파악하기 주어진 연속형 데이터를 적당한 구간으로 나누어, 구간별 빈도수를 나타낸 그래프 # df_movie의 변수 살펴보기 names(df_movie) [1] "영화명", "관객수", "매출액", "상영횟수" # 관객수의 히스토그램 그리기 관객수 = movie$관객수 hist(관객수, main = "히스토그램")
-
지도학습 가이드 라인Data Analysis/기계학습(Machine Learning) 2020. 8. 10. 16:16
주제: 기계학습 가이드라인 지도학습의 가이드라인 모델 적용하기: 데이터 분석과정 중 EDA(데이터 정제) 이후에 적합한 모델을 적용하는 단계 준비물: EDA Data(정제된 Data), 적합한 모델 선택 오늘 가이드라인 소개를 위해서 iris 범주형 자료를 사용함 iris 데이터 소개: 붓꽃의 3가지 종(setosa, versicolor, virginica)에 대해 꽃받침과 꽃잎의 길이를 정리한 데이터 1. 데이터 불러오기 import seaborn as sns df = sns.load_dataset('iris') 1.2 설명변수(X)와 타켓변수(Y) 지정하기 # 변수명 df.columns Y = df['species'] X = df.drop(columns = 'species') # df에서 'speci..
-
머신러닝(Machine Learning)과 딥러닝(Deep Learning)Data Analysis/기계학습(Machine Learning) 2020. 8. 7. 17:33
주제: 머신러닝(Machine Learning) 컴퓨터 과학(Computing Science) VS 머신러닝(Machin Leanrning) 1. 컴퓨터 과학(Computing Science) 어떤 값을 함수 f에 집어넣어서 계산을 할 때 어떤 식으로 계산이 되는지를 사람이 기계에게 알려주는 경우 컴퓨터 과학이라고 함 전제 1) 사람이 f의 형태를 알고 있음 전제 2) 사람이 f의 모든 요소를 구성하고 기계는 계산만 함 준비물: 데이터, 모델 3,4 => f(3,4) = 3 + 4 = 7 2. 머신러닝(Machine Leanrning) 어떤 값을 함수 f에 집어넣어서 계산을 할 때 어떤 식으로 계산이 되는지를 기계가 스스로 찾아서 학습하는 경우 머신러닝이라고 함 전제1) 사람이 f의 형태를 모름 전제 2..