Data Analysis/데이터분석(Data Analysis)
-
[데이터 분석]데이터분석에서 가장 많이 시간이 걸리는 작업, 데이터 클리닝Data Analysis/데이터분석(Data Analysis) 2021. 3. 14. 18:49
데이터 클리닝 데이터분석 과정을 크게 데이터 수집, 데이터 클리닝, 데이터 분석, 데이터 시각화 이렇게 4단계로 나눌 수 있습니다. 오늘은 원하는 데이터가 있다는 전제 하에 데이터 클리닝에 대한 글을 정리하고자 합니다. 데이터 클리닝 데이터 클리닝이란, 목적에 맞는 분석을 하기위해서 데이터를 그에 맞게 정리하는 작업을 의미합니다. 최신 통계 분석 기법과 머신러닝 방법론을 사용하기위해서는 거기에 맞는 데이터 셋이 필요합니다. 즉, 데이터를 정리하는 과정인 데이터 클리닝을 제대로 하지 않으면 그 다음 단계인 데이터 분석으로 넘어가지 못 합니다. 실제로 현업 데이터분석가는 데이터 분석 업무보다는 데이터를 정리하는 일에 많은 시간을 사용합니다. 전체 업무 중 70~80%를 데이터 클리닝에 사용하고 있습니다. 이..
-
데이터 살펴보기 : 상자그림(Box plot) 그리기Data Analysis/데이터분석(Data Analysis) 2020. 9. 24. 14:32
데이터 살펴보기 상자그림(Box plot) 그리기 상자그림 연속형 변수의 특성이 요약된 그래프 연속형 변수의 전체적인 모습을 한 눈에 파악하기 아웃라이어 등의 이상치를 바로 확인 할 수 있음 Code # df_movie의 변수 살펴보기 names(df_movie) [1] "영화명" "관객수" "매출액" "상영횟수" # 관객수의 히스토그램 그리기 관객수 = movie$관객수 boxplot(관객수, main = "히스토그램") 여러 상자그림 Code # df의 변수 살펴보기 names(df) [1] "age" "sex" "bmi" "children" "smoker" "region" "charges" # 관심변수를 그룹변수 기준으로 Box plot 그리기 # 지역별 청구금액의 상자금액 그리기 # 관심변수: 청..
-
데이터 살펴보기 : 히스토그램(Histogram) 그리기Data Analysis/데이터분석(Data Analysis) 2020. 9. 24. 14:12
데이터 살펴보기 히스토그램(histogram) 그리기 히스토그램 연속형 데이터를 이용하여 자료의 분포나 흐름 등을 파악하기 주어진 연속형 데이터를 적당한 구간으로 나누어, 구간별 빈도수를 나타낸 그래프 # df_movie의 변수 살펴보기 names(df_movie) [1] "영화명", "관객수", "매출액", "상영횟수" # 관객수의 히스토그램 그리기 관객수 = movie$관객수 hist(관객수, main = "히스토그램")