ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [데이터 분석]데이터분석에서 가장 많이 시간이 걸리는 작업, 데이터 클리닝
    Data Analysis/데이터분석(Data Analysis) 2021. 3. 14. 18:49
    반응형

    데이터 클리닝


     데이터분석 과정을 크게 데이터 수집, 데이터 클리닝, 데이터 분석, 데이터 시각화 이렇게 4단계로 나눌 수 있습니다. 오늘은 원하는 데이터가 있다는 전제 하에 데이터 클리닝에 대한 글을 정리하고자 합니다.  

     

    데이터 클리닝

     데이터 클리닝이란, 목적에 맞는 분석을 하기위해서 데이터를 그에 맞게 정리하는 작업을 의미합니다. 최신 통계 분석 기법과 머신러닝 방법론을 사용하기위해서는 거기에 맞는 데이터 셋이 필요합니다. 즉, 데이터를 정리하는 과정인 데이터 클리닝을 제대로 하지 않으면 그 다음 단계인 데이터 분석으로 넘어가지 못 합니다.

     

     실제로 현업 데이터분석가는 데이터 분석 업무보다는 데이터를 정리하는 일에 많은 시간을 사용합니다. 전체 업무 중 70~80%를 데이터 클리닝에 사용하고 있습니다. 이때, 데이터 분석가의 역량에 따라서 클리닝 작업이 2시간이 걸리기도하고, 하루에서 이틀이 걸리기도 합니다. 실력있는 데이터 분석가란 최신기법을 잘 아는 것도 중요하지만, 주어진 시간 안에 어떤 형태의 데이터가 주어져도 알맞은 분석에 적용할 줄 아는 것입니다.  

     

     회사는 데이터 분석 전 단계에서 시간이 오래걸리면 데이터 분석가의 능력을 의심하게 됩니다. 따라서 데이터 분석가는 한 가지의 언어를 선택하여 능숙하게 다루는 역량이 필요합니다.

     

     

     

     

     

     

    반응형

    댓글

Designed by Tistory.