r
-
R 함수 : 특정 변수 기준으로 통계 테이블 만들기Programing Language/R 2020. 10. 5. 08:53
필요한 특정 변수 추출하기특정 변수 기준으로 통계 테이블 만들기 aggregate 함수 특정한 변수를 기준으로 통계치를 낼 때 사용 R에서 내장되어 있는 iris data 활용 Code # iris data활용: 따로 불러올 필요없음 names(iris) [1] "Sepal.Length" "Sepal.Width" "Petal.Length" "Petal.Width" "Species" # Species별 Petal.Width 합계 구하기 aggregate(Petal.Width ~ Species, data = iris, sum) # 결과값 Species Petal.Width 1 setosa 12.3 2 versicolor 66.3 3 virginica 101.3 # Species별 Petal.Width 평균 ..
-
R 함수 : 특정 변수 추출하기Programing Language/R 2020. 9. 24. 15:10
필요한 특정 변수 추출하기 subset 함수 특정한 변수를 추출할 때 사용 조건이 And인 경우 : | 조건이 Or인 경우: & R에서 내장되어 있는 iris data 활용 Code # iris data활용: 따로 불러올 필요없음 names(iris) [1] "Sepal.Length" "Sepal.Width" "Petal.Length" "Petal.Width" "Species" # Species가 setosa인 data 추출 subset(iris, Species == 'setosa') # Species가 setosa이고 versicolor인 경우 # version1 subset(iris, Species == 'setosa' & Species == 'versicolor') # version2 subset(..
-
데이터 살펴보기 : 상자그림(Box plot) 그리기Data Analysis/데이터분석(Data Analysis) 2020. 9. 24. 14:32
데이터 살펴보기 상자그림(Box plot) 그리기 상자그림 연속형 변수의 특성이 요약된 그래프 연속형 변수의 전체적인 모습을 한 눈에 파악하기 아웃라이어 등의 이상치를 바로 확인 할 수 있음 Code # df_movie의 변수 살펴보기 names(df_movie) [1] "영화명" "관객수" "매출액" "상영횟수" # 관객수의 히스토그램 그리기 관객수 = movie$관객수 boxplot(관객수, main = "히스토그램") 여러 상자그림 Code # df의 변수 살펴보기 names(df) [1] "age" "sex" "bmi" "children" "smoker" "region" "charges" # 관심변수를 그룹변수 기준으로 Box plot 그리기 # 지역별 청구금액의 상자금액 그리기 # 관심변수: 청..
-
데이터 살펴보기 : 히스토그램(Histogram) 그리기Data Analysis/데이터분석(Data Analysis) 2020. 9. 24. 14:12
데이터 살펴보기 히스토그램(histogram) 그리기 히스토그램 연속형 데이터를 이용하여 자료의 분포나 흐름 등을 파악하기 주어진 연속형 데이터를 적당한 구간으로 나누어, 구간별 빈도수를 나타낸 그래프 # df_movie의 변수 살펴보기 names(df_movie) [1] "영화명", "관객수", "매출액", "상영횟수" # 관객수의 히스토그램 그리기 관객수 = movie$관객수 hist(관객수, main = "히스토그램")
-
R 함수: 자료 최댓값, 최소값 구하기Programing Language/R 2020. 9. 24. 13:37
R에서 자료 최댓값, 최소값 구하기 max : 수치형 자료 중 가장 큰 값 불러오기 min : 수치형 자료 중 가장 작은 값 불러오기 1. max 수치형자료에서 최댓값 찾기 # df의 변수 살펴보기 names(df) [1] "이름", "나이", "학년", "수학점수" # df의 나이 라는 변수의 최댓값 찾기 max(df$나이) 최댓값인 변수의 이름 찾기 # which.max: 조건에 해당하는 최댓값 찾기 # age 변수가 최대값인 사람의 이름 찾기 df[which.max(df$나이),"이름"] 2. min 수치형자료에서 최솟값 찾기 # df의 변수 살펴보기 names(df) [1] "이름", "나이", "학년", "수학점수" # df의 나이 라는 변수의 최대값 찾기 min(df$나이) 최솟값인 변수의 이..
-
R 함수: 데이터 불러오기Programing Language/R 2020. 9. 24. 12:32
R에서 데이터 로드하기 read.csv() : csv파일을 불러오는 함수 read.xlsx() : xlsx파일을 불러오는 함수 1. csv 파일 불러오기 파일 경로가 현재 위치일 때 다음과 같음. data 폴더 안에 있을때는 경로를 지정해줘야함. ex) 'data/datanames.csv' # csv 파일 불러오기 # read.csv의 옵션: fileEncoding = 'UTF-8' df = read.csv('datanames.csv' , fileEncoding = 'UTF-8') # 파일 잘 불러왔는지 확인하기 head(df) tail(df) 2. xlsx 파일 불러오기 xlsx를 사용하기 위해서는 openxlsx를 설치해야함. 파일 경로가 현재 위치일 때 다음과 같음. # xlsx packages 불..