📍 3과목 데이터분석(3)
📌 Q1.
데이터마트 : 특정사용자가 관심을 갖고 있는 데이터를 담은 비교적 작은 규모의 데이터웨어하우스
📌 Q2.
reshape : 변수를 조합해 변수명을 만들고 다양한 요약변수와 파생변수를 쉽게 생성하여 데이터 마트를 구성할 수 있는 패키지
📌 Q3.
파생변수 : 매우 주관적인 변수일 수 있으므로 논리적 타당성을 갖춰야 한다.
📌 Q4.
휴면고객 : 평균거래주기를 3~4배 이상 초과하거나 다음 달에 거래가 없을 것으로 예상되는 고객
📌 Q5.
cast(md, id_variable~time) : 각 ID와 Variable에 대해 Time의 Value를 확인
📌 Q6.
파생변수 :
특정한 의미를 갖는 작위적 정의에 의한 변수
사용자가 특정 조건을 만족하거나 특정함수에 의해 값을 만들어 의미부여한 변수
📌 Q7.
melt(airquality, id=c('Month', 'Day'), na.rm=TRUE)
📌 Q8.
sqldf : 데이터 내용 조회
📌 Q9.
각 feed별 weight의 평균 : ~feed, summarize, mean
📌 Q10.
결측치 :
칸이 비어있는 경우 결측치 여부는 알기 쉽다.
결측치가 있는 경우 다양한 대치방법을 사용해 완전한 자료로 만든 후 분석 진행
결측치가 20% 이상인 경우 해당 변수를 제거하고 분석
Default값이 기록된 경우라도 그 값의 의미를 가지고 있기 때문에 결측치로 처리해서는 안된다.
📌 Q11.
complete.cases() : 데이터 내 레코드에 결측값이 없으면 TRUE, 있으면 FALSE 반환
is.na() : 결측값이 NA인지 여부 판단
knnImputation() : NA값을 k 최근 이웃 분류 알고리즘을 사용하여 대치,
k개 주변이웃까지의 거리를 고려하여 가중 평균한 값을 대치
rfImpute() : 랜덤포레스트는 결측값이 있으면 에러를 발생하기 때문에 랜덤포레스트 패키지에서 NA결측값을 대치하도록 하는 함수
📌 Q12.
Complete Analysis : 불완전한 자료를 모두 삭제, 부분적 관측자료를 사용하므로 통계적 추론의 타당성 문제
평균대치법 : 자료의 평균값으로 결측값 대치
단순확률대치법 : 평균대치법에서 추정량 표준오차의 과소 추정문제를 보완하고자 고안
다중대치법 : 단순대치법을 한번만 하지 않고 m번 대치를 통해 m개의 가상적 완전 자료를 만든다.
추정량 표준오차의 과소추정이나 계산의 난해성 문제가 보완
📌 Q13.
이상치 :
IQR = Q3-Q1이라고 할 때, Q1-1.5*IQR < x < Q3+1.5*IQR을 벗어나는 x
변수의 분포에서 벗어난 값으로 상자 그림을 통해 확인 가능
분포를 왜곡할 수 있으나 실제 오류인자에 대해서 통계적으로 실행하지 못하기 때문에 제거여부는 실무자들을 통해 결정하는 것이 바람직
평균으로부터 3*표준편차 벗어나는 것들을 비정상이라 규정하고 제거하면 안된다.
📌 Q14.
이상값 검색을 활용한 응용시스템 : 부정사용방지 시스템
📌 Q15.
이상치 :
군집분석을 이용하여 다른 데이터들과 거리상 멀리 떨어진 데이터
설명변수의 관측치에 비해 종속변수의 값이 상이한 값
평균으로부터 표준편차의 3배가 되는 점을 기준으로 정의
무작정 제거해서는 안된다.
📌 Q16.
이상값 :
부정사용방지 시스템이나 부도예측시스템에서 의미가 있으므로 제거하지 않는다.
ESD(Extreme Studentized Deviation) - 평균에서 3표준편차를 벗어나는 경우 이상값으로 인식
의도하지 않게 잘못 입력된 데이터인 경우 Bad Data에 해당하며 이러한 경우 데이터 제거
절단이나 조정하는 경우 제거방법에 비해 데이터 손실율이 낮아 설명력이 높아지는 장점
📌 Q17.
plyr : Multi-Core를 사용해 반복문을 사용하지 않고 간단하고 빠르게 처리할 수 있는 데이터처리함수
📌 Q18.
이상치 :
오타로 인해 잘못 입력된 경우
분석 목적에 부합되지 않아 제거해야 하는 경우
부정사용방지 시스템에서 의도된 이상값
(최댓값, 최솟값 X)
📌 Q19.
이상치 분야 :
사기탐지 - 도난당한 신용카드의 구매행위가 원 소유자의 행위와 다를 수 있다.
의료 - 특정 환자에게 보이는 예외적 증세나 검사결과는 잠재적 견강 문제를 나타낸다.
침입탐지 - 침입의 다수는 네트워크에 대한 예외적인 행위를 감시하는 경우에 탐지 가능
(환경파괴 X)
📌 Q20.
이상치 :
3-sigma방법 : 평균으로부터 표준편차의 3배가 넘는 범위의 데이터
회귀분석 적합 후 잔차분석을 실시해 이상치를 판정
Grubb's Test, Hotellings T2 test 등
Q1 - 1.5*IQR보다 작거나 Q3 + 1.5*IQR보다 큰 데이터
'자격증 > ADsP' 카테고리의 다른 글
[ADsP] 38회 복원문제 (1) | 2024.02.23 |
---|---|
[ADsP] 39회 복원문제 (0) | 2024.02.23 |
[ADsP] 3과목 데이터 분석(1) (0) | 2024.02.18 |
[ADsP] 2과목 데이터분석 기획 (0) | 2024.02.17 |
[ADsP] 1과목 데이터 이해 (0) | 2024.02.14 |