자격증/ADsP

[ADsP] 3과목 데이터 분석(2), (3)

씨주 2024. 2. 22. 22:00

📍 3과목 데이터분석(3)

📌 Q1.

데이터마트 : 특정사용자가 관심을 갖고 있는 데이터를 담은 비교적 작은 규모의 데이터웨어하우스

 

📌 Q2.

reshape : 변수를 조합해 변수명을 만들고 다양한 요약변수와 파생변수를 쉽게 생성하여 데이터 마트구성할 수 있는 패키지

 

📌 Q3.

파생변수 : 매우 주관적인 변수일 수 있으므로 논리적 타당성을 갖춰야 한다.

 

📌 Q4.

휴면고객 : 평균거래주기를 3~4배 이상 초과하거나 다음 달에 거래가 없을 것으로 예상되는 고객

 

📌 Q5.

cast(md, id_variable~time) : 각 ID와 Variable에 대해 Time의 Value를 확인

 

📌 Q6.

파생변수 :

특정한 의미를 갖는 작위적 정의에 의한 변수

사용자가 특정 조건을 만족하거나 특정함수에 의해 값을 만들어 의미부여한 변수

 

📌 Q7.

melt(airquality, id=c('Month', 'Day'), na.rm=TRUE)

 

📌 Q8.

sqldf : 데이터 내용 조회

 

📌 Q9.

각 feed별 weight의 평균 : ~feed, summarize, mean

 

📌 Q10.

결측치 :

칸이 비어있는 경우 결측치 여부는 알기 쉽다.

결측치가 있는 경우 다양한 대치방법을 사용해 완전한 자료로 만든 후 분석 진행

결측치가 20% 이상인 경우 해당 변수를 제거하고 분석

Default값이 기록된 경우라도 그 값의 의미를 가지고 있기 때문에 결측치로 처리해서는 안된다.

 

📌 Q11.

complete.cases() : 데이터 내 레코드에 결측값없으면 TRUE, 있으면 FALSE 반환

is.na() : 결측값이 NA인지 여부 판단

knnImputation() : NA값을 k 최근 이웃 분류 알고리즘을 사용하여 대치,

k개 주변이웃까지의 거리를 고려하여 가중 평균한 값을 대치

rfImpute() : 랜덤포레스트는 결측값이 있으면 에러를 발생하기 때문에 랜덤포레스트 패키지에서 NA결측값을 대치하도록 하는 함수

 

📌 Q12.

Complete Analysis : 불완전한 자료를 모두 삭제, 부분적 관측자료를 사용하므로 통계적 추론의 타당성 문제

평균대치법 : 자료의 평균값으로 결측값 대치

단순확률대치법 : 평균대치법에서 추정량 표준오차의 과소 추정문제를 보완하고자 고안

다중대치법 : 단순대치법을 한번만 하지 않고 m번 대치를 통해 m개의 가상적 완전 자료를 만든다.

추정량 표준오차의 과소추정이나 계산의 난해성 문제가 보완

 

📌 Q13.

이상치 :

IQR = Q3-Q1이라고 할 때, Q1-1.5*IQR < x < Q3+1.5*IQR을 벗어나는 x

변수의 분포에서 벗어난 값으로 상자 그림을 통해 확인 가능

분포를 왜곡할 수 있으나 실제 오류인자에 대해서 통계적으로 실행하지 못하기 때문에 제거여부실무자들을 통해 결정하는 것이 바람직

평균으로부터 3*표준편차 벗어나는 것들을 비정상이라 규정하고 제거하면 안된다.

 

📌 Q14.

이상값 검색을 활용한 응용시스템 : 부정사용방지 시스템

 

📌 Q15.

이상치 :

군집분석을 이용하여 다른 데이터들과 거리상 멀리 떨어진 데이터

설명변수의 관측치에 비해 종속변수의 값이 상이한 값

평균으로부터 표준편차의 3배가 되는 점을 기준으로 정의

무작정 제거해서는 안된다.

 

📌 Q16.

이상값 :

부정사용방지 시스템이나 부도예측시스템에서 의미가 있으므로 제거하지 않는다.

ESD(Extreme Studentized Deviation) - 평균에서 3표준편차를 벗어나는 경우 이상값으로 인식

의도하지 않게 잘못 입력된 데이터인 경우 Bad Data에 해당하며 이러한 경우 데이터 제거

절단이나 조정하는 경우 제거방법에 비해 데이터 손실율낮아 설명력높아지는 장점

 

📌 Q17.

plyr : Multi-Core를 사용해 반복문을 사용하지 않고 간단하고 빠르게 처리할 수 있는 데이터처리함수

 

📌 Q18.

이상치 :

오타로 인해 잘못 입력된 경우

분석 목적에 부합되지 않아 제거해야 하는 경우

부정사용방지 시스템에서 의도된 이상값

(최댓값, 최솟값 X)

 

📌 Q19.

이상치 분야 :

사기탐지 - 도난당한 신용카드의 구매행위가 원 소유자의 행위와 다를 수 있다.

의료 - 특정 환자에게 보이는 예외적 증세나 검사결과는 잠재적 견강 문제를 나타낸다.

침입탐지 - 침입의 다수는 네트워크에 대한 예외적인 행위를 감시하는 경우에 탐지 가능

(환경파괴 X)

 

📌 Q20.

이상치 :

3-sigma방법 : 평균으로부터 표준편차의 3배가 넘는 범위의 데이터

회귀분석 적합 후 잔차분석을 실시해 이상치를 판정

Grubb's Test, Hotellings T2 test 등

Q1 - 1.5*IQR보다 작거나 Q3 + 1.5*IQR보다 큰 데이터

'자격증 > ADsP' 카테고리의 다른 글

[ADsP] 38회 복원문제  (1) 2024.02.23
[ADsP] 39회 복원문제  (0) 2024.02.23
[ADsP] 3과목 데이터 분석(1)  (0) 2024.02.18
[ADsP] 2과목 데이터분석 기획  (0) 2024.02.17
[ADsP] 1과목 데이터 이해  (0) 2024.02.14