자격증/ADsP

[ADsP] 3과목 데이터 분석(1)

씨주 2024. 2. 18. 01:23

📍 3과목 데이터 분석(1)

📌 Q1.

탐색적 자료분석(EDA) : 데이터의 특성을 파악하기 위해 변수의 분포 등을 시각화하여 분석하는 방식

 

📌 Q2.

데이터마이닝 :

통계적 모델링이 아니므로 지나치게 통계적 가설이나 유의성집착하지 말아야 한다.

분석데이터를 학습 및 테스트 데이터로 6:4, 7:3, 8:2로 상황에 맞게 실시

성능에 집착하면 주 목적인 실무적용에 반하여 시간을 낭비할 수 있으므로 훈련 및 테스트 성능에 큰 편차가 없고 예상 성능을 만족하면 중단

모델링 시 반드시 다양한 옵션을 줘서 모델링을 수행하여 최고의 성과 도출할 필요는 없다.

 

📌 Q3.

데이터마이닝 : 정확도, 리프트, 디텍트 레이트, 정밀도

시뮬레이션 : Throughput

 

📌 Q4.

탐색적 데이터분석

분석가능한 데이터인지 확인

변수의 유형이 어떻게 되는지 찾아가는 과정

알고리즘이 학습을 얼마나 잘하느냐는 전적으로 데이터의 품질과 데이터에 담긴 정보량에 담겨있다.

데이터를 시각화하는 것만으로 이상점 식별 가능(박스플롯으로 가능)

 

📌 Q5.

신규시스템이나 DW에 포함되지 않은 데이터, 스테이지영역 데이터 : 데이터가 정제되지 않았기 떄문에 정제하고 DW나 DM과 결합

ODS는 운영데이터 저장소로 운영시스템의 데이터가 정제된 데이터이므로 DW나 DM과 결합

 

📌 Q6.

시각화의 발전 :

텍스트 마이닝에서 워드클라우드를 통한 그래프화

SNA(Social Network Analysis)에서 집단의 특성과 관계를 그래프화

Polygon, Heatmap, Mosaic Graph 등의 그래프 작업

(기초통계정보를 엑셀에서 그래프화 X)

 

📌 Q7.

데이터마이닝 : 패턴을 파악해 예측하는 분석방법, 정보가 다양할수록 유리

 

📌 Q8.

추론(추측)통계 : 모집단으로부터 추출된 표본의 표본통계량으로부터 모집단의 특성인 모수에 관해 통계적으로 추론하는 통계

 

📌 Q9.

EDA 주제 :

저항성 강조, 자료변수의 재표현, 그래프를 통한 현시성, 잔차 계산

(종속변수 계산 X)

 

📌 Q10.

Q4.과 동일

 

 

📍 3과목 데이터 분석(2)

 

📌 Q1.

벡터 :

하나 이상의 스칼라 원소들을 가진다.

자료형(숫자 또는 문자)로 구성

행렬구조로 나타나지 않는다.

 

📌 Q2.

R :

문자형은 서로 연산 불가

 

📌 Q3.

summary :

연속형 변수 - 4분위수, 최소값, 최대값, 중앙값, 평균 등 출력

범주형 변수 - 각 범주에 대한 빈도수 출력

 

📌 Q4.

R :

False, False, False, True

 

📌 Q5.

R :

모드 character / numeric

 

📌 Q6.

R :

c(1, 10) / 1:10

 

📌 Q7.

R :

객체의 길이가 다를 경우 에러와 함께 결과 출력

 

📌 Q8.

R :

as.numeric함수논리형 벡터를 입력하면 True는 1, False는 0인 숫자형 벡터로 변형

숫자형 행렬에서 원소 중 하나를 문자형으로 변경하면 해당 행렬 모든 원소가 문자형으로 변경

데이터 프레임은 각 열 별다른 데이터 타입을 가질 수 있다.

행렬을 as.vector함수에 입력하면 열방향으로 1열부터 차례로 원소를 나열하는 벡터 생성

 

📌 Q9.

데이터프레임 : 2차원 목록데이터 구조, 각 열이 서로 다른 데이터 타입을 가진다.

 

📌 Q10.

R :

na.rm=T 결측값 제외

 

📌 Q11.

data.table패키지 : 큰 데이터를 탐색, 연산, 병합하는데 유용

plyr패키지 : ddply함수 제공, 데이터 분리, 결합 등 필수적인 데이터 처리기능 제공
reshape패키지 : meltcast를 이용하여 데이터 재구성

sqldf패키지 : 표준 SQL명령을 실행하고 결과

 

📌 Q12.

R :

"+"(2, 3) = 숫자 5 출력

 

📌 Q13.

R :

3 * y = 3을 곱한 값, NA는 그대로 출력

 

📌 Q14.

R :

결측 - NA

 

📌 Q15.

R :

표준편차 - stdev

 

📌 Q16.

R :

substr - 행렬의 각 단어를 지정한 수만큼의 문자 갯수만큼 출력

 

📌 Q17.

R :

merge - 두 개의 테이블을 하나로 결합

 

📌 Q18.

R :

for문

 

📌 Q19.

R :

rbind - 행렬로 결합

 

📌 Q20.

R :

byrow = T 행을 기준으로 2열로 매트릭스 생성

 

📌 Q21.

리스트 : 데이터 타입이 같지 않은 객체들을 하나의 객체로 묶을 수 있는 자료구조

 

📌 Q22.

%Y : 2019

%m : 08

%d : 23

 

📌 Q23.

R

 

📌 Q24.

패키지 설치 : install.packages('패키지명')

패키지 사용 : library(패키지명)

 

📌 Q25.

Q21.과 동일

 

📌 Q26.

R :

오픈소스 프로그램

다양한 최신 통계분석데이터 마이닝 기능 제공

사용자들이 여러 예시들을 공유

Linux, Window, MAC에서 사용 가능

 

📌 Q27.

리스트 생성 시 'ab'가 아닌 ab로 할때는 ab에 할당한 값을 찾음

따라서 새 워크스페이스에서는 할당한 값을 찾을 수 없기 때문에 에러 발생

 

📌 Q28.

숫자형 벡터, 문자형 벡터, 논리 연산자 벡터를 합치면 문자형 벡터가 된다.

 

📌 Q29.

R :

1, 2, 3, 4, 1, 2, 3, 4

1, 1, 2, 2, 3, 3, 4, 4

 

📌 Q30.

example(solve) : 함수 solve의 도움말 예제에 있는 명령어들 실행

'자격증 > ADsP' 카테고리의 다른 글

[ADsP] 38회 복원문제  (1) 2024.02.23
[ADsP] 39회 복원문제  (0) 2024.02.23
[ADsP] 3과목 데이터 분석(2), (3)  (0) 2024.02.22
[ADsP] 2과목 데이터분석 기획  (0) 2024.02.17
[ADsP] 1과목 데이터 이해  (0) 2024.02.14