📍 3과목 데이터 분석(1)
📌 Q1.
탐색적 자료분석(EDA) : 데이터의 특성을 파악하기 위해 변수의 분포 등을 시각화하여 분석하는 방식
📌 Q2.
데이터마이닝 :
통계적 모델링이 아니므로 지나치게 통계적 가설이나 유의성에 집착하지 말아야 한다.
분석데이터를 학습 및 테스트 데이터로 6:4, 7:3, 8:2로 상황에 맞게 실시
성능에 집착하면 주 목적인 실무적용에 반하여 시간을 낭비할 수 있으므로 훈련 및 테스트 성능에 큰 편차가 없고 예상 성능을 만족하면 중단
모델링 시 반드시 다양한 옵션을 줘서 모델링을 수행하여 최고의 성과 도출할 필요는 없다.
📌 Q3.
데이터마이닝 : 정확도, 리프트, 디텍트 레이트, 정밀도
시뮬레이션 : Throughput
📌 Q4.
탐색적 데이터분석 :
분석가능한 데이터인지 확인
변수의 유형이 어떻게 되는지 찾아가는 과정
알고리즘이 학습을 얼마나 잘하느냐는 전적으로 데이터의 품질과 데이터에 담긴 정보량에 담겨있다.
데이터를 시각화하는 것만으로 이상점 식별 가능(박스플롯으로 가능)
📌 Q5.
신규시스템이나 DW에 포함되지 않은 데이터, 스테이지영역 데이터 : 데이터가 정제되지 않았기 떄문에 정제하고 DW나 DM과 결합
ODS는 운영데이터 저장소로 운영시스템의 데이터가 정제된 데이터이므로 DW나 DM과 결합
📌 Q6.
시각화의 발전 :
텍스트 마이닝에서 워드클라우드를 통한 그래프화
SNA(Social Network Analysis)에서 집단의 특성과 관계를 그래프화
Polygon, Heatmap, Mosaic Graph 등의 그래프 작업
(기초통계정보를 엑셀에서 그래프화 X)
📌 Q7.
데이터마이닝 : 패턴을 파악해 예측하는 분석방법, 정보가 다양할수록 유리
📌 Q8.
추론(추측)통계 : 모집단으로부터 추출된 표본의 표본통계량으로부터 모집단의 특성인 모수에 관해 통계적으로 추론하는 통계
📌 Q9.
EDA 주제 :
저항성 강조, 자료변수의 재표현, 그래프를 통한 현시성, 잔차 계산
(종속변수 계산 X)
📌 Q10.
Q4.과 동일
📍 3과목 데이터 분석(2)
📌 Q1.
벡터 :
하나 이상의 스칼라 원소들을 가진다.
자료형(숫자 또는 문자)로 구성
행렬구조로 나타나지 않는다.
📌 Q2.
R :
문자형은 서로 연산 불가
📌 Q3.
summary :
연속형 변수 - 4분위수, 최소값, 최대값, 중앙값, 평균 등 출력
범주형 변수 - 각 범주에 대한 빈도수 출력
📌 Q4.
R :
False, False, False, True
📌 Q5.
R :
모드 character / numeric
📌 Q6.
R :
c(1, 10) / 1:10
📌 Q7.
R :
객체의 길이가 다를 경우 에러와 함께 결과 출력
📌 Q8.
R :
as.numeric함수에 논리형 벡터를 입력하면 True는 1, False는 0인 숫자형 벡터로 변형
숫자형 행렬에서 원소 중 하나를 문자형으로 변경하면 해당 행렬 모든 원소가 문자형으로 변경
데이터 프레임은 각 열 별로 다른 데이터 타입을 가질 수 있다.
행렬을 as.vector함수에 입력하면 열방향으로 1열부터 차례로 원소를 나열하는 벡터 생성
📌 Q9.
데이터프레임 : 2차원 목록데이터 구조, 각 열이 서로 다른 데이터 타입을 가진다.
📌 Q10.
R :
na.rm=T 결측값 제외
📌 Q11.
data.table패키지 : 큰 데이터를 탐색, 연산, 병합하는데 유용
plyr패키지 : ddply함수 제공, 데이터 분리, 결합 등 필수적인 데이터 처리기능 제공
reshape패키지 : melt와 cast를 이용하여 데이터 재구성
sqldf패키지 : 표준 SQL명령을 실행하고 결과
📌 Q12.
R :
"+"(2, 3) = 숫자 5 출력
📌 Q13.
R :
3 * y = 3을 곱한 값, NA는 그대로 출력
📌 Q14.
R :
결측 - NA
📌 Q15.
R :
표준편차 - stdev
📌 Q16.
R :
substr - 행렬의 각 단어를 지정한 수만큼의 문자 갯수만큼 출력
📌 Q17.
R :
merge - 두 개의 테이블을 하나로 결합
📌 Q18.
R :
for문
📌 Q19.
R :
rbind - 행렬로 결합
📌 Q20.
R :
byrow = T 행을 기준으로 2열로 매트릭스 생성
📌 Q21.
리스트 : 데이터 타입이 같지 않은 객체들을 하나의 객체로 묶을 수 있는 자료구조
📌 Q22.
%Y : 2019
%m : 08
%d : 23
📌 Q23.
R
📌 Q24.
패키지 설치 : install.packages('패키지명')
패키지 사용 : library(패키지명)
📌 Q25.
Q21.과 동일
📌 Q26.
R :
오픈소스 프로그램
다양한 최신 통계분석과 데이터 마이닝 기능 제공
사용자들이 여러 예시들을 공유
Linux, Window, MAC에서 사용 가능
📌 Q27.
리스트 생성 시 'ab'가 아닌 ab로 할때는 ab에 할당한 값을 찾음
따라서 새 워크스페이스에서는 할당한 값을 찾을 수 없기 때문에 에러 발생
📌 Q28.
숫자형 벡터, 문자형 벡터, 논리 연산자 벡터를 합치면 문자형 벡터가 된다.
📌 Q29.
R :
1, 2, 3, 4, 1, 2, 3, 4
1, 1, 2, 2, 3, 3, 4, 4
📌 Q30.
example(solve) : 함수 solve의 도움말 예제에 있는 명령어들 실행
'자격증 > ADsP' 카테고리의 다른 글
[ADsP] 38회 복원문제 (1) | 2024.02.23 |
---|---|
[ADsP] 39회 복원문제 (0) | 2024.02.23 |
[ADsP] 3과목 데이터 분석(2), (3) (0) | 2024.02.22 |
[ADsP] 2과목 데이터분석 기획 (0) | 2024.02.17 |
[ADsP] 1과목 데이터 이해 (0) | 2024.02.14 |