문제풀기: 빅데이터 분석기사 필기 : 빅데이터 탐색 (2과목) 문제은행

Q1. '재귀적 피처 제거(RFE)'에 대한 설명으로 가장 옳은 것은?

1 모델의 특성 중요도를 반복적으로 계산하면서 중요도가 낮은 피처를 단계적으로 제거해 원하는 개수의 피처를 선택하는 방법이다. 2 랜덤 포레스트의 불순도 감소량으로 피처 중요도를 한 번에 계산하는 방법이다. 3 피처 간 상관계수 행렬로 높은 상관 피처 중 하나를 제거하는 방법이다. 4 PCA로 분산 누적 기여율이 90%가 될 때까지 주성분을 선택하는 방법이다.

Q2. 다음 상황에서 가장 적절한 개념은?
배송 시간 데이터에서 '24시간 이내 배송' 비율이 전체 건수의 몇 %인지 한 번에 파악하려 한다.

1 누적 도수(Cumulative Frequency) 2 히스토그램 3 박스플롯 4 워드 클라우드

Q3. 다음 상황에서 가장 적절한 개념은?
100명 표본에서 구한 평균 키가 172cm이며, 이를 기반으로 모집단 평균의 범위를 [170, 174]로 제시했다.

1 신뢰구간 2 가설검정 3 점추정 4 표본분포

Q4. '정규분포'에 대한 설명으로 가장 옳은 것은?

1 평균을 중심으로 좌우 대칭인 종 모양(Bell Curve) 연속 확률분포로, 평균과 분산 두 모수로 완전히 정의된다. 2 성공 확률 p인 베르누이 시행을 n번 반복할 때 성공 횟수의 이산 확률분포다. 3 단위 시간·면적당 발생 횟수를 모델링하는 이산 확률분포다. 4 연속 균등분포로 구간 [a,b] 내 모든 값이 동일한 확률밀도를 갖는 분포다.

Q5. '주성분 분석(PCA)'에 대한 설명으로 가장 옳은 것은?

1 원본 데이터의 분산을 최대한 보존하는 직교 방향(주성분)으로 투영해 차원을 줄이는 비지도 선형 차원축소 기법이다. 2 레이블 정보를 활용해 클래스 분리를 최대화하는 방향으로 투영하는 지도 차원축소 기법이다. 3 고차원 데이터를 2~3차원에 비선형으로 시각화하는 매니폴드 학습 기법이다. 4 희소 데이터에서 잠재 의미를 추출하기 위해 행렬 분해를 사용하는 기법이다.

Q6. '사분위수(Quartile)'에 대한 설명으로 가장 옳은 것은?

1 데이터를 정렬했을 때 25%, 50%, 75% 위치에 해당하는 값으로, 분포의 퍼짐과 이상값 탐지에 활용된다. 2 정규분포를 기준으로 분포의 뾰족함을 나타내는 통계량이다. 3 두 변수 간 선형 관계의 정도를 -1~1로 표현하는 통계량이다. 4 평균으로부터의 편차 제곱 평균인 분산의 개념이다.

Q7. '카이제곱 독립성 검정'에 대한 설명으로 가장 옳은 것은?

1 교차표로 집계된 두 범주형 변수가 서로 독립인지 관측 빈도와 기대 빈도의 차이로 검정하는 방법이다. 2 세 집단 이상 정규 분포 집단의 평균 차이를 검정하는 방법이다. 3 동일 집단의 전·후 연속형 측정값 차이를 검정하는 방법이다. 4 두 집단의 분산이 동일한지 F-통계량으로 검정하는 방법이다.

Q8. '층화 표본추출'에 대한 설명으로 가장 옳은 것은?

1 모집단을 동질적인 부분집합(층)으로 나눈 뒤 각 층에서 독립적으로 표본을 추출해 대표성을 높이는 방법이다. 2 모집단에서 무작위로 임의의 n개를 선정하는 방법이다. 3 모집단을 클러스터로 나눠 일부 클러스터 전체를 표본으로 삼는 방법이다. 4 과거 데이터에서 반복적으로 재표본해 통계량의 분포를 추정하는 방법이다.

Q9. '대응표본 t-검정'에 대한 설명으로 가장 옳은 것은?

1 동일 집단에서 처리 전·후와 같이 쌍을 이룬 두 측정값의 평균 차이가 유의한지 검정하는 방법이다. 2 독립적인 두 집단 간 평균 차이를 검정하는 방법이다. 3 세 집단 이상의 평균을 동시에 비교하는 분산분석 방법이다. 4 범주형 두 변수 간 독립성을 검정하는 방법이다.

Q10. '귀무가설(H₀)'에 대한 설명으로 가장 옳은 것은?

1 검정에서 기본적으로 사실이라고 가정하는 기준 명제로, 표본 증거로 기각하려는 대상이다. 2 연구자가 증명하려는 주장으로 귀무가설이 기각될 때 채택되는 가설이다. 3 유의수준을 초과하면 기각되는 검정통계량의 임계값이다. 4 두 집단의 평균이 차이가 난다고 주장하는 대립 명제다.

전체 메뉴

학습