무료 온라인 액세스 Snowflake.DSA-C03.v2025-10-13.q101 모의 시험 (Page 10)

DSA-C03 문제 41

Snowflake에서 고객 이탈을 예측하는 데이터 과학 파이프라인을 구축하는 업무를 맡게 되었습니다. scikit-learn 모델을 학습시켰고, 실시간 예측을 위해 Python UDTF를 사용하여 배포하려고 합니다. 이 모델은 특정 피처 벡터 형식을 필요로 합니다. 모델을 로드하고 예측을 수행하는 'PREDICT CHURN'이라는 UDTF를 정의했습니다. 그러나 테이블의 데이터로 UDTF를 호출하면 입력 피처가 동일해 보이는 경우에도 행마다 예측 결과가 일치하지 않습니다. 다음 중 이러한 동작의 가장 가능성 있는 이유는 무엇이며, 어떻게 해결하시겠습니까?

A. scikit-learn 모델이 UDTF 내에서 제대로 직렬화 및 역직렬화되지 않았습니다. 모델이 크로스 플랫폼 호환성을 위해 적절한 설정으로 'joblib' 또는 'pickle'을 사용하여 저장되었는지, 그리고 UDTF의 'process' 메서드 내에서 올바르게 로드되었는지 확인하십시오. 먼저 Snowflake와 별도로 테스트하여 직렬화/역직렬화를 확인하십시오.

B. 이 문제는 UDTF에 대한 Snowflake 실행 환경의 불변성과 관련이 있습니다. 이 문제를 해결하려면 로드된 모델 인스턴스를 UDTF 생성자 내에 캐시하고 후속 예측에 재사용해야 합니다. 전역 변수를 사용하는 것도 가능합니다.

C. 테이블의 입력 피처 데이터 유형이 scikit-learn 모델에서 예상하는 데이터 유형과 일치하지 않습니다. 입력 열을 UDTF로 전달하기 전에 올바른 데이터 유형(예: FLOAT, INT)으로 변환하세요. SQL 쿼리에서 'TO DOUBLE' 및 'INTEGER'와 같은 명시적 변환 함수를 사용하세요.

D. UDTF가 데이터를 올바르게 분할하지 않습니다. UDTF가 관련 차원(예: 'customer_id')을 기반으로 SQL 쿼리에서 'PARTITION BY' 절을 사용하여 파티션 간 상태 불일치를 방지하도록 하십시오. 이렇게 하면 함수 내에서 상태 저장의 영향을 분리할 수 있습니다.

E. 모델에 오류가 있을 수 있습니다. 'predict' 메서드가 동일한 입력에 대해 서로 다른 출력을 생성합니다. 모델을 다시 학습시키면 문제가 해결됩니다.

DSA-C03 문제 42

건물의 시간당 에너지 소비량을 예측하기 위해 Snowflake에서 시계열 예측 모델을 구축하고 있습니다. 타임스탬프와 해당 에너지 소비량이 포함된 과거 데이터가 있습니다. 일별 계절성이 뚜렷하고 주별 계절성이 약하다는 것을 확인했습니다. Snowflake를 사용하여 지도 학습 프레임워크 내에서 두 계절성 패턴을 모두 포착하는 데 가장 적합한 기법이나 접근 방식은 무엇입니까?

A. 선형 회귀 모델을 적용하기 전에 단순 이동 평균을 사용하여 데이터를 부드럽게 합니다.

B. STL(Loess를 이용한 계절-추세 분해)을 사용하여 시계열을 분해하고 추세 및 계절 요소에 대한 별도의 모델을 구축한 다음 예측을 결합합니다.

C. 지연된 특성(예: 이전 시간의 에너지 소비량, 어제 같은 시간의 에너지 소비량, 지난주 같은 시간의 에너지 소비량)을 생성하고 이러한 특성을 회귀 모델(예: 랜덤 포레스트 또는 그래디언트 부스팅)의 입력으로 사용합니다.

D. 기능 엔지니어링 없이 원래 시계열에 지수 평활화를 직접 적용합니다.

E. 일일 및 주간 주기에 해당하는 주파수를 갖는 푸리에 항(사인파 및 코사인파)을 회귀 모델의 특징으로 사용합니다.

DSA-C03 문제 43

Snowflake에서 사기 탐지 모델을 개발하고 있습니다. 거래 금액과 거래 빈도가 주요 특징임을 확인했습니다. 거래 금액이 우측으로 심하게 치우쳐 있고 거래 빈도에 이상치가 있음을 확인했습니다. 또한, 모델은 거래 빈도의 계절적 변동에 대해 강건해야 합니다. 다음 특징 엔지니어링 단계 중 순차적으로 적용할 경우 이러한 데이터 특성을 효과적으로 처리하는 데 가장 적합한 단계는 무엇입니까?

A. 1. 거래 금액에 대수 변환을 적용합니다. 2. 이상치를 처리하기 위해 거래 빈도에 윈저화 기법을 적용합니다. 3. 7일 기간 동안 거래 빈도의 이동 평균을 계산합니다.

B. 1. 거래 금액에 제곱근 변환을 적용합니다. 2. Z-점수 정규화를 사용하여 거래 빈도를 표준화합니다. 3. 요일에 대한 더미 변수를 만듭니다.

C. 1. 거래 금액에 Box-Cox 변환을 적용합니다. 2. 거래 빈도에 분위수 기반 변환(예: NTILE 사용)을 적용하여 균일한 분포로 매핑합니다. 3. 현재 거래 빈도와 지난 1년 동안 해당 요일의 평균 거래 빈도의 차이를 계산합니다.

D. 1. 거래 금액에 최소-최대 스케일링을 적용합니다. 2. 사분위 범위(IQR) 방법을 사용하여 거래 빈도의 이상치를 제거합니다. 3. 거래 빈도의 누적 합계를 계산합니다.

E. 1. 거래 금액에 대수 변환을 적용합니다. 2. 거래 빈도의 이상치를 평균값으로 바꿉니다. 3. 지난 7일간의 거래 빈도에 대한 지연 피처를 생성합니다.

DSA-C03 문제 44

Snowflake에 저장된 센서 데이터를 사용하여 장비 고장을 예측하는 모델을 개발하고 있습니다. 데이터셋은 매우 불균형하여 고장 이벤트(양수 클래스)가 정상 작동(음수 클래스)에 비해 드뭅니다. 모델 성능을 개선하기 위해 소수 클래스의 업샘플링과 다수 클래스의 다운샘플링을 모두 고려하고 있습니다. 이 시나리오에서 업샘플링과 다운샘플링 기술을 결합할 때의 잠재적 이점과 단점에 대한 다음 설명 중 어느 것이 맞습니까? (두 가지 선택)

A. 업샘플링과 다운샘플링을 결합하면 더 균형 잡힌 데이터 세트를 얻을 수 있으며, 단독 업샘플링으로 인한 과도한 편향을 발생시키지 않고 두 클래스의 패턴을 모두 학습하는 모델의 능력을 향상시킬 수 있습니다.

B. 데이터 세트 특성에 관계없이 업샘플링과 다운샘플링을 모두 사용하면 두 기술 중 하나만 사용하는 것보다 항상 모델 성능이 향상됩니다.

C. 다운샘플링을 업샘플링과 결합하면 다수 클래스에서 중요한 정보가 손실될 위험이 커져 과소적합이 발생할 수 있습니다. 특히 다수 클래스가 이미 비교적 작은 경우 더욱 그렇습니다.

D. 다운샘플링과 결합된 오버샘플링은 모델이 대규모 데이터 세트에서 학습하게 되므로 모델이 과적합될 가능성이 더 높습니다.

E. 업샘플링과 다운샘플링의 최적 샘플링 비율은 초기 클래스 분포에 관계없이 항상 1:1이어야 합니다.

DSA-C03 문제 45

대출 불이행을 예측하는 머신 러닝 모델을 구축하고 있습니다. Snowflake에 'income'(연간 소득, USD), 'loan_amount'(대출 금액, USD), 'credit_score'(FICO 점수) 등의 특성을 가진 데이터 세트가 있습니다. 모델을 학습시키기 전에 이러한 특성을 정규화해야 합니다. 데이터에는 'income'과 'loan_amount' 모두 이상치가 있으며, 'credit_score'는 대략 정규 분포를 따르지만, 평균이 0이고 표준 편차가 1이 되도록 표준화하려고 합니다. Snowflake에서 UDF 없이 SQL만 사용하여 이러한 정규화를 수행하려고 합니다. 다음 SQL 변환 중 가장 적합한 것은 무엇입니까?

A. 옵션 A

B. 옵션 B

C. 옵션 C

D. 옵션 D

E. 옵션 E

최근 업로드: 108Microsoft.AZ-500-KR.v2026-06-04.q213; 110Microsoft.DP-600-KR.v2026-06-04.q98; 105Microsoft.AZ-204-KR.v2026-06-04.q237; 136Microsoft.PL-600-KR.v2026-06-04.q112; 190Microsoft.SC-300-KR.v2026-06-03.q151; 151Microsoft.DP-600-KR.v2026-06-03.q70; 866PMI.PMP-KR.v2026-06-01.q1069; 227Microsoft.MS-102-KR.v2026-06-01.q252; 207Amazon.DOP-C02-KR.v2026-06-01.q207; 159Microsoft.AZ-104-KR.v2026-06-01.q197