DSA-C03 문제 41

Snowflake에서 고객 이탈을 예측하는 데이터 과학 파이프라인을 구축하는 업무를 맡게 되었습니다. scikit-learn 모델을 학습시켰고, 실시간 예측을 위해 Python UDTF를 사용하여 배포하려고 합니다. 이 모델은 특정 피처 벡터 형식을 필요로 합니다. 모델을 로드하고 예측을 수행하는 'PREDICT CHURN'이라는 UDTF를 정의했습니다. 그러나 테이블의 데이터로 UDTF를 호출하면 입력 피처가 동일해 보이는 경우에도 행마다 예측 결과가 일치하지 않습니다. 다음 중 이러한 동작의 가장 가능성 있는 이유는 무엇이며, 어떻게 해결하시겠습니까?

DSA-C03 문제 42

건물의 시간당 에너지 소비량을 예측하기 위해 Snowflake에서 시계열 예측 모델을 구축하고 있습니다. 타임스탬프와 해당 에너지 소비량이 포함된 과거 데이터가 있습니다. 일별 계절성이 뚜렷하고 주별 계절성이 약하다는 것을 확인했습니다. Snowflake를 사용하여 지도 학습 프레임워크 내에서 두 계절성 패턴을 모두 포착하는 데 가장 적합한 기법이나 접근 방식은 무엇입니까?

DSA-C03 문제 43

Snowflake에서 사기 탐지 모델을 개발하고 있습니다. 거래 금액과 거래 빈도가 주요 특징임을 확인했습니다. 거래 금액이 우측으로 심하게 치우쳐 있고 거래 빈도에 이상치가 있음을 확인했습니다. 또한, 모델은 거래 빈도의 계절적 변동에 대해 강건해야 합니다. 다음 특징 엔지니어링 단계 중 순차적으로 적용할 경우 이러한 데이터 특성을 효과적으로 처리하는 데 가장 적합한 단계는 무엇입니까?

DSA-C03 문제 44

Snowflake에 저장된 센서 데이터를 사용하여 장비 고장을 예측하는 모델을 개발하고 있습니다. 데이터셋은 매우 불균형하여 고장 이벤트(양수 클래스)가 정상 작동(음수 클래스)에 비해 드뭅니다. 모델 성능을 개선하기 위해 소수 클래스의 업샘플링과 다수 클래스의 다운샘플링을 모두 고려하고 있습니다. 이 시나리오에서 업샘플링과 다운샘플링 기술을 결합할 때의 잠재적 이점과 단점에 대한 다음 설명 중 어느 것이 맞습니까? (두 가지 선택)

DSA-C03 문제 45

대출 불이행을 예측하는 머신 러닝 모델을 구축하고 있습니다. Snowflake에 'income'(연간 소득, USD), 'loan_amount'(대출 금액, USD), 'credit_score'(FICO 점수) 등의 특성을 가진 데이터 세트가 있습니다. 모델을 학습시키기 전에 이러한 특성을 정규화해야 합니다. 데이터에는 'income'과 'loan_amount' 모두 이상치가 있으며, 'credit_score'는 대략 정규 분포를 따르지만, 평균이 0이고 표준 편차가 1이 되도록 표준화하려고 합니다. Snowflake에서 UDF 없이 SQL만 사용하여 이러한 정규화를 수행하려고 합니다. 다음 SQL 변환 중 가장 적합한 것은 무엇입니까?