무료 온라인 액세스 Snowflake.DSA-C03.v2025-10-13.q101 모의 시험 (Page 11)

DSA-C03 문제 46

'PRODUCT DESCRIPTIONS'라는 테이블에서 거의 중복되는 텍스트 항목을 식별하고 제거하는 Snowpark Python 함수를 개발해야 합니다. 이 테이블에는 'PRODUCT ONT'와 'DESCRIPTION'(문자열) 열이 있습니다. 거의 중복되는 항목은 Jaccard 유사도 점수가 0.9보다 높은 설명으로 정의됩니다. Snowpark와 UDF를 사용하여 이를 구현해야 합니다. 다음 중 가장 효율적이고 안전하며 구현하기에 정확한 방법은 무엇입니까?

A. 테이블에 있는 모든 설명 쌍 간의 Jaccard 유사도를 계산하는 Python UDF를 정의합니다. 교차 조인을 사용하여 모든 행을 비교한 다음, Jaccard 유사도 임계값을 기준으로 필터링합니다. 마지막으로, 선택한 타이브레이커(예: 가장 작은 PRODUCT_ID)를 기준으로 거의 중복되는 행을 삭제합니다.

B. Jaccard 유사도를 계산하는 Python UDF를 정의합니다. 'PRODUCT DESCRIPTIONS NO DUPES'라는 새 테이블을 생성하고 유사도 점수에 따라 고유한 설명을 삽입합니다. 원본 테이블에서 유사한 제품 설명을 가진 행은 제품 ID가 가장 낮은 행을 새 테이블에 삽입해야 합니다.

C. Jaccard 유사도를 계산하는 Python UDF를 정의합니다. 'GROUP BY'를 사용하여 'PRODUCT ID'를 기준으로 설명을 그룹화합니다. 이렇게 그룹화된 데이터에 UDF를 적용하여 유사도 점수가 임계값보다 높은 중복 항목을 제거합니다.

D. Jaccard 유사도를 계산하는 Python UDF를 정의합니다. DESCRIPTION 열의 해시값으로 분할된 ROW NUMBER() 열을 갖는 임시 테이블을 생성합니다. 각 파티션 내 설명 간의 Jaccard 유사도를 계산합니다. 동점자(가장 작은 PRODUCT_ID)를 기준으로 거의 중복되는 항목을 필터링하고 제거합니다.

E. UDF 없이 SQL 쿼리에서 함수를 직접 사용합니다. 'PRODUCT_ID'를 기준으로 데이터를 분할하고 Jaccard 인덱스가 0.9보다 큰 경우 거의 중복되는 항목을 제거합니다.

DSA-C03 문제 47

Snowflake에 저장된 거래 데이터를 사용하여 사기 탐지 모델을 구축하고 있습니다. 데이터 세트에는 거래 금액, 가맹점 카테고리, 위치, 시간 등의 특성이 포함됩니다. 규제 요건에 따라 데이터 수집 및 전처리 단계에서 개인 식별 정보(PII)가 안전하고 규정을 준수하여 처리되도록 해야 합니다. 다음 Snowflake 기능 및 기술 조합 중 이 목표를 달성하는 데 가장 적합한 것은 무엇입니까?

A. Snowflake의 마스킹 정책을 사용하여 모델 학습을 위해 데이터에 접근하기 전에 PII 열을 삭제하세요. 역할 기반 접근 제어를 구성하여 권한이 있는 사용자만 특정 목적으로 마스킹 해제된 데이터에 접근할 수 있도록 하세요.

B. 모델 학습을 위해 개인 식별 정보가 아닌 열만 선택하는 뷰를 만듭니다. 데이터 과학 팀에 이 뷰에 대한 접근 권한을 부여하세요.

C. PII를 무단 액세스로부터 보호하기 위해 거래 데이터가 포함된 전체 데이터베이스를 암호화합니다.

D. Snowflake의 데이터 공유 기능을 사용하여 PII 마스킹이나 삭제 없이 모델 개발을 위한 거래 데이터를 타사 머신 러닝 플랫폼과 공유합니다.

E. 모델 학습에 사용하기 전에 거래 데이터에서 파생된 집계 데이터에 차등 개인정보 보호 기술을 적용합니다. 이를 Snowflake의 행 접근 정책과 결합하여 사용자 역할 및 데이터 속성을 기반으로 민감한 거래 레코드에 대한 접근을 제한합니다.

DSA-C03 문제 48

데이터 과학자가 스노우플레이크에 저장된 데이터셋에서 계산된 통계량의 표집 분포를 추정하기 위해 부트스트래핑을 사용합니다. 그는 부트스트래핑 분포가 원래 데이터 분포와 상당히 다르다는 것을 발견했습니다. 부트스트래핑의 이론적 근거와 잠재적 한계를 모두 고려할 때, 이러한 차이의 가능한 원인을 가장 잘 설명하는 것은 무엇입니까?

A. 차이는 예상치 못한 것입니다. 부트스트랩 분포는 추정되는 통계량에 관계없이 항상 원래 데이터 분포와 매우 유사해야 합니다.

B. 원래 표본이 모집단을 대표하지 못할 수 있으며, 부트스트랩 과정은 단순히 원래 표본에 존재하는 편향을 증폭시킬 뿐입니다. 또한, 통계량 자체가 이상치나 특정 데이터 포인트에 매우 민감하여 부트스트랩 분포가 왜곡될 수 있습니다.

C. 추정되는 통계량이 본질적으로 불안정하고 분산이 높아 부트스트랩 분포가 원래 데이터 분포보다 더 넓고 형태가 다를 수 있습니다. 이는 이러한 통계량을 다룰 때 발생하는 정상적인 결과입니다.

D. 부트스트래핑은 정규 분포된 데이터에만 적합합니다. 원본 데이터가 정규 분포가 아니면 부트스트랩 분포는 필연적으로 크게 달라집니다.

E. 부트스트래핑은 항상 샘플링 분포에 대한 정확한 추정치를 제공하며, 상당한 차이는 코드 구현에 오류가 있음을 나타냅니다.

DSA-C03 문제 49

Snowpark ML을 사용하여 이진 분류 모델을 성공적으로 학습시키고 Snowflake에 UDF로 배포했습니다. UDF는 여러 입력 특성을 입력받아 양성 클래스의 예측 확률을 반환합니다. 잠재적인 데이터 드리프트 또는 개념 드리프트를 감지하기 위해 프로덕션 환경에서 모델의 성능을 지속적으로 모니터링해야 합니다. 다음 중 어떤 방법과 지표를 함께 사용할 때 프로덕션 환경에서 모델 성능과 드리프트를 가장 포괄적이고 신뢰할 수 있는 평가 도구로 사용할 수 있을까요? (두 가지 선택)

A. 시간 경과에 따른 평균 예측 확률 점수를 모니터링합니다. 평균 점수의 유의미한 변화는 데이터 드리프트를 나타냅니다.

B. 훈련 데이터와 생산 데이터의 예측 확률 분포 간의 콜모고로프-스미르노프(KS) 통계량을 일정 간격으로 계산합니다. KS 통계량의 큰 변화를 추적합니다.

C. UDF에서 하루에 처리하는 데이터 양을 모니터링합니다. 데이터 양이 갑자기 감소하면 데이터 파이프라인에 문제가 있음을 나타냅니다.

D. 레이블이 지정된 생산 데이터의 대표 표본에 대해 AUC, 정밀도, 재현율, Fl-점수와 같은 성능 지표를 정기적으로 계산하고 추적합니다. 학습 중 이러한 지표를 홀드아웃 데이터셋에 대한 모델의 성능과 비교합니다.

E. UDF에 전달된 입력 피처에 null 값이 있는지 확인합니다. null 값이 갑자기 증가하면 데이터 품질에 문제가 있음을 나타냅니다.

DSA-C03 문제 50

데이터 과학자가 '고객 거래'라는 테이블에 대해 탐색적 데이터 분석을 수행하고 있습니다. 각 고객 세그먼트(CCUSTOMER SEGMENT)의 거래 금액(C 거래 금액)의 표준 편차를 계산해야 합니다. '고객 세그먼트' 열에는 NULL 값이 포함될 수 있습니다. 다음 중 NULL 거래 금액을 제외하고 표준 편차를 올바르게 계산하고, NULL 고객 세그먼트를 '알 수 없음'이라는 별도의 세그먼트로 처리하는 SQL 문은 무엇입니까? 적절한 경우 Snowflake 전용 함수를 사용하는 것이 좋습니다.

A. 옵션 A

B. 옵션 B

C. 옵션 C

D. 옵션 D

E. 옵션 E

최근 업로드: 108Microsoft.AZ-500-KR.v2026-06-04.q213; 110Microsoft.DP-600-KR.v2026-06-04.q98; 105Microsoft.AZ-204-KR.v2026-06-04.q237; 136Microsoft.PL-600-KR.v2026-06-04.q112; 190Microsoft.SC-300-KR.v2026-06-03.q151; 153Microsoft.DP-600-KR.v2026-06-03.q70; 869PMI.PMP-KR.v2026-06-01.q1069; 228Microsoft.MS-102-KR.v2026-06-01.q252; 210Amazon.DOP-C02-KR.v2026-06-01.q207; 159Microsoft.AZ-104-KR.v2026-06-01.q197