DSA-C03 문제 46

'PRODUCT DESCRIPTIONS'라는 테이블에서 거의 중복되는 텍스트 항목을 식별하고 제거하는 Snowpark Python 함수를 개발해야 합니다. 이 테이블에는 'PRODUCT ONT'와 'DESCRIPTION'(문자열) 열이 있습니다. 거의 중복되는 항목은 Jaccard 유사도 점수가 0.9보다 높은 설명으로 정의됩니다. Snowpark와 UDF를 사용하여 이를 구현해야 합니다. 다음 중 가장 효율적이고 안전하며 구현하기에 정확한 방법은 무엇입니까?

DSA-C03 문제 47

Snowflake에 저장된 거래 데이터를 사용하여 사기 탐지 모델을 구축하고 있습니다. 데이터 세트에는 거래 금액, 가맹점 카테고리, 위치, 시간 등의 특성이 포함됩니다. 규제 요건에 따라 데이터 수집 및 전처리 단계에서 개인 식별 정보(PII)가 안전하고 규정을 준수하여 처리되도록 해야 합니다. 다음 Snowflake 기능 및 기술 조합 중 이 목표를 달성하는 데 가장 적합한 것은 무엇입니까?

DSA-C03 문제 48

데이터 과학자가 스노우플레이크에 저장된 데이터셋에서 계산된 통계량의 표집 분포를 추정하기 위해 부트스트래핑을 사용합니다. 그는 부트스트래핑 분포가 원래 데이터 분포와 상당히 다르다는 것을 발견했습니다. 부트스트래핑의 이론적 근거와 잠재적 한계를 모두 고려할 때, 이러한 차이의 가능한 원인을 가장 잘 설명하는 것은 무엇입니까?

DSA-C03 문제 49

Snowpark ML을 사용하여 이진 분류 모델을 성공적으로 학습시키고 Snowflake에 UDF로 배포했습니다. UDF는 여러 입력 특성을 입력받아 양성 클래스의 예측 확률을 반환합니다. 잠재적인 데이터 드리프트 또는 개념 드리프트를 감지하기 위해 프로덕션 환경에서 모델의 성능을 지속적으로 모니터링해야 합니다. 다음 중 어떤 방법과 지표를 함께 사용할 때 프로덕션 환경에서 모델 성능과 드리프트를 가장 포괄적이고 신뢰할 수 있는 평가 도구로 사용할 수 있을까요? (두 가지 선택)

DSA-C03 문제 50

데이터 과학자가 '고객 거래'라는 테이블에 대해 탐색적 데이터 분석을 수행하고 있습니다. 각 고객 세그먼트(CCUSTOMER SEGMENT)의 거래 금액(C 거래 금액)의 표준 편차를 계산해야 합니다. '고객 세그먼트' 열에는 NULL 값이 포함될 수 있습니다. 다음 중 NULL 거래 금액을 제외하고 표준 편차를 올바르게 계산하고, NULL 고객 세그먼트를 '알 수 없음'이라는 별도의 세그먼트로 처리하는 SQL 문은 무엇입니까? 적절한 경우 Snowflake 전용 함수를 사용하는 것이 좋습니다.