DSA-C03 문제 1
데이터 엔지니어는 Snowflake에서 사용자 활동 로그가 포함된 'USER ACTIVITY'라는 테이블에서 중복된 행을 제거하는 작업을 맡고 있습니다. 이 테이블에는 'ACTIVITY TIMESTAMP', 'ACTIVITY TYPE', 'DEVICE_ID' 열이 있습니다. 데이터 엔지니어는 'USER ID', 'ACTIVITY TYPE', 'DEVICE_ID' 열만 고려하여 중복 행을 제거하려고 합니다. 지정된 열의 각 고유한 조합에 대해 가장 빠른 'ACTIVITY TIMESTAMP'만 유지하면서 이를 달성하는 가장 효율적이고 정확한 SQL 쿼리는 무엇입니까?


DSA-C03 문제 2
Snowflake ML을 사용하여 사기 탐지 모델을 개발했고 모델의 예측을 기반으로 예상 지불금(손실 또는 이익)을 추정하려고 합니다. 잠재적으로 사기성 거래를 조사하는 데 드는 비용은 50달러입니다. 사기성 거래가 탐지되지 않을 경우 평균 손실은 1,000달러입니다. 검증 데이터 세트에 대한 모델의 혼동 행렬은 다음과 같습니다. 예측 사기 예측됨 사기 아님 실제 사기 150 50 실제 사기 아님 20 780 'FRAUD PREDICTIONS' 테이블에 'TRANSACTION ID', 'ACTUAL FRAUD' 및 'PREDICTED FRAUD'(사기는 1, 사기 아님은 0) 열이 있다고 가정할 때 Snowflake에서 다음 SQL 쿼리 중 1,000개 거래당 예상 지불금에 대한 가장 정확한 추정치를 제공하는 것은 무엇입니까?


DSA-C03 문제 3
감정 분석을 위해 'PRODUCT REVIEWS'라는 Snowflake 테이블을 준비해야 합니다. 이 테이블에는 'REVIEW ID', 'PRODUCT ID', 'REVIEW TEXT', 'RATING', 'TIMESTAMP'와 같은 열이 포함되어 있습니다. 목표는 모델 학습을 최적화하기 위해 관련 없는 필드를 제거하는 것입니다. 다음 중 Snowpark SQL을 사용하여 'PRODUCT REVIEWS' 테이블에서 저장 효율성과 모델 정확도를 모두 고려하여 관련 없거나 문제가 있는 필드를 식별하고 제거하는 유효하고 효과적인 전략은 무엇일까요? 모델에 리뷰 텍스트, 리뷰 ID, 그리고 평점만 필요하다고 가정합니다.
DSA-C03 문제 4
한 금융 기관이 비정상적인 거래 패턴을 기반으로 사기 행위를 의심합니다. 연관 규칙 마이닝을 사용하여 사기를 나타내는 다양한 거래 속성(예: 거래 금액, 위치, 시간대, 가맹점 카테고리 코드) 간의 관계를 파악하려고 합니다. 데이터는 'TRANSACTIONS'라는 Snowflake 테이블에 저장됩니다. 이 사기 탐지 시나리오에서 연관 규칙 마이닝을 적용할 때 다음 중 중요한 고려 사항은 무엇입니까?
DSA-C03 문제 5
Snowpark를 사용하여 Snowflake에 머신 러닝 모델을 성공적으로 배포하고 예측을 생성하고 있습니다. 예측 중 모델에 문제(예: 특성 누락, 잘못된 데이터 유형)가 발생하더라도 프로세스가 중단되지 않고 오류가 적절하게 기록되도록 강력한 오류 처리 메커니즘을 구현해야 합니다. 사용자 정의 함수(UDF)를 사용하여 모델을 호출하고 있습니다. 다음 전략 중 어떤 것을 조합하여 사용할 때 이 시나리오에서 최상의 오류 처리 및 모니터링 기능을 제공합니까?