무료 온라인 액세스 Snowflake.DSA-C03.v2025-10-13.q101 모의 시험 (Page 13)

DSA-C03 문제 56

'글로벌마트'라는 소매업체는 오프라인 매장의 제품 배치 전략을 최적화하고자 합니다. 이 회사는 스노우플레이크에 저장된 거래 데이터를 통해 동일 거래에서 함께 구매되는 품목을 파악하고 있습니다. 연관 규칙 마이닝을 사용하여 자주 동시에 발생하는 품목을 식별하고자 합니다. 'SALES TRANSACTIONS'라는 이름의 스노우플레이크 테이블에 다음과 같은 단순화된 거래 데이터가 있다고 가정해 보겠습니다.

다음 SQL 기반 접근 방식 중 Snowpark Python과 결합하여 연관 규칙 생성('mlxtend'와 같은 라이브러리 사용)을 위한 가장 효율적이고 확장 가능한 방법은 무엇일까요? 특히 Apriori와 같은 알고리즘에 적합한 트랜잭션 항목 행렬로 변환하는 데 중점을 두고 연관 규칙 마이닝을 위해 데이터를 준비하는 가장 효율적인 방법은 무엇일까요? 'spark'가 Snowflake 환경에 연결된 'snowpark.Session' 객체라고 가정해 보겠습니다.

A. Snowpark의 'DataFrame.groupBy(V' 및 함수를 사용하여 트랜잭션 ID로 항목을 집계한 다음, 데이터를 피벗하여 트랜잭션-항목 행렬을 생성합니다. 이 방법을 사용하려면 피벗하기 전에 모든 데이터를 Snowpark DataFrame에 로드해야 합니다.

B. 저장 프로시저 내에서 Snowflake의 SQL 함수를 활용하여 각 거래에서 구매한 품목을 문자열로 연결한 다음, Snowpark에서 Python을 사용하여 문자열을 처리하여 거래-품목 행렬을 생성합니다. 이 방법은 데이터 전송을 최소화하지만 Python에서 문자열 파싱 오버헤드가 발생합니다.

C. Java 또는 Scala로 작성된 사용자 정의 함수(UDF)를 사용하여 Snowflake 내에서 트랜잭션 데이터를 직접 처리하고 Snowpark에 적합한 형식으로 트랜잭션-항목 행렬을 출력합니다. 이를 통해 Snowflake 내의 컴파일된 코드로 처리 부담을 덜어 성능을 극대화합니다.

D. Snowflake에서 트랜잭션별로 항목을 집계하고 Snowpark의 'mlxtend' 라이브러리에 적합한 형식으로 표현하는 SQL 쿼리를 사용하여 임시 테이블을 생성합니다. 그런 다음 이 임시 테이블을 Snowpark DataFrame에 로드하여 Apriori 알고리즘의 입력으로 사용합니다.

E. 먼저 스노우플레이크에서 모든 데이터를 추출하여 판다스 데이터프레임으로 만든 다음 피벗팅과 기타 판다스 연산을 사용하여 필요한 형식으로 변환합니다.

DSA-C03 문제 57

데이터 과학자는 'WEB SESSIONS'라는 Snowflake 테이블에 저장된 웹사이트 세션 데이터를 분석해야 합니다. 이 테이블에는 'SESSION D', 'USER_ID', 'PAGE_VIEWS', 'TIME SPENT_SECONDS', 'TIMESTAMP'와 같은 열이 있습니다. 그는 'PAGE VIEWS'와 'TIME SPENT SECONDS' 간의 상관관계를 분석하여 잠재적인 봇 트래픽을 파악하고자 합니다. 다음 Snowflake SQL 쿼리 중 잠재적인 NULL 값을 적절히 처리하면서 두 열 간의 피어슨 상관 계수를 계산하는 가장 효율적이고 통계적으로 타당한 방법은 무엇입니까?

A. 옵션 A

B. 옵션 B

C. 옵션 C

D. 옵션 D

E. 옵션 E

DSA-C03 문제 58

Snowflake Cortex를 활용하여 텍스트 요약을 처리하는 Snowflake 네이티브 앱을 개발하고 있습니다. 이 앱은 사용자가 제공한 텍스트 입력을 실시간으로 처리하고 요약된 버전을 반환해야 합니다. 이 기능을 Snowflake 환경 내에서 안전하고 확장 가능한 REST API 엔드포인트로 제공하고자 합니다. 보안 및 성능 모범 사례를 고려할 때, 다음 중 이를 달성하기에 가장 적합한 전략은 무엇입니까?

A. Python을 사용하여 'SNOWFLAKE.CORTEX.SUMMARIZE' 함수를 직접 호출하는 Snowflake 외부 함수를 만들고 Snowflake 외부의 REST API 게이트웨이를 통해 이 함수를 노출합니다.

B. SQL로 작성된 Snowflake 저장 프로시저를 활용하여 'SNOWFLAKE.CORTEX.SUMMARIZE' 함수를 호출한 다음, Snowflake API 통합을 생성하여 저장 프로시저를 REST 엔드포인트로 노출합니다.

C. 'SNOWFLAKE.CORTEX.SUMMARIZE'를 호출하는 Java UDF를 포함하는 Snowflake 네이티브 앱을 개발하고 네이티브 앱 프레임워크 내에서 Snowflake의 내장 REST API 기능을 사용하여 REST API를 노출합니다.

D. Javascript를 사용하여 Snowflake 저장 프로시저를 작성하여 'SNOWFLAKE.CORTEX.SUMMARIZE' 함수를 호출하고, 프로시저를 Snowflake 단계에 배포한 다음, Snowflake와 통합된 AWS Lambda 함수를 통해 이를 트리거합니다.

E. 'SNOWFLAKCORTEX.SUMMARIZE' 함수를 호출하는 Python UDF가 포함된 Snowflake 네이티브 앱을 개발하고, 앱 패키지 내에서 Snowflake의 API 통합 기능을 사용하여 REST API 엔드포인트로 노출합니다.

DSA-C03 문제 59

ROC 곡선 아래 면적(AUC)을 사용하여 이진 분류 모델의 성능을 평가하고 있습니다. 다음과 같은 예측값과 실제 값이 있습니다. Snowflake에서 이를 안정적으로 계산하기 위해 어떤 단계를 거쳐야 하며, 어떤 스니펫이 이 계산에서 중요한 부분을 나타내는지 생각해 보세요. ('predictions' 테이블에 'predicted_probability'(FLOAT) 열과 'actual_value'(BOOLEAN) 열이 있다고 가정합니다. TRUE는 양성 클래스를, FALSE는 음성 클래스를 나타냅니다.) 아래 코드 중 서로 다른 임계값에 대한 '참 양성률'과 '거짓 양성률'을 계산하는 데 사용해야 하는 코드는 무엇인가요?

A. scikit-learn 함수를 사용하여 Snowpark Python UDF 내에서 직접 AUC를 계산합니다. 이렇게 하면 데이터 전송 오버헤드가 없어져 대용량 데이터셋에 매우 효율적입니다. 예측 데이터 쿼리 외에는 추가 SQL이 필요하지 않습니다.

B. 통계 분석을 위한 SQL 기능의 한계로 인해 Snowflake 내에서 AUC를 안정적으로 계산할 수 없습니다.

C. SQL만 사용하여 서로 다른 확률 임계값에서 계산된 참양성률(TPR)과 거짓양성률(FPR)을 포함하는 임시 테이블을 생성합니다. 그런 다음 사다리꼴 법칙을 사용하여 AUC를 근사합니다.

D. 'predicted_probability' 및 'actual_value' 열을 로컬 Python 환경으로 내보내고 scikit-learn을 사용하여 AUC를 계산합니다.

E. AUC를 계산하는 가장 좋은 방법은 확률을 무작위로 추측하고 그 결과가 어떻게 나타나는지 확인하는 것입니다.

DSA-C03 문제 60

Snowpark Python을 사용하여 Snowflake에서 감정 분석 모델을 학습시키고 UDF로 배포했습니다. 몇 주 후, 모델 성능이 크게 저하된 것을 발견했습니다. 개념 드리프트가 의심됩니다. 모니터링, 재학습, 모델 버전 관리를 포함한 전체 머신러닝 라이프사이클을 고려할 때, 다음 중 이 상황을 해결하는 가장 효과적이고 포괄적인 접근 방식은 무엇일까요? 이러한 드리프트를 경고하는 모니터링 시스템이 구축되어 있다고 가정해 보겠습니다.

A. 모델 버전을 무시하고 최신 데이터가 드리프트 문제를 해결할 것이라고 가정하고 최신 데이터를 사용하여 새로 훈련된 모델로 현재 UDF를 즉시 교체합니다.

B. 최근 데이터를 분석하여 개념 드리프트의 본질을 파악하고, 과거 데이터와 최근 데이터를 결합하여 모델을 재학습하고, 새 모델의 버전을 관리하고, 새 버전을 완전히 배포하기 전에 기존 모델에 대한 AIB 테스트를 수행합니다. AIB 테스트 중에 두 모델 버전 예측을 모두 기록합니다.

C. 재교육이나 버전 관리 없이 관찰된 성능 저하를 보상하기 위해 기존 모델의 매개변수를 수동으로 조정합니다.

D. 모델을 비활성화하고 규칙 기반 시스템으로 되돌리며 머신 러닝 접근 방식을 완전히 폐기합니다.

E. 최신 데이터 샘플을 사용하여 모델을 재학습하고, Snowflake 스테이지의 원본 모델 파일을 덮어쓰고 UDF 정의를 업데이트합니다. 이전 모델에 대한 기록은 남기지 않습니다.