DSA-C03 문제 56

'글로벌마트'라는 소매업체는 오프라인 매장의 제품 배치 전략을 최적화하고자 합니다. 이 회사는 스노우플레이크에 저장된 거래 데이터를 통해 동일 거래에서 함께 구매되는 품목을 파악하고 있습니다. 연관 규칙 마이닝을 사용하여 자주 동시에 발생하는 품목을 식별하고자 합니다. 'SALES TRANSACTIONS'라는 이름의 스노우플레이크 테이블에 다음과 같은 단순화된 거래 데이터가 있다고 가정해 보겠습니다.

다음 SQL 기반 접근 방식 중 Snowpark Python과 결합하여 연관 규칙 생성('mlxtend'와 같은 라이브러리 사용)을 위한 가장 효율적이고 확장 가능한 방법은 무엇일까요? 특히 Apriori와 같은 알고리즘에 적합한 트랜잭션 항목 행렬로 변환하는 데 중점을 두고 연관 규칙 마이닝을 위해 데이터를 준비하는 가장 효율적인 방법은 무엇일까요? 'spark'가 Snowflake 환경에 연결된 'snowpark.Session' 객체라고 가정해 보겠습니다.

DSA-C03 문제 57

데이터 과학자는 'WEB SESSIONS'라는 Snowflake 테이블에 저장된 웹사이트 세션 데이터를 분석해야 합니다. 이 테이블에는 'SESSION D', 'USER_ID', 'PAGE_VIEWS', 'TIME SPENT_SECONDS', 'TIMESTAMP'와 같은 열이 있습니다. 그는 'PAGE VIEWS'와 'TIME SPENT SECONDS' 간의 상관관계를 분석하여 잠재적인 봇 트래픽을 파악하고자 합니다. 다음 Snowflake SQL 쿼리 중 잠재적인 NULL 값을 적절히 처리하면서 두 열 간의 피어슨 상관 계수를 계산하는 가장 효율적이고 통계적으로 타당한 방법은 무엇입니까?

DSA-C03 문제 58

Snowflake Cortex를 활용하여 텍스트 요약을 처리하는 Snowflake 네이티브 앱을 개발하고 있습니다. 이 앱은 사용자가 제공한 텍스트 입력을 실시간으로 처리하고 요약된 버전을 반환해야 합니다. 이 기능을 Snowflake 환경 내에서 안전하고 확장 가능한 REST API 엔드포인트로 제공하고자 합니다. 보안 및 성능 모범 사례를 고려할 때, 다음 중 이를 달성하기에 가장 적합한 전략은 무엇입니까?

DSA-C03 문제 59

ROC 곡선 아래 면적(AUC)을 사용하여 이진 분류 모델의 성능을 평가하고 있습니다. 다음과 같은 예측값과 실제 값이 있습니다. Snowflake에서 이를 안정적으로 계산하기 위해 어떤 단계를 거쳐야 하며, 어떤 스니펫이 이 계산에서 중요한 부분을 나타내는지 생각해 보세요. ('predictions' 테이블에 'predicted_probability'(FLOAT) 열과 'actual_value'(BOOLEAN) 열이 있다고 가정합니다. TRUE는 양성 클래스를, FALSE는 음성 클래스를 나타냅니다.) 아래 코드 중 서로 다른 임계값에 대한 '참 양성률'과 '거짓 양성률'을 계산하는 데 사용해야 하는 코드는 무엇인가요?

DSA-C03 문제 60

Snowpark Python을 사용하여 Snowflake에서 감정 분석 모델을 학습시키고 UDF로 배포했습니다. 몇 주 후, 모델 성능이 크게 저하된 것을 발견했습니다. 개념 드리프트가 의심됩니다. 모니터링, 재학습, 모델 버전 관리를 포함한 전체 머신러닝 라이프사이클을 고려할 때, 다음 중 이 상황을 해결하는 가장 효과적이고 포괄적인 접근 방식은 무엇일까요? 이러한 드리프트를 경고하는 모니터링 시스템이 구축되어 있다고 가정해 보겠습니다.