DSA-C03 문제 51
Snowpark를 사용하여 제품 추천을 위한 협업 필터링 모델을 구축하고 있습니다. 'USER_ITEM INTERACTIONS' 테이블에 'USER ID', 'ITEM ID', 'INTERACTION TYPE' 열이 있습니다. Snowpark를 사용하여 이 데이터를 희소 행렬로 표현하고, 이를 행렬 분해 알고리즘의 입력으로 사용하려고 합니다. 다음 코드 조각 중 Snowflake 내에서 대용량 데이터 세트를 효율적으로 처리하면서 이러한 목표를 가장 잘 달성하는 것은 무엇입니까?
DSA-C03 문제 52
Snowpark Python을 사용하여 'WEB ACTIVITY'라는 Snowflake 테이블에 저장된 대규모 웹사이트 사용자 활동 로그 데이터 세트를 처리하고 있습니다. 이 테이블에는 'USER ID', 'TIMESTAMP', 'PAGE URL', 'BROWSER', 'IP ADDRESS'와 같은 열이 포함되어 있습니다. 모델 성능을 개선하려면 관련 없는 데이터를 제거해야 합니다. 사용자 전환율을 예측하는 모델에서 관련 없는 데이터를 제거하는 데 다음 중 단독으로 또는 조합하여 가장 효과적인 작업은 무엇이며, 이러한 작업을 보여주는 Snowpark Python 코드 조각은 무엇입니까? 전환율은 페이지 상호작용에 따라 달라지며 모델은 세션 ID와 세션 기간만 활용한다고 가정해 보겠습니다.


DSA-C03 문제 53
Snowflake에 저장된 대규모 금융 데이터세트에서 비지도 학습을 사용하여 사기 거래를 식별하는 업무를 맡게 되었습니다. 이 데이터세트에는 거래 금액, 가맹점 ID, 위치, 시간, 사용자 ID와 같은 특징이 포함되어 있습니다. 클러스터링과 이상 탐지 기술을 함께 사용하기로 결정했습니다. 다음 중 Snowflake의 기능을 활용하고 오탐(false positive)을 최소화하면서 이 목표를 달성하는 데 가장 효과적인 단계와 기술은 무엇일까요?
DSA-C03 문제 54
Snowflake에 고객 리뷰가 포함된 데이터 세트가 있습니다. 'review_text' 열 중 하나에 고객 피드백(자유 텍스트)이 포함되어 있습니다. 이러한 리뷰에 대한 감정 분석을 수행하고 감정 점수를 머신 러닝 모델에 특성으로 포함하려고 합니다. 또한, 감정을 '긍정적', '부정적', '중립적'으로 분류하려고 합니다. Snowflake 내에서 확장성과 효율성이 필요하다는 점을 고려할 때, 어떤 방법을 사용할 수 있을까요?
DSA-C03 문제 55
Snowflake에서 고객 거래 데이터세트에 대한 탐색적 데이터 분석을 수행하여 여러 고객 관련 특성(예: 연령, 위치, 이전 거래 횟수)을 기반으로 거래 가치를 예측하는 선형 회귀 모델을 준비하고 있습니다. 'customer_age'와 'transaction_value' 사이에 비선형 관계가 있는 것으로 추정됩니다. 다음 Snowflake SQL 기법 중 'customer_age' 변수를 탐색하고 변환하여 선형 회귀 모델에 더 적합하게 만드는 데 가장 적합한 것은 무엇입니까?
