무료 온라인 액세스 Databricks.Databricks-Certified-Professional-Data-Scientist.v2022-10-01.q49 모의 시험 (Page 3)

Databricks-Certified-Professional-Data-Scientist 문제 6

소매점에 대한 100,000명의 고객 행동을 분류하기 위해 k-평균 클러스터링을 사용했습니다. 가구 소득, 연령, 성별 및 연간 구매 금액을 측정값으로 사용하기로 결정합니다. 8개의 클러스터를 사용하도록 선택했으며 2개의 클러스터에는 3명의 고객만 할당되어 있습니다. 당신은 무엇을해야합니까?

A. 사용되는 소절 수 감소

B. 클러스터 수 증가

C. 클러스터 수 감소

D. 분석에 추가할 추가 측정값 식별

Databricks-Certified-Professional-Data-Scientist 문제 7

지원 벡터 머신(SVM)은 다음을 위해 사용되는 지도 학습 방법 세트입니다.

A. 선형 분류

B. 비선형 분류

C. 회귀

Databricks-Certified-Professional-Data-Scientist 문제 8

1000개의 웹사이트에 대한 100개의 매개변수(예: 일일 조회수, 웹사이트 평균 시간, 고유 방문자 수, 재방문자 수 등)를 수집했습니다. 이제 웹사이트를 가장 잘 설명할 수 있는 가장 중요한 매개변수를 찾았습니다. 사용할 다음 기술 중

A. PCA(주성분 분석)

B. 선형 회귀

C. 로지스틱 회귀

D. 클러스터링

Databricks-Certified-Professional-Data-Scientist 문제 9

5000개의 변수(많은 행이 아니라 많은 열)가 있는 이미지에 표시된 것과 유사한 매우 높은 차원의 데이터 세트에서 분류기를 구축하고 있습니다. 고밀도 입력과 희소 입력을 모두 처리할 수 있습니다. 어떤 기술이 가장 적합하며 그 이유는 무엇입니까?

A. 과적합을 방지하기 위한 L1 정규화를 사용한 로지스틱 회귀

B. 베이지안 방법이 정규화기 역할을 하기 때문에 Naive Bayes

C. 로컬 이웃을 사용하여 예제를 분류하기 때문에 k-최근접 이웃

D. 앙상블 방식이기 때문에 랜덤 포레스트

정답: A

설명
로지스틱 회귀는 분류 문제에 대한 기계 학습에서 널리 사용됩니다. 특히 훈련 예제의 수가 적거나 학습할 매개변수가 많은 경우 과적합을 피하기 위해 정규화가 필요하다는 것은 잘 알려져 있습니다. 특히 L1 정규화 로지스틱 회귀는 기능 선택에 자주 사용되며 관련 없는 많은 기능이 있는 경우 일반화 성능이 우수한 것으로 나타났습니다. (Ng 2004; Goodman 2004) 비정규 로지스틱 회귀는 지속적으로 미분 목적 함수를 사용하는 제약 없는 볼록 최적화 문제입니다. 결과적으로 Newton의 방법이나 켤레 기울기와 같은 표준 볼록 최적화 방법으로 상당히 효율적으로 해결할 수 있습니다. 하지만, L1 정규화를 추가하면 최적화 문제를 해결하는 데 계산 비용이 더 많이 듭니다. L1 정규화가 parame에 대한 L1 노름 제약 조건에 의해 시행되는 경우 로지스틱 회귀는 분류기이고 L1 정규화는 예측하지 않는 입력의 차원을 무시하는 모델을 생성하는 경향이 있습니다. 이것은 입력이 많은 차원을 포함하고 k-최근접 이웃 분류도 분류 기술이지만 거리 개념에 의존하는 경우에 특히 유용합니다. 고차원 공간에서 대부분의 모든 데이터 포인트는 다른 데이터 포인트와 "멀리" 떨어져 있으므로(차원의 저주) 이러한 기술은 무너집니다. Naive Bayes는 본질적으로 정규화되지 않습니다. 랜덤 포레스트는 앙상블 방법을 나타냅니다. 그러나 앙상블 방법이 반드시 고차원 데이터에 더 적합한 것은 아닙니다. L1 정규화가 parame에 대한 L1 노름 제약 조건에 의해 시행되는 경우 로지스틱 회귀는 분류기이고 L1 정규화는 예측하지 않는 입력의 차원을 무시하는 모델을 생성하는 경향이 있습니다. 이것은 입력이 많은 차원을 포함하고 k-최근접 이웃 분류도 분류 기술이지만 거리 개념에 의존하는 경우에 특히 유용합니다. 고차원 공간에서 대부분의 모든 데이터 포인트는 다른 데이터 포인트와 "멀리" 떨어져 있으므로(차원의 저주) 이러한 기술은 무너집니다. Naive Bayes는 본질적으로 정규화되지 않습니다. 랜덤 포레스트는 앙상블 방법을 나타냅니다. 그러나 앙상블 방법이 반드시 고차원 데이터에 더 적합한 것은 아닙니다. L1 정규화가 parame에 대한 L1 노름 제약 조건에 의해 시행되는 경우 로지스틱 회귀는 분류기이고 L1 정규화는 예측하지 않는 입력의 차원을 무시하는 모델을 생성하는 경향이 있습니다. 이것은 입력이 많은 차원을 포함하고 k-최근접 이웃 분류도 분류 기술이지만 거리 개념에 의존하는 경우에 특히 유용합니다. 고차원 공간에서 대부분의 모든 데이터 포인트는 다른 데이터 포인트와 "멀리" 떨어져 있으므로(차원의 저주) 이러한 기술은 무너집니다. Naive Bayes는 본질적으로 정규화되지 않습니다. 랜덤 포레스트는 앙상블 방법을 나타냅니다. 그러나 앙상블 방법이 반드시 고차원 데이터에 더 적합한 것은 아닙니다.
실제로 정규화의 가장 큰 이유는 1) 희소한 예측 변수에 대해 높은 계수를 생성하지 않음으로써 과적합을 피하기 위함입니다. 2) 특히 데이터에 공선성이 있을 때 추정치를 안정화합니다.
1) 정규화 프레임워크에 내재되어 있습니다. 목적 함수에는 서로 당기는 두 개의 힘이 있기 때문에 의미 있는 손실 감소가 없으면 정규화 항에서 증가된 패널티가 전체 목적 함수를 개선하지 않을 것입니다. 많은 노이즈가 모델에서 자동으로 걸러지기 때문에 이것은 훌륭한 속성입니다. 2)에 대한 예를 제공하기 위해 동일한 값을 가진 두 개의 예측 변수가 있는 경우 데이터 행렬이 특이하기 때문에 회귀 알고리즘을 실행하면 직선 행렬 반전을 시도하면 베타 계수가 Inf가 됩니다. 그러나 아주 작은 정규화 람다를 추가하면 동등한 두 변수 사이에 균등하게 나누어진 계수 값으로 안정적인 베타 계수를 얻을 수 있습니다. L1과 L2의 차이에 대해, 다음 그래프는 L2가 그렇게 우아한 분석 솔루션을 가지고 있고 계산적으로 간단하기 때문에 사람들이 L1을 사용하는 것을 귀찮게 여기는 이유를 보여줍니다. 정규화 회귀는 제약이 있는 회귀 문제로 나타낼 수도 있습니다(라그랑주와 동등하기 때문에). 이것이 의미하는 바는 L1 정규화가 희소 추정치를 제공한다는 것입니다. 즉, 고차원 공간에서는 대부분이 0이고 소수의 0이 아닌 계수가 있습니다. 이것은 모델링 문제에 변수 선택을 통합하기 때문에 거대합니다. 또한 모델로 큰 샘플을 스코어링해야 하는 경우 계수가 0인 기능(예측자)을 계산할 필요가 없기 때문에 계산 비용을 많이 절약할 수 있습니다. 개인적으로 L1 정규화가 가장 좋은 것 중 하나라고 생각합니다. 머신 러닝과 볼록 최적화의 아름다운 것들.

Databricks-Certified-Professional-Data-Scientist 문제 10

데이터 과학자는 온라인 잡지에 대한 기사 추천 기능을 구현해 달라는 요청을 받았습니다.
이 잡지는 쿠키나 읽기 기록과 같은 클라이언트 추적 기술을 사용하는 것을 원하지 않습니다. 따라서 현재 기사의 스타일과 주제만 추천할 수 있습니다. 잡지의 모든 기사는 분석에 적합한 형식으로 데이터베이스에 저장됩니다.
데이터 과학자는 어떤 방법을 먼저 시도해야 하나요?

A. K는 클러스터링을 의미합니다.

B. 나이브 베이지안

C. 로지스틱 회귀

D. 연결 규칙

다른 버전: 1187Databricks.Databricks-Certified-Professional-Data-Scientist.v2022-01-22.q48

최근 업로드: 128SAP.C_S4CPB_2602.v2026-06-13.q7; 146SAP.C-S4CS-2602.v2026-06-13.q29; 160Salesforce.Slack-Con-201.v2026-06-13.q86; 162Oracle.1Z1-136.v2026-06-13.q46; 139BCS.BAPv5.v2026-06-13.q62; 132PaloAltoNetworks.SSE-Engineer.v2026-06-13.q18; 136SAP.C_CR125.v2026-06-13.q26; 134Proofpoint.PPAN01.v2026-06-13.q19; 141Workday.Workday-Pro-Time-Tracking.v2026-06-13.q19; 160API.API-1184.v2026-06-12.q40