선형 판별 분석 방법은 범주형 또는 순서형 변수가 아닌 연속형 변수에서만 작동합니다.
선형 판별 분석은 변수의 평균을 비교하여 작동한다는 점에서 분산 분석(ANOVA)과 유사합니다.
대본:
데이터 과학자는 기계 학습 파이프라인에서 자동 기능 엔지니어링 및 모델 구축을 사용하여 로컬 환경에서 노트북을 구축해야 합니다.
로컬 군중 감정 모델에 대한 실험은 로컬 페널티 감지 데이터를 결합해야 합니다.
로컬 모델의 모든 공유 기능은 연속 변수입니다.
오답:
B: Pearson의 R 검정이라고도 하는 Pearson 상관 계수는 두 변수 간의 선형 관계를 측정하는 통계 값입니다. 계수 값을 조사하여 두 변수 간의 관계의 강도와 양의 상관 관계가 있는지 또는 음의 상관 관계가 있는지 여부를 추론할 수 있습니다.
C: Spearman의 상관 계수는 비모수 및 비정규 분포 데이터와 함께 사용하도록 설계되었습니다. Spearman의 계수는 두 변수 간의 통계적 종속성을 나타내는 비모수적 측정값이며 때로는 그리스 문자 rho로 표시됩니다. Spearman 계수는 두 변수가 단조롭게 관련된 정도를 나타냅니다. 이는 순서형 변수와 함께 사용할 수 있기 때문에 Spearman 순위 상관이라고도 합니다.
참조:
https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/fisher-linear-discriminant- analysis
https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/compute-linear-correlation Feature Engineering Testlet 2 수행 사례 연구 사례 연구입니다. 사례 연구는 별도로 시간이 지정되지 않습니다. 각 사례를 완료하고 싶은 만큼 시험 시간을 사용할 수 있습니다. 그러나 이 시험에 추가 사례 연구 및 섹션이 있을 수 있습니다. 주어진 시간 내에 이 시험에 포함된 모든 문제를 완료할 수 있도록 시간을 관리해야 합니다.
사례 연구에 포함된 질문에 답하려면 사례 연구에 제공된 정보를 참조해야 합니다. 사례 연구에는 사례 연구에 설명된 시나리오에 대한 추가 정보를 제공하는 전시 및 기타 리소스가 포함될 수 있습니다. 각 질문은 이 사례 연구의 다른 질문과 독립적입니다.
이 사례 연구가 끝나면 검토 화면이 나타납니다. 이 화면에서 답을 검토하고 시험의 다음 섹션으로 이동하기 전에 변경할 수 있습니다. 새 섹션을 시작한 후에는 이 섹션으로 돌아갈 수 없습니다.
사례 연구를 시작하려면
이 사례 연구의 첫 번째 질문을 표시하려면 다음 버튼을 클릭하십시오. 질문에 답하기 전에 왼쪽 창의 버튼을 사용하여 사례 연구의 내용을 탐색하십시오. 이 버튼을 클릭하면 비즈니스 요구 사항, 기존 환경 및 문제 설명과 같은 정보가 표시됩니다. 사례 연구에 모든 정보 탭이 있는 경우 표시되는 정보는 후속 탭에 표시되는 정보와 동일합니다. 질문에 답할 준비가 되면 질문 버튼을 클릭하여 질문으로 돌아갑니다.
개요
당신은 미국의 고급 개인 및 상업용 부동산 전문 회사인 Fabrikam Residences의 데이터 과학자입니다. Fabrikam Residences는 유럽으로의 확장을 고려하고 있으며 주요 유럽 도시의 개인 주택 가격을 조사해 달라고 요청했습니다.
Azure Machine Learning Studio를 사용하여 속성의 중앙값을 측정합니다. 선형 회귀 및 베이지안 선형 회귀 모듈을 사용하여 부동산 가격을 예측하는 회귀 모델을 생성합니다.
데이터세트
런던과 파리의 두 도시에 대한 속성 세부 정보를 포함하는 CSV 형식의 두 데이터세트가 있습니다. 실험을 위한 시작점에 별도의 데이터 세트로 두 파일을 모두 Azure Machine Learning Studio에 추가합니다. 두 데이터세트 모두 다음 열을 포함합니다.

초기 조사에 따르면 데이터 세트는 MedianValue 열을 제외하고 구조가 동일합니다.
더 작은 파리 데이터셋에는 텍스트 형식의 MedianValue가 포함되어 있는 반면, 더 큰 런던 데이터셋에는 숫자 형식의 MedianValue가 포함되어 있습니다.
데이터 문제
누락된 값
두 데이터 세트의 AccessibilityToHighway 열에 누락된 값이 있습니다. 누락된 데이터는 누락된 값을 채우기 전에 데이터의 다른 변수를 사용하여 조건부로 모델링되도록 새 데이터로 대체되어야 합니다.
각 데이터 세트의 열에는 누락된 값과 null 값이 있습니다. 데이터 세트에는 많은 이상값도 포함되어 있습니다. 연령 열에는 이상값 비율이 높습니다. 연령 열에 이상치가 있는 행을 제거해야 합니다.
MedianValue 및 AvgRoomsInHouse 열은 모두 숫자 형식의 데이터를 보유합니다. 두 열 간의 관계를 보다 자세히 분석하려면 특성 선택 알고리즘을 선택해야 합니다.
모델 핏
모델은 과적합의 징후를 보여줍니다. 과적합을 줄이는 보다 정교한 회귀 모델을 생성해야 합니다.
실험 요구 사항
성능을 평가하려면 선형 회귀 및 베이지안 선형 회귀 모듈을 교차 검증하도록 실험을 설정해야 합니다. 각 경우에 데이터 세트의 예측 변수는 MedianValue라는 열입니다. 파리 데이터 세트의 MedianValue 열 데이터 유형이 런던 데이터 세트의 구조와 일치하는지 확인해야 합니다.
결과를 예측하려면 데이터 열의 우선 순위를 지정해야 합니다. 관계를 측정하려면 비모수 통계를 사용해야 합니다.
MediaValue와 AvgRoomsinHouse 열 간의 관계를 분석하려면 기능 선택 알고리즘이 필요합니다.
모델 교육
순열 기능의 중요성
훈련된 모델과 테스트 데이터 세트가 주어지면 특성 변수의 순열 특성 중요도 점수를 계산해야 합니다. 모델에 대한 절대 적합도를 결정해야 합니다.
초매개변수
학습 단계의 속도를 높이려면 모델 학습 프로세스에서 하이퍼파라미터를 구성해야 합니다. 또한 이 구성은 각 평가 간격에서 가장 성능이 낮은 실행을 취소하여 성공 가능성이 더 높은 모델에 노력과 자원을 집중해야 합니다.
모델이 초매개변수 조정에서 컴퓨팅 리소스를 효율적으로 사용하지 않을 수 있다는 점을 우려하고 있습니다. 또한 모델이 전체 조정 시간의 증가를 방지할 수 있다는 점을 우려하고 있습니다. 따라서 유망한 일자리를 종료하지 않고 저축을 제공하는 모델에 대한 조기 중단 기준을 구현해야 합니다.
테스트
Azure Machine Learning Studio의 파티션 및 샘플 모듈을 사용하여 샘플링을 기반으로 데이터 세트의 여러 파티션을 생성해야 합니다.
교차 검증
교차 검증을 위해 3개의 동일한 파티션을 생성해야 합니다. 또한 테스트 및 교육 데이터 세트의 행이 각 도시의 주요 강 근처에 있는 속성으로 균등하게 분할되도록 교차 검증 프로세스를 구성해야 합니다. 데이터가 샘플링 프로세스를 거치기 전에 이 작업을 완료해야 합니다.
선형 회귀 모듈
선형 회귀 모듈을 훈련할 때 모델에서 사용할 최상의 기능을 결정해야 합니다. 기능 중요도 프로세스가 완료되기 전과 후에 성능을 측정하기 위해 제공된 표준 메트릭을 선택할 수 있습니다. 여러 훈련 모델에 걸친 특성 분포는 일관되어야 합니다.
데이터 시각화
Fabrikam Residences 팀에 테스트 결과를 제공해야 합니다. 결과를 표시하는 데 도움이 되도록 데이터 시각화를 만듭니다.
모델의 진단 테스트 평가를 수행하려면 ROC(수신기 작동 특성) 곡선을 생성해야 합니다. Two-Class Decision Forest 및 Two-Class Decision Jungle 모듈을 서로 비교하려면 Azure Learning Studio에서 ROC 곡선을 생성하는 적절한 방법을 선택해야 합니다.