데이터 분석가는 데이터베이스의 테이블을 사용하여 최대한 많은 데이터를 생성하려고 합니다. 다음 중 이 목표를 달성하는 가장 좋은 방법은 무엇일까요?
정답: D
# FULL OUTER JOIN은 두 테이블의 모든 행을 반환하고, 일치하는 행이 없는 행에는 NULL을 삽입합니다. 이 조인은 가능한 최대 개수의 레코드(양쪽 테이블의 모든 일치 레코드와 일치하지 않는 모든 레코드)를 포함합니다. 다른 옵션이 틀린 이유: * A: INNER JOIN은 일치하는 행만 반환합니다. 즉, 전체 데이터 수는 줄어듭니다. * B & C: LEFT/RIGHT JOIN은 한 테이블의 모든 행만 포함합니다. 공식 참조: * CompTIA DataX(DY0-001) 학습 가이드 - 섹션 5.2: "전체 외부 조인은 두 테이블의 모든 일치 레코드와 일치하지 않는 레코드를 포함하여 데이터 볼륨을 최대화합니다." * 데이터 과학을 위한 SQL, 4장: "일치 여부에 관계없이 두 데이터 세트의 모든 레코드를 보존하는 것이 목표인 경우 FULL OUTER JOIN을 사용합니다." -
DY0-001 문제 27
"탐욕 알고리즘"이라는 용어는 다음과 같은 기계 학습 알고리즘을 의미합니다.
정답: D
# 탐욕적 알고리즘은 현재 순간에 가장 좋은(가장 최적의) 선택으로 보이는 것, 즉 국소적으로 최적의 결정에 따라 결정을 내립니다. 이 선택이 전역적으로 최적의 솔루션을 가져올지 여부는 고려하지 않습니다. 머신 러닝의 예: * 의사결정 트리 알고리즘(예: CART)은 정보 이득이나 지니 지수를 기반으로 각 노드에서 최상의 분할을 선택하는 탐욕적 접근 방식을 사용합니다. 다른 옵션이 틀린 이유: * A: 이것은 탐욕적 동작이 아닌 베이지안 업데이트를 의미합니다. * B: 탐욕이 아니라 철저한 탐색을 설명합니다. * C: 탐욕적 전략보다는 확률적 또는 생성적 모델에 더 부합합니다. 공식 참조: * CompTIA DataX(DY0-001) 공식 학습 가이드 - 4.2절(모델 선택 방법): "탐욕 알고리즘은 각 단계에서 국소적으로 최적의 결정을 내립니다. 예를 들어, 의사결정 트리는 현재 가장 좋은 기준에 따라 탐욕적 분할을 사용합니다." * 통계 학습의 요소, 9장: "탐욕적 방법은 즉각적인 이익을 극대화하는 단계적 결정을 내립니다. 빠르지만 전역 최적점을 놓칠 수 있습니다." -
DY0-001 문제 28
데이터 분석가가 우편 주소의 위도와 경도를 구하려고 합니다. 다음 중 가장 적합한 방법은 무엇입니까?
정답: C
# 지오코딩은 주소(예: "1600 Amphitheatre Parkway, Mountain View, CA")를 지리적 좌표(위도와 경도)로 변환하는 프로세스로, 공간 데이터 분석 및 매핑에 필수적입니다. 다른 옵션이 잘못된 이유: * A: 원핫 인코딩은 범주형 변수를 이진 벡터로 변환하는 것입니다. * B: 비닝은 연속형 변수를 범주별로 그룹화하는 것입니다. * D: 입력은 지리적 위치 검색과 무관하게 누락된 데이터 값을 채웁니다. 공식 참조: * CompTIA DataX(DY0-001) 학습 가이드 - 섹션 6.3: "지오코딩은 지리적 분석을 위해 텍스트 위치 데이터를 좌표 기반 데이터로 변환하는 기술입니다." -