Professional-Data-Engineer 문제 161
다음 중 Dataproc 클러스터 인스턴스에서 소프트웨어를 맞춤설정하는 방법이 아닌 것은 무엇인가요?
Professional-Data-Engineer 문제 162
다음 중 Dataproc 클러스터에 선점형 작업자를 추가할 때 적용되는 규칙은 무엇인가요?(답변 2개 선택)
Professional-Data-Engineer 문제 163
타임스탬프 및 ID 열의 WHERE 절을 사용하여 BigQuery 테이블을 필터링하는 쿼리가 있습니다. bq query -dry_run을 사용하면 타임스탬프 및 ID에 대한 필터가 전체 데이터의 아주 작은 부분을 선택하더라도 쿼리가 테이블의 전체 스캔을 트리거한다는 것을 알 수 있습니다. 기존 SQL 쿼리를 최소한으로 변경하여 BigQuery에서 스캔하는 데이터 양을 줄이고 싶습니다. 당신은 무엇을 해야 합니까?
Professional-Data-Engineer 문제 164
3개 진료소의 수백 명의 환자를 대상으로 하는 파일럿 프로젝트로 환자 기록용 데이터베이스를 설계했습니다. 귀하의 디자인에서는 단일 데이터베이스 테이블을 사용하여 모든 환자와 방문을 나타내고 자체 조인을 사용하여 보고서를 생성했습니다. 서버 리소스 활용도는 50%였습니다. 이후 프로젝트 범위가 확대됐다. 이제 데이터베이스는 100배 더 많은 환자 기록을 저장해야 합니다. 보고서가 너무 오래 걸리거나 컴퓨팅 리소스가 부족하여 오류가 발생하기 때문에 더 이상 보고서를 실행할 수 없습니다. 데이터베이스 디자인을 어떻게 조정해야 합니까?
Professional-Data-Engineer 문제 165
이러한 기본 도구가 사용되며 데이터 형식은 ORC(Optimized Row Columnar)입니다. 모든 ORC 파일이 Cloud Storage 버킷에 성공적으로 복사되었습니다. 성능을 최대화하려면 일부 데이터를 클러스터의 로컬 HDFS(Hadoop 분산 파일 시스템)에 복제해야 합니다. Cloud Dataproc에서 Hive를 사용하는 두 가지 방법은 무엇인가요? (2개를 선택하세요.)
