무료 온라인 액세스 Google.Professional-Data-Engineer.v2024-08-24.q281 모의 시험 (Page 23)

Professional-Data-Engineer 문제 106

귀하의 회사에서는 수많은 뉴런과 레이어로 구성된 TensorFlow 신경망 모델을 구축했습니다. 모델은 훈련 데이터에 잘 맞습니다. 그러나 새로운 데이터에 대해 테스트하면 성능이 저하됩니다.
이 문제를 해결하기 위해 어떤 방법을 사용할 수 있습니까?

A. 스레딩

B. 직렬화

C. 드롭아웃 방법

D. 차원 축소

Professional-Data-Engineer 문제 107

사례 연구: 2 - MJTelco
회사 개요
MJTelco는 빠르게 성장하고 있지만 서비스가 부족한 전 세계 시장에서 네트워크를 구축하려는 스타트업입니다. 이 회사는 혁신적인 광통신 하드웨어에 대한 특허를 보유하고 있습니다. 이러한 특허를 바탕으로 저렴한 하드웨어로 안정적인 고속 백본 링크를 많이 만들 수 있습니다.
회사 배경
숙련된 통신 경영진이 설립한 MJTelco는 원래 우주에서의 통신 문제를 극복하기 위해 개발된 기술을 사용합니다. 운영의 기본으로서 실시간 분석을 촉진하고 기계 학습을 통합하여 토폴로지를 지속적으로 최적화하는 분산 데이터 인프라를 구축해야 합니다. 하드웨어가 저렴하기 때문에 동적 지역 정치가 위치 가용성 및 비용에 미치는 영향을 설명할 수 있도록 네트워크를 과도하게 배포할 계획입니다. 관리 및 운영 팀은 전 세계에 위치하여 데이터 소비자와 시스템 제공 간의 다대다 관계를 형성합니다. 그들은 신중한 고려 끝에 퍼블릭 클라우드가 그들의 요구 사항을 지원하기에 완벽한 환경이라고 결정했습니다.
솔루션 컨셉
MJTelco는 자사 연구실에서 성공적인 개념 증명(PoC) 프로젝트를 진행하고 있습니다. 두 가지 주요 요구 사항이 있습니다.
PoC를 확장하고 강화하여 설치 수가 50,000개 이상으로 증가할 때 생성되는 훨씬 더 많은 데이터 흐름을 지원합니다.
기계 학습 주기를 개선하여 토폴로지 정의를 제어하는 데 사용하는 동적 모델을 검증하고 개선합니다.
MJTelco는 또한 개발/테스트, 스테이징, 프로덕션이라는 세 가지 별도의 운영 환경을 사용할 예정입니다.
실험 실행, 새로운 기능 배포, 프로덕션 고객 서비스 요구 사항을 충족합니다.
비즈니스 요구 사항
예측할 수 없는 분산 통신 사용자 커뮤니티에서 필요할 때 언제 어디서나 리소스를 인스턴스화하여 최소한의 비용으로 프로덕션 환경을 확장합니다. 최첨단 기계 학습 및 분석을 보호하기 위해 독점 데이터의 보안을 보장합니다.
분산된 연구 인력의 분석을 위해 데이터에 대한 안정적이고 시기적절한 액세스를 제공합니다. 고객에게 영향을 주지 않고 기계 학습 모델의 신속한 반복을 지원하는 격리된 환경을 유지합니다.
기술 요구 사항
원격 측정 데이터의 안전하고 효율적인 전송 및 저장을 보장합니다. 인스턴스를 신속하게 확장하여 각각 여러 흐름을 통해 10,000~100,000명의 데이터 공급자를 지원합니다.
최대 2년 동안 저장한 대략적인 데이터를 추적하는 데이터 테이블에 대한 분석 및 프레젠테이션이 가능합니다.
1억 개의 기록/일
원격 측정 흐름과 프로덕션 학습 주기 모두에서 데이터 파이프라인 문제를 인식하는 데 초점을 맞춘 모니터링 인프라의 신속한 반복을 지원합니다.
CEO 성명서
우리의 비즈니스 모델은 특허, 분석 및 동적 기계 학습에 의존합니다. 우리의 저렴한 하드웨어는 신뢰성이 높도록 구성되어 있어 비용상의 이점을 제공합니다. 우리는 안정성과 용량 약속을 충족하기 위해 대규모 분산 데이터 파이프라인을 신속하게 안정화해야 합니다.
CTO 성명서
우리의 퍼블릭 클라우드 서비스는 광고된 대로 운영되어야 합니다. 우리에게는 데이터를 확장하고 안전하게 유지하는 리소스가 필요합니다. 또한 데이터 과학자가 신중하게 모델을 연구하고 신속하게 조정할 수 있는 환경도 필요합니다. 우리는 데이터 처리를 자동화에 의존하기 때문에 반복 작업을 수행하려면 개발 및 테스트 환경도 필요합니다.
CFO 성명서
데이터와 분석에 필요한 하드웨어와 소프트웨어를 유지 관리하기에는 프로젝트 규모가 너무 큽니다.
또한 우리는 너무 많은 데이터 피드를 모니터링하기 위해 운영팀을 인력을 확보할 여력이 없으므로 자동화와 인프라에 의존할 것입니다. Google Cloud의 머신러닝을 사용하면 정량적 연구원이 데이터 파이프라인 문제 대신 중요한 문제를 해결할 수 있습니다.
MJTelco에서는 지난 2년간의 기록에 대한 기록 분석을 허용하는 Google Bigtable의 스키마를 생성해야 합니다. 들어오는 각 기록은 15분마다 전송되며 장치의 고유 식별자와 데이터 기록을 포함합니다. 가장 일반적인 쿼리는 특정 날짜의 특정 장치에 대한 모든 데이터에 대한 것입니다. 어떤 스키마를 사용해야 합니까?

A. Rowkey: device_idColumn 데이터: 날짜, data_point

B. Rowkey: dateColumn 데이터: device_id, data_point

C. Rowkey: 날짜#data_point열 데이터: device_id

D. Rowkey: date#device_id열 데이터: data_point

E. Rowkey: data_pointColumn 데이터: device_id, 날짜

Professional-Data-Engineer 문제 108

AI 모델을 제공하려면 광고 데이터가 필요하며 분석을 위한 과거 데이터와 롱테일 및 특이치 데이터 포인트를 식별해야 합니다. AI 모델을 통해 실행하기 전에 거의 릴 타임에 걸쳐 데이터를 정리하고 싶습니다. 어떻게 해야 합니까?

A. BigQuery를 사용하여 데이터를 수집하고 준비한 다음 분석한 다음 쿼리를 실행하여 뷰를 만듭니다.

B. Cloud Composer를 사용하여 롱테일 및 이상점 데이터 포인트를 식별한 후 사용 가능한 데이터세트를 BigQuery에 출력합니다.

C. Dataflow를 사용하여 BigQuery를 싱크로 사용하여 프로그래매틱 방식으로 롱테일 및 외부 데이터 포인트를 식별합니다.

D. Cloud Storage를 데이터 웨어하우스 셸 스크립트로 사용하여 처리하고 BigQuery를 사용하여 원하는 데이터 세트에 대한 뷰를 만듭니다.

Professional-Data-Engineer 문제 109

여러 가지 순차적 로드 및 변환 작업을 예약하려고 합니다. 데이터 파일은 업스트림 프로세스에 의해 Cloud Storage 버킷에 추가됩니다. 새 데이터가 도착하는 시기에 대한 고정된 일정은 없습니다. 다음으로 Dataproc 작업이 트리거되어 일부 변환을 수행하고 쓰기를 수행합니다. BigQuery에 데이터를 보냅니다. 그런 다음 BigQuery에서 추가 변환 작업을 실행해야 합니다. 변환 작업은 테이블마다 다릅니다. 이러한 작업은 완료하는 데 몇 시간이 걸릴 수 있습니다. 수백 개의 테이블을 처리하고 최종 사용자에게 최신 데이터를 제공하려면 가장 효율적이고 유지 관리가 가능한 워크플로를 결정해야 합니다. 당신은 무엇을 해야 합니까?

A. 1Cloud Storage를 사용하여 순차적 작업으로 Cloud Composer에서 Apache Airflow 방향성 비순환 그래프(DAG)를 만듭니다. Dataproc. 및 BigQuery 연산자
2 파이프라인을 통과해야 하는 모든 테이블에 단일 공유 DAG를 사용합니다.
3 DAG가 매시간 실행되도록 예약

B. 1 Dataproc 및 BigQuery 연산자를 사용하여 Cloud Composer에서 순차적 작업으로 Apache Airflow 방향성 비순환 그래프(DAG)를 만듭니다.
2 파이프라인을 통과해야 하는 각 테이블에 대해 별도의 DAG를 생성합니다.
3 Cloud Storage 객체 트리거를 사용하여 DAG를 트리거하는 Cloud 함수를 시작합니다.

C. 1 Cloud Storage, Dataproc을 사용하여 순차 작업을 통해 Cloud Composer에서 Apache Airflow 방향성 비순환 그래프(DAG)를 만듭니다. 및 BigQuery 연산자
2 파이프라인을 통과해야 하는 각 테이블에 대해 별도의 DAG를 생성합니다.
3 DAG가 매시간 실행되도록 예약

D. 1 Dataproc 및 BigQuery 연산자를 사용하여 Cloud Composer에서 순차적 작업으로 Apache Airflow 방향성 비순환 그래프(DAG)를 만듭니다.
2 파이프라인을 통과해야 하는 모든 테이블에 단일 공유 DAG를 사용합니다.
3 Cloud Storage 객체 트리거를 사용하여 DAG를 트리거하는 Cloud 함수를 시작합니다.

정답: B

이 옵션을 사용하면 각 테이블을 독립적으로 처리하고 새 데이터가 Cloud Storage 버킷에 도착할 때만 DAG를 트리거할 수 있으므로 사용 사례에 가장 효율적이고 유지 관리가 쉬운 워크플로입니다. Dataproc 및 BigQuery 연산자를 사용하면 각 테이블의 로드 및 변환 작업을 쉽게 조정하고 이러한 서비스의 확장성과 성능을 활용할 수 있습니다12. 각 테이블에 대해 별도의 DAG를 생성하면 각 테이블에 대한 변환 논리와 매개변수를 맞춤설정하고 단일 공유 DAG3의 복잡성과 오버헤드를 방지할 수 있습니다. Cloud Storage 객체 트리거를 사용하면 해당 테이블에 대해 DAG를 트리거하는 Cloud 함수를 실행하여 데이터가 최대한 빨리 처리되도록 하고 고정된 일정에 따라 DAG를 실행하는 데 드는 유휴 시간과 비용을 줄일 수 있습니다4.
옵션 A는 데이터 도착에 관계없이 매시간 DAG를 실행하고 모든 테이블에 대해 단일 공유 DAG를 사용하므로 유지 관리 및 디버깅이 더 어렵기 때문에 효율적이지 않습니다. 옵션 C도 DAG를 매시간 실행하고 Cloud Storage 객체 트리거를 활용하지 않으므로 효율적이지 않습니다. 옵션 D는 모든 테이블에 단일 공유 DAG를 사용하고 버킷에서 데이터 수집을 단순화할 수 있는 Cloud Storage 연산자를 사용하지 않으므로 유지 관리가 불가능합니다. 참고자료:
* 1: Dataproc 연산자 | 클라우드 컴포저 | 구글 클라우드
* 2: BigQuery 연산자 | 클라우드 컴포저 | 구글 클라우드
* 3: 서비스 조정을 위해 Workflows 또는 Cloud Composer 선택 | 워크플로 | 구글 클라우드
* 4: 클라우드 스토리지 개체 트리거 | Cloud Functions 문서 | 구글 클라우드
* [5]: DAG 트리거 | 클라우드 컴포저 | 구글 클라우드
* [6]: 클라우드 스토리지 운영자 | 클라우드 컴포저 | 구글 클라우드

Professional-Data-Engineer 문제 110

50,000개 센서의 분 단위 해상도 데이터를 BigQuery 테이블에 삽입해야 한다는 요구사항이 있습니다. 데이터 볼륨이 크게 증가할 것으로 예상하고 집계된 추세를 실시간으로 분석하려면 수집 후 1분 이내에 데이터를 사용할 수 있어야 합니다. 당신은 무엇을 해야 합니까?

A. Cloud Dataflow 파이프라인을 사용하여 BigQuery 테이블로 데이터를 스트리밍합니다.

B. INSERT 문을 사용하여 60초마다 데이터 배치를 삽입합니다.

C. MERGE 문을 사용하여 60초마다 업데이트를 일괄 적용합니다.

D. bq load를 사용하여 60초마다 센서 데이터 배치를 로드합니다.

다른 버전: 1672Google.Professional-Data-Engineer.v2024-12-06.q306; 1364Google.Professional-Data-Engineer.v2023-06-24.q151; 1833Google.Professional-Data-Engineer.v2023-04-17.q208; 2629Google.Professional-Data-Engineer.v2022-09-06.q248; 2060Google.Professional-Data-Engineer.v2022-05-24.q174

최근 업로드: 128SAP.C_S4CPB_2602.v2026-06-13.q7; 148SAP.C-S4CS-2602.v2026-06-13.q29; 165Salesforce.Slack-Con-201.v2026-06-13.q86; 166Oracle.1Z1-136.v2026-06-13.q46; 145BCS.BAPv5.v2026-06-13.q62; 136PaloAltoNetworks.SSE-Engineer.v2026-06-13.q18; 136SAP.C_CR125.v2026-06-13.q26; 134Proofpoint.PPAN01.v2026-06-13.q19; 141Workday.Workday-Pro-Time-Tracking.v2026-06-13.q19; 161API.API-1184.v2026-06-12.q40