Professional-Data-Engineer 문제 41

회사의 고객 및 주문 데이터베이스는 종종 과부하 상태에 있습니다. 이로 인해 운영에 지장을 주지 않으면서 이들에 대한 분석을 수행하기가 어렵습니다. 데이터베이스는 MySQL 클러스터에 있으며 mysqldump를 사용하여 야간 백업을 수행합니다. 운영에 미치는 영향을 최소화하면서 분석을 수행하려고 합니다. 당신은 무엇을해야합니까?

Professional-Data-Engineer 문제 42

다음 중 Dataflow 파이프라인에 대한 설명으로 옳지 않은 것은?

Professional-Data-Engineer 문제 43

MJTelco 사례 연구
회사 개요
MJTelco는 빠르게 성장하고 서비스가 부족한 시장에서 네트워크를 구축할 계획인 스타트업입니다.
세계. 이 회사는 혁신적인 광통신 하드웨어에 대한 특허를 보유하고 있습니다. 이러한 특허를 바탕으로
저렴한 하드웨어로 많은 안정적인 고속 백본 링크를 생성할 수 있습니다.
회사 배경
경험이 풍부한 통신 경영진에 의해 설립된 MJTelco는 원래 개발된 기술을 사용하여
우주에서 통신 문제를 극복합니다. 운영에 기본적으로 필요한
실시간 분석을 주도하고 기계 학습을 통합하는 분산 데이터 인프라
지속적으로 토폴로지를 최적화합니다. 하드웨어가 저렴하기 때문에 과도하게 배포할 계획입니다.
위치 가용성에 대한 동적 지역 정치의 영향을 설명할 수 있는 네트워크
비용.
그들의 관리 및 운영 팀은 전 세계에 걸쳐 다대다를 생성합니다.
시스템에서 데이터 소비자와 제공자 간의 관계. 신중하게 고려한 후, 그들은
결정된 퍼블릭 클라우드는 그들의 요구를 지원하는 완벽한 환경입니다.
솔루션 개념
MJTelco는 연구소에서 성공적인 PoC(개념 증명) 프로젝트를 실행하고 있습니다. 두 가지 기본 요구 사항이 있습니다.
PoC를 확장하고 강화하여 더 많은 데이터 흐름으로 증가할 때 생성되는 훨씬 더 많은 데이터 흐름을 지원합니다.

50,000개 이상의 설치.
기계 학습 주기를 개선하여 제어에 사용하는 동적 모델을 확인하고 개선합니다.

토폴로지 정의.
MJTelco는 또한 개발/테스트, 스테이징 및 프로덕션의 세 가지 별도 운영 환경을 사용할 것입니다.
- 실험을 실행하고, 새로운 기능을 배포하고, 프로덕션 고객에게 서비스를 제공하는 요구 사항을 충족합니다.
비즈니스 요구 사항
최소한의 비용으로 생산 환경을 확장하고 언제 어디서나 리소스를 인스턴스화합니다.

예측할 수 없는 분산된 통신 사용자 커뮤니티에서 필요합니다.
최첨단 기계 학습 및 분석을 보호하기 위해 독점 데이터의 보안을 보장합니다.

분산된 연구원의 분석을 위해 데이터에 대한 안정적이고 시기적절한 액세스 제공

기계 학습 모델의 빠른 반복을 지원하는 격리된 환경을 유지 관리

고객에게 영향을 미칩니다.
기술 요구 사항
원격 측정 데이터의 안전하고 효율적인 전송 및 저장 보장

여러 흐름으로 10,000~100,000개의 데이터 공급자를 지원하도록 인스턴스를 빠르게 확장

각.
약 2년 동안의 데이터를 추적하는 데이터 테이블에 대한 분석 및 프레젠테이션 허용

100m 기록/일
데이터 파이프라인 문제 인식에 중점을 둔 모니터링 인프라의 신속한 반복 지원

원격 분석 흐름과 프로덕션 학습 주기 모두에서.
CEO 성명서
우리의 비즈니스 모델은 특허, 분석 및 동적 기계 학습에 의존합니다. 우리의 저렴한
하드웨어는 매우 안정적으로 구성되어 비용 이점을 제공합니다. 빨리 안정시켜야 합니다
안정성과 용량 약속을 충족하기 위한 대규모 분산 데이터 파이프라인.
CTO 성명서
당사의 퍼블릭 클라우드 서비스는 광고된 대로 작동해야 합니다. 데이터를 확장하고 유지하는 리소스가 필요합니다.
안전한. 우리는 또한 데이터 과학자들이 주의 깊게 연구하고 빠르게 적응할 수 있는 환경이 필요합니다.
모델. 우리는 데이터를 처리하기 위해 자동화에 의존하기 때문에 개발 및 테스트도 필요합니다.
반복하면서 작동하는 환경.
CFO 성명서
프로젝트가 너무 커서 데이터 및 분석에 필요한 하드웨어와 소프트웨어를 유지 관리할 수 없습니다.
또한 많은 데이터 피드를 모니터링하기 위해 운영 팀에 인력을 배치할 여력이 없기 때문에
자동화 및 인프라. Google Cloud의 머신 러닝을 통해 정량적 연구원은
데이터 파이프라인 문제 대신 고가치 문제를 해결합니다.
다음 요구 사항이 있는 운영 팀을 위한 시각화를 작성해야 합니다.
보고서에는 가장 최근 6주 동안의 모든 50,000개 설치의 원격 측정 데이터가 포함되어야 합니다.

(분당 한 번 샘플링).
보고서는 실시간 데이터에서 3시간 이상 지연되어서는 안 됩니다.

실행 가능한 보고서에는 차선의 링크만 표시되어야 합니다.

대부분의 차선책 링크는 맨 위에 정렬되어야 합니다.

차선책 링크는 지역 지리별로 그룹화하고 필터링할 수 있습니다.

보고서를 로드하는 사용자 응답 시간은 5초 미만이어야 합니다.

어떤 접근 방식이 요구 사항을 충족합니까?

Professional-Data-Engineer 문제 44

쉼표로 구분된 값(CSV) 파일에서 Google BigQuery 테이블 CLICK_STREAM으로 데이터를 로드하는 데 며칠을 보냈습니다. 열 DT는 클릭 이벤트의 epoch 시간을 저장합니다. 편의를 위해 모든 필드가 STRINGtype으로 처리되는 간단한 스키마를 선택했습니다. 이제 사이트를 방문하는 사용자의 웹 세션 시간을 계산하고 데이터 유형을 TIMESTAMP로 변경하려고 합니다. 향후 쿼리를 계산 비용으로 만들지 않고 마이그레이션 노력을 최소화하려고 합니다. 당신은 무엇을해야합니까?

Professional-Data-Engineer 문제 45

사용자가 무엇을 먹고 싶어하는지 예측하는 기계 학습 기반 음식 주문 서비스에 대한 데이터베이스 스키마를 설계하고 있습니다. 다음은 저장해야 하는 몇 가지 정보입니다.
사용자 프로필: 사용자가 먹고 싶은 것과 싫어하는 것 사용자 계정 정보: 이름, 주소, 선호하는 식사 시간 주문 정보: 주문이 이루어진 시간, 어디서, 누구에게 모든 것을 저장하는 데이터베이스 제품의 거래 데이터. 데이터 스키마를 최적화하려고 합니다. 어떤 Google Cloud Platform 제품을 사용해야 하나요?