Professional-Data-Engineer 문제 201

Dataproc 클러스터에 선점형 작업자를 추가할 때 적용되는 규칙은 무엇입니까(답변 2개 선택)?

Professional-Data-Engineer 문제 202

Flowlogistic 사례 연구
회사 개요
Flowlogistic은 선도적인 물류 및 공급망 공급업체입니다. 이들은 전 세계 기업이 자원을 관리하고 최종 목적지까지 운송하도록 돕습니다. 이 회사는 철도, 트럭, 항공기 및 해상 운송을 포함하여 서비스를 확대하면서 빠르게 성장했습니다.
회사 배경
이 회사는 지역 운송 회사로 시작해서 다른 물류 시장으로 확장했습니다.
인프라를 업데이트하지 않았기 때문에 주문과 배송을 관리하고 추적하는 것이 병목 현상이 되었습니다. 운영을 개선하기 위해 Flowlogistic은 소포 수준에서 실시간으로 배송을 추적하기 위한 독점 기술을 개발했습니다. 그러나 Apache Kafka 기반의 기술 스택이 처리 볼륨을 지원할 수 없기 때문에 배포할 수 없습니다. 또한 Flowlogistic은 리소스를 배포하는 가장 좋은 방법을 결정하기 위해 주문과 배송을 추가로 분석하고자 합니다.
솔루션 컨셉
Flowlogistic은 클라우드를 사용하여 두 가지 개념을 구현하려고 합니다.
재고의 위치를 ​​나타내는 실시간 재고 추적 시스템에서 자체 기술을 사용합니다.

그들의 짐
구조화된 주문과 구조화되지 않은 주문이 모두 포함된 모든 주문 및 배송 로그에 대한 분석을 수행합니다.

데이터를 사용하여 리소스를 가장 잘 배치하는 방법, 정보를 확장할 시장을 결정합니다. 또한 예측 분석을 사용하여 선적이 지연될 때를 더 일찍 알아내고자 합니다.
기존 기술 환경
Flowlogistic 아키텍처는 단일 데이터 센터에 있습니다.
데이터베이스

2개 클러스터에 8개의 물리적 서버
- SQL Server - 사용자 데이터, 인벤토리, 정적 데이터
3개의 물리적 서버
- Cassandra - 메타데이터, 추적 메시지
10 Kafka 서버 - 메시지 집계 및 일괄 삽입 추적
애플리케이션 서버 - 고객 프런트 엔드, 주문/세관 미들웨어

20개의 물리적 서버에 걸쳐 60개의 가상 머신
- Tomcat - Java 서비스
- Nginx - 정적 콘텐츠
- 배치 서버
저장 기기

- 가상 머신(VM) 호스트용 iSCSI
- 파이버 채널 스토리지 영역 네트워크(FC SAN) - SQL 서버 스토리지
- 네트워크 연결 스토리지(NAS) 이미지 저장, 로그, 백업
Apache Hadoop /Spark 서버

- 핵심 데이터 레이크
- 데이터 분석 작업 부하
20개의 기타 서버

- Jenkins, 모니터링, 베스천 호스트,
비즈니스 요구 사항
대규모 생산으로 안정적이고 재현 가능한 환경을 구축합니다.

분석을 위해 중앙 집중화된 Data Lake에서 데이터 집계

과거 데이터를 사용하여 미래 선적에 대한 예측 분석을 수행합니다.

독점 기술을 사용하여 전 세계의 모든 선적물을 정확하게 추적합니다.

새로운 리소스의 신속한 프로비저닝을 통해 비즈니스 민첩성과 혁신 속도를 향상시킵니다.

클라우드에서 성능을 위한 아키텍처 분석 및 최적화

다른 모든 요구 사항이 충족되면 클라우드로 완전히 마이그레이션합니다.

기술적 요구 사항
스트리밍과 일괄 데이터 모두 처리

기존 Hadoop 워크로드 마이그레이션

변화하는 회사의 요구에 부응할 수 있도록 아키텍처가 확장 가능하고 탄력적인지 확인하세요.

가능하면 관리 서비스를 사용하세요

데이터 전송 및 저장 시 암호화

프로덕션 데이터 센터와 클라우드 환경 사이에 VPN을 연결합니다.

SEO 성명
우리는 너무 빨리 성장해서 인프라를 업그레이드할 수 없는 것이 더 이상의 성장과 효율성을 실제로 방해하고 있습니다. 우리는 전 세계로 선적물을 옮기는 데는 효율적이지만, 데이터를 옮기는 데는 비효율적입니다.
고객이 어디에 있고, 무엇을 배송하는지 더 쉽게 이해할 수 있도록 정보를 정리해야 합니다.
CTO 성명
IT는 우리에게 결코 우선순위가 아니었기 때문에 데이터가 커지면서 기술에 충분히 투자하지 않았습니다. IT를 관리할 수 있는 훌륭한 직원이 있지만, 인프라를 관리하는 데 너무 바빠서 데이터를 정리하고, 분석을 구축하고, CFO의 추적 기술을 구현하는 방법을 알아내는 것과 같이 정말 중요한 일을 하도록 할 수 없습니다.
CFO 성명
우리의 경쟁 우위의 일부는 우리가 늦은 선적과 배달에 대해 스스로에게 벌을 내린다는 것입니다. 항상 우리의 선적물이 어디에 있는지 아는 것은 우리의 최종 이익과 수익성과 직접적인 상관 관계가 있습니다.
게다가, 서버 환경을 구축하는 데 자본을 투자하고 싶지도 않습니다.
Flowlogistic은 실시간 재고 추적 시스템을 출시하고 있습니다. 추적 장치는 모두 패키지 추적 메시지를 보내며, 이 메시지는 이제 Apache Kafka 클러스터 대신 단일 Google Cloud Pub/Sub 토픽으로 전송됩니다. 그런 다음 구독자 애플리케이션은 실시간 보고를 위해 메시지를 처리하고 이를 Google BigQuery에 저장하여 과거 분석을 수행합니다. 패키지 데이터를 시간 경과에 따라 분석할 수 있도록 해야 합니다.
어떤 접근방법을 취해야 할까?

Professional-Data-Engineer 문제 203

매달 제3자로부터 CSV 형식의 데이터 파일을 받습니다. 이 데이터를 정리해야 하지만, 3개월마다 파일의 스키마가 변경됩니다. 이러한 변환을 구현하기 위한 요구 사항은 다음과 같습니다.
일정에 따라 변환 실행
개발자가 아닌 분석가가 변환을 수정할 수 있도록 함
변환 설계를 위한 그래픽 도구 제공
어떻게 해야 할까요?

Professional-Data-Engineer 문제 204

조직의 여러 팀이 BigOuery에 고객 및 성과 데이터를 저장합니다. 각 팀은 수집된 데이터를 완벽하게 제어하고, 프로젝트 내에서 데이터를 쿼리하고, 다른 팀과 데이터를 교환할 수 있어야 합니다. 운영 작업과 비용을 최소화하면서 조직 전체 솔루션을 구현해야 합니다. 무엇을 해야 할까요?

Professional-Data-Engineer 문제 205

개인 사용자 데이터와 관련된 민감한 프로젝트를 진행하고 있습니다. Google Cloud Platform에서 프로젝트를 설정하여 내부적으로 작업을 보관합니다. 외부 컨설턴트가 귀하의 프로젝트를 위해 Google Cloud Dataflow 파이프라인에서 복잡한 변환을 코딩하는 데 도움을 줄 것입니다. 사용자의 개인 정보를 어떻게 유지해야 합니까?