Professional-Data-Engineer 문제 61

광고 회사에서 일하며 광고 블록에서 클릭률을 예측하는 Spark ML 모델을 개발했습니다. 온프레미스 데이터 센터에서 모든 것을 개발했으며 이제 회사는 Google Cloud로 마이그레이션합니다. 데이터 센터가 곧 폐쇄될 예정이므로 신속한 리프트 앤 시프트 마이그레이션이 필요합니다. 그러나 사용하던 데이터는 BigQuery로 마이그레이션되도록 마이그레이션됩니다. Spark ML 모델을 주기적으로 재학습시키므로 기존 학습 파이프라인을 GCP로 마이그레이션해야 합니다. 당신은 무엇을해야합니까?

Professional-Data-Engineer 문제 62

사례 연구: 2,
Flowlogistic 사례 연구
회사 개요
Flowlogistic은 선도적인 물류 및 공급망 제공업체입니다. 그들은 전 세계의 기업이 자원을 관리하고 최종 목적지까지 운송하도록 돕습니다. 이 회사는 철도, 트럭, 항공기 및 해상 운송을 포함하도록 제품을 확장하면서 빠르게 성장했습니다.
회사 배경
이 회사는 지역 트럭 회사로 시작하여 다른 물류 시장으로 확장했습니다.
인프라를 업데이트하지 않았기 때문에 주문 및 배송을 관리하고 추적하는 데 병목 현상이 발생했습니다. 운영을 개선하기 위해 Flowlogistic은 소포 수준에서 실시간으로 선적을 추적하는 독점 기술을 개발했습니다. 그러나 Apache Kafka 기반 기술 스택이 처리량을 지원할 수 없기 때문에 배포할 수 없습니다. 또한 Flowlogistic은 주문 및 배송을 추가로 분석하여 리소스를 가장 잘 배치하는 방법을 결정하려고 합니다.
솔루션 개념
Flowlogistic은 클라우드를 사용하여 두 가지 개념을 구현하려고 합니다.
적재 위치를 나타내는 실시간 재고 추적 시스템에서 독점 기술 사용 구조화 및 비구조화 데이터가 모두 포함된 모든 주문 및 배송 로그에 대한 분석을 수행하여 리소스를 가장 잘 배포하고 확장할 시장을 결정 정보. 또한 예측 분석을 사용하여 배송이 지연되는 시기를 더 빨리 알기를 원합니다.
기존 기술 환경
Flowlogistic 아키텍처는 단일 데이터 센터에 있습니다.
데이터베이스
2개의 클러스터에 8개의 물리적 서버
SQL Server - 사용자 데이터, 인벤토리, 정적 데이터
물리적 서버 3대
Cassandra - 메타데이터, 메시지 추적
10 Kafka 서버 - 메시지 집계 및 일괄 삽입 추적
애플리케이션 서버 - 고객 프런트 엔드, 주문/관세를 위한 미들웨어 20개의 물리적 서버에 걸쳐 60개의 가상 머신 Tomcat - Java 서비스 Nginx - 정적 콘텐츠 배치 서버 가상 머신(VM) 호스트용 스토리지 어플라이언스 iSCSI 파이버 채널 FC SAN(Storage Area Network) ?SQL 서버 스토리지 NAS(Network-Attached Storage) 이미지 스토리지, 로그, 백업 Apache Hadoop/Spark 서버 Core Data Lake 데이터 분석 워크로드
20개의 기타 서버
Jenkins, 모니터링, 배스천 호스트,
비즈니스 요구 사항
확장된 팬티 생산으로 안정적이고 재현 가능한 환경을 구축하십시오. 분석을 위해 중앙 집중식 Data Lake에서 데이터 집계 과거 데이터를 사용하여 미래 배송에 대한 예측 분석 수행 독점 기술을 사용하여 전 세계적으로 모든 배송을 정확하게 추적 새로운 리소스의 신속한 프로비저닝을 통해 비즈니스 민첩성과 혁신 속도 향상 클라우드에서 성능을 위한 아키텍처 분석 및 최적화 마이그레이션 다른 모든 요구 사항이 충족되는 경우 완전히 클라우드로 기술 요구 사항 스트리밍 및 배치 데이터 모두 처리 기존 Hadoop 워크로드 마이그레이션 아키텍처가 회사의 변화하는 요구 사항을 충족할 수 있도록 확장 가능하고 탄력적이어야 합니다.
가능할 때마다 관리형 서비스 사용
데이터 비행 및 저장 데이터 암호화
프로덕션 데이터 센터와 클라우드 환경 사이에 VPN 연결 SEO 성명서 우리는 너무 빠르게 성장하여 인프라를 업그레이드할 수 없어 더 이상의 성장과 효율성을 실제로 방해하고 있습니다. 우리는 전 세계로 배송물을 이동하는 데 효율적이지만 데이터를 이동하는 데는 비효율적입니다.
고객이 어디에 있고 무엇을 배송하는지 더 쉽게 이해할 수 있도록 정보를 구성해야 합니다.
CTO 성명서
IT는 우리의 우선 순위가 아니므로 데이터가 증가함에 따라 기술에 충분한 투자를 하지 않았습니다. IT를 관리할 수 있는 훌륭한 직원이 있지만 그들은 인프라 관리에 너무 바빠서 데이터 구성, 분석 구축, CFO의 구현 방법 파악과 같은 정말 중요한 일을 하도록 할 수 없습니다. 추적 기술.
CFO 성명서
우리의 경쟁 우위의 일부는 배송 지연 및 배송에 대해 스스로에게 불이익을 준다는 것입니다. 출하량이 항상 어디에 있는지 아는 것은 우리의 수익 및 수익성과 직접적인 상관관계가 있습니다.
또한 서버 환경을 구축하는 데 자본을 투입하고 싶지 않습니다.
Flowlogistic은 Google BigQuery를 기본 분석 시스템으로 사용하려고 하지만 BigQuery로 이동할 수 없는 Apache Hadoop 및 Spark 워크로드가 여전히 있습니다. Flowlogistic은 두 워크로드에 공통적인 데이터를 저장하는 방법을 모릅니다. 그들은 어떻게 해야 합니까?

Professional-Data-Engineer 문제 63

분석 팀은 가장 가능성이 높은 고객을 결정하기 위해 간단한 통계 모델을 구축하려고 합니다.
몇 가지 다른 측정항목을 기반으로 회사와 다시 작업할 수 있습니다. 그들은 Apache에서 모델을 실행하기를 원합니다.
Spark, Google Cloud Storage에 저장된 데이터를 사용하고 Google Cloud 사용을 권장했습니다.
이 작업을 실행할 Dataproc입니다. 테스트 결과 이 ​​워크로드는
15노드 클러스터로 결과를 Google BigQuery에 출력합니다. 계획은 이 워크로드를 매주 실행하는 것입니다.
비용 대비 클러스터를 어떻게 최적화해야 합니까?

Professional-Data-Engineer 문제 64

회사의 사업주가 은행 거래 데이터베이스를 제공했습니다. 각 행에는 사용자 ID, 거래 유형, 거래 위치 및 거래 금액이 포함됩니다. 그들은 어떤 유형의 기계 학습을 데이터에 적용할 수 있는지 조사하도록 요청합니다.

Professional-Data-Engineer 문제 65

금융 서비스 회사가 클라우드 기술로 전환하고 있으며 50TB의 금융 시계열 데이터를 클라우드에 저장하려고 합니다. 이 데이터는 자주 업데이트되며 새로운 데이터는 항상 스트리밍됩니다.
또한 회사는 기존 Apache Hadoop 작업을 클라우드로 이동하여 이 데이터에 대한 통찰력을 얻고자 합니다. 데이터를 저장하기 위해 어떤 제품을 사용해야 합니까?