Professional-Data-Engineer 문제 191

Flowlogistic 사례 연구
회사 개요
Flowlogistic은 선도적인 물류 및 공급망 제공업체입니다. 그들은 전 세계의 비즈니스를 돕습니다.
자원을 관리하고 최종 목적지로 운송합니다. 회사는 빠르게 성장했고,
철도, 트럭, 항공기 및 해상 운송을 포함하도록 제품을 확장합니다.
회사 배경
이 회사는 지역 트럭 회사로 시작하여 다른 물류 시장으로 확장했습니다.
인프라를 업데이트하지 않았기 때문에 주문 및 배송을 관리하고 추적하는 데 어려움이 있었습니다.
병목이 됩니다. 운영을 개선하기 위해 Flowlogistic은 추적을 위한 독점 기술을 개발했습니다.
소포 수준에서 실시간으로 배송합니다. 그러나 그들의 기술 때문에 배포할 수 없습니다.
Apache Kafka 기반 스택은 처리 볼륨을 지원할 수 없습니다. 또한 Flowlogistic은
주문 및 배송을 추가로 분석하여 리소스를 가장 잘 배치하는 방법을 결정합니다.
솔루션 개념
Flowlogistic은 클라우드를 사용하여 두 가지 개념을 구현하려고 합니다.
재고 위치를 알려주는 실시간 재고 추적 시스템에서 자체 기술을 사용합니다.

그들의 짐
구조화 및 비구조화를 모두 포함하는 모든 주문 및 배송 로그에 대한 분석 수행

데이터, 리소스를 가장 잘 배포하는 방법, 정보를 확장할 시장을 결정합니다. 그들은 또한 사용하고 싶어
배송이 지연되는 시기를 조기에 파악하기 위한 예측 분석.
기존 기술 환경
Flowlogistic 아키텍처는 단일 데이터 센터에 있습니다.
데이터베이스

2개의 클러스터에 8개의 물리적 서버
- SQL Server - 사용자 데이터, 인벤토리, 정적 데이터
물리적 서버 3대
- Cassandra - 메타데이터, 메시지 추적
10 Kafka 서버 - 메시지 집계 및 일괄 삽입 추적
애플리케이션 서버 - 고객 프런트 엔드, 주문/관세용 미들웨어

20개의 물리적 서버에 60개의 가상 머신
- 톰캣 - 자바 서비스
- Nginx - 정적 콘텐츠
- 배치 서버
스토리지 기기

- 가상 머신(VM) 호스트용 iSCSI
- 파이버 채널 저장 영역 네트워크(FC SAN) - SQL 서버 스토리지
- NAS(Network-Attached Storage) 이미지 저장, 로그, 백업
10개의 Apache Hadoop/Spark 서버

- 코어 데이터 레이크
- 데이터 분석 워크로드
20개의 기타 서버

- Jenkins, 모니터링, 배스천 호스트,
비즈니스 요구 사항
확장된 팬티 생산으로 안정적이고 재현 가능한 환경을 구축하십시오.

분석을 위해 중앙 집중식 Data Lake에서 데이터 집계

과거 데이터를 사용하여 향후 배송에 대한 예측 분석 수행

독점 기술을 사용하여 전 세계의 모든 배송을 정확하게 추적

새로운 리소스의 신속한 프로비저닝을 통해 비즈니스 민첩성 및 혁신 속도 향상

클라우드에서 성능을 위한 아키텍처 분석 및 최적화

다른 모든 요구 사항이 충족되는 경우 클라우드로 완전히 마이그레이션

기술 요구 사항
스트리밍 및 배치 데이터 모두 처리

기존 Hadoop 워크로드 마이그레이션

아키텍처가 회사의 변화하는 요구 사항을 충족할 수 있도록 확장 가능하고 탄력적인지 확인합니다.

가능할 때마다 관리형 서비스 사용

데이터 비행 및 저장 데이터 암호화

프로덕션 데이터 센터와 클라우드 환경 간의 VPN 연결

SEO 진술
우리는 너무 빠르게 성장하여 인프라를 업그레이드할 수 없다는 사실이 더 이상의 성장을 방해하고 있습니다.
효율성. 우리는 전 세계로 배송물을 이동하는 데 효율적이지만 이동하는 데는 비효율적입니다.
주변의 데이터.
우리는 고객이 어디에 있는지 더 쉽게 이해할 수 있도록 정보를 구성해야 합니다.
그들이 배송하는 것.
CTO 성명서
IT가 우리에게 우선 순위가 된 적이 없었기 때문에 데이터가 증가함에 따라 우리는
기술. IT를 관리할 우수한 직원이 있지만 그들은 인프라 관리에 너무 바쁘기 때문에
데이터 구성, 분석 구축 및
CFO의 추적 기술을 구현하는 방법을 알아냅니다.
CFO 성명서
우리의 경쟁 우위의 일부는 배송 지연 및 배송에 대해 스스로에게 불이익을 준다는 것입니다. 앎
출하량이 항상 있는 곳은 우리의 수익 및 수익성과 직접적인 상관관계가 있습니다.
또한 서버 환경을 구축하는 데 자본을 투입하고 싶지 않습니다.
Flowlogistic의 CEO는 고객 기반에 대한 신속한 통찰력을 얻어 영업 팀이 더 나은 성과를 낼 수 있기를 원합니다.
현장에서 알려드립니다. 이 팀은 기술이 그리 많지 않으므로 시각화 도구를 구입하여
BigQuery 보고서 생성 그러나 그들은 테이블의 모든 데이터에 압도되었고
필요한 데이터를 찾기 위해 쿼리에 많은 비용을 지출합니다. 당신은 그들의 문제를 해결하기를 원합니다
가장 비용 효율적인 방법. 당신은 무엇을해야합니까?

Professional-Data-Engineer 문제 192

타임스탬프 및 ID 열에서 WHERE 절을 사용하여 BigQuery 테이블을 필터링하는 쿼리가 있습니다. bq query -dry_run을 사용하면 타임스탬프 및 ID에 대한 필터가 전체 데이터의 아주 작은 부분을 선택하더라도 쿼리가 테이블의 전체 스캔을 트리거한다는 것을 알 수 있습니다. 기존 SQL 쿼리를 최소한으로 변경하여 BigQuery에서 스캔하는 데이터의 양을 줄이려고 합니다. 당신은 무엇을해야합니까?

Professional-Data-Engineer 문제 193

시계열 측정항목을 집계하고 Cloud Bigtable에 쓰는 Cloud Dataflow 작업이 있는 데이터 파이프라인이 있습니다. 이 데이터는 조직 전체에서 수천 명의 사용자가 사용하는 대시보드를 제공합니다. 추가 동시 사용자를 지원하고 데이터 쓰기에 필요한 시간을 줄여야 합니다.
어떤 두 가지 조치를 취해야 합니까? (2개를 선택하세요.)

Professional-Data-Engineer 문제 194

잘 설계된 행 키를 사용하여 Cloud Bigtable에 데이터를 쓰는 데이터 파이프라인이 있습니다. 파이프라인을 모니터링하여 Cloud Bigtable 클러스터의 크기를 늘릴 시기를 결정하려고 합니다. 이를 달성하기 위해 어떤 두 가지 조치를 취할 수 있습니까? (2개를 선택하세요.)

Professional-Data-Engineer 문제 195

당신은 회사 주식의 가격을 분석하고 있습니다. 5초마다 지난 30초 분량의 데이터에 대한 이동 평균을 계산해야 합니다. Pub/Sub에서 데이터를 읽고 DataFlow를 사용하여 분석을 수행하고 있습니다. 윈도우 파이프라인을 어떻게 설정해야 합니까?