Professional-Data-Engineer 문제 146
다음 중 Dataproc 클러스터 인스턴스에서 소프트웨어를 맞춤설정하는 방법이 아닌 것은 무엇인가요?
Professional-Data-Engineer 문제 147
Google Dataproc과 함께 사용되는 서비스 계정에 필요한 최소 권한은 무엇인가요?
Professional-Data-Engineer 문제 148
귀하의 회사는 연휴 기간 동안 실시간 데이터를 분석하여 다양한 제안을 제공하는 첫 번째 동적 캠페인을 실행하고 있습니다. 데이터 과학자들은 30일 캠페인 동안 매시간 빠르게 증가하는 테라바이트의 데이터를 수집하고 있습니다. Google Cloud Dataflow를 사용하여 데이터를 전처리하고 Google Cloud Bigtable에서 기계 학습 모델에 필요한 기능(신호) 데이터를 수집합니다. 팀은 10TB 데이터의 초기 로드에 대한 읽기 및 쓰기에서 최적이 아닌 성능을 관찰하고 있습니다.
ㅏ. 그들은 비용을 최소화하면서 이 성능을 개선하기를 원합니다. 어떻게 해야 합니까?
ㅏ. 그들은 비용을 최소화하면서 이 성능을 개선하기를 원합니다. 어떻게 해야 합니까?
Professional-Data-Engineer 문제 149
Flowlogistic 사례 연구
회사 개요
Flowlogistic은 선도적인 물류 및 공급망 제공업체입니다. 그들은 전 세계 기업이 자원을 관리하고 최종 목적지로 운송하도록 돕습니다. 이 회사는 철도, 트럭, 항공기 및 해양 운송을 포함하도록 제품을 확장하면서 빠르게 성장했습니다.
회사 배경
이 회사는 지역 트럭 회사로 시작하여 다른 물류 시장으로 확장했습니다. 인프라를 업데이트하지 않았기 때문에 주문 및 배송을 관리하고 추적하는 것이 병목 현상이 되었습니다. 운영을 개선하기 위해 Flowlogistic은 소포 수준에서 실시간으로 선적을 추적하는 독점 기술을 개발했습니다. 그러나 Apache Kafka를 기반으로 하는 기술 스택이 처리량을 지원할 수 없기 때문에 배포할 수 없습니다. 또한 Flowlogistic은 주문 및 배송을 추가로 분석하여 리소스를 가장 잘 배치하는 방법을 결정하고자 합니다.
솔루션 개념
Flowlogistic은 클라우드를 사용하여 두 가지 개념을 구현하려고 합니다.
* 화물의 위치를 알려주는 실시간 재고 추적 시스템에서 자체 기술을 사용
* 구조화된 데이터와 구조화되지 않은 데이터를 모두 포함하는 모든 주문 및 배송 로그에 대한 분석을 수행하여 리소스를 가장 잘 배치하는 방법, 정보를 확장할 시장을 결정합니다. 또한 예측 분석을 사용하여 배송이 지연될 시기를 조기에 파악하고자 합니다.
기존 기술 환경
Flowlogistic 아키텍처는 단일 데이터 센터에 상주합니다.
* 데이터베이스
- 2개의 클러스터에 있는 8개의 물리적 서버
- SQL Server - 사용자 데이터, 인벤토리, 정적 데이터
- 물리적 서버 3대
- Cassandra - 메타데이터, 메시지 추적
10 Kafka 서버 - 추적 메시지 집계 및 배치 삽입
* 애플리케이션 서버 - 고객 프런트엔드, 주문/통관용 미들웨어
- 20개의 물리적 서버에 걸쳐 있는 60개의 가상 머신
- Tomcat - 자바 서비스
- Nginx - 정적 콘텐츠
- 배치 서버
* 스토리지 기기
- 가상 머신(VM) 호스트용 iSCSI
- 파이버 채널 스토리지 영역 네트워크(FC SAN) - SQL 서버 스토리지
NAS(Network Attached Storage) 이미지 스토리지, 로그, 백업
* 10개의 Apache Hadoop /Spark 서버
- 코어 데이터 레이크
- 데이터 분석 워크로드
* 20개의 기타 서버
- Jenkins, 모니터링, 배스천 호스트,
비즈니스 요구 사항
* 스케일링된 팬티 제작으로 안정적이고 재현 가능한 환경을 구축하세요.
* 분석을 위해 중앙 집중식 Data Lake의 데이터 집계
* 과거 데이터를 사용하여 향후 배송에 대한 예측 분석 수행
* 독점 기술을 사용하여 전 세계 모든 배송을 정확하게 추적
* 새로운 리소스의 신속한 프로비저닝을 통해 비즈니스 민첩성 및 혁신 속도 향상
* 클라우드 성능을 위한 아키텍처 분석 및 최적화
* 다른 모든 요구 사항이 충족되면 클라우드로 완전히 마이그레이션
기술 요구 사항
* 스트리밍 및 배치 데이터 모두 처리
* 기존 Hadoop 워크로드 마이그레이션
* 아키텍처가 회사의 변화하는 요구 사항을 충족할 수 있도록 확장 가능하고 탄력적이어야 합니다.
* 가능하면 관리 서비스를 사용하십시오.
* 데이터 비행 및 유휴 암호화
프로덕션 데이터 센터와 클라우드 환경 간의 VPN 연결
SEO 선언문
우리는 너무 빨리 성장했기 때문에 인프라를 업그레이드할 수 없다는 것이 더 이상의 성장과 효율성을 방해하고 있습니다. 우리는 전 세계로 화물을 이동하는 데는 효율적이지만 데이터를 이동하는 데는 비효율적입니다.
우리는 고객이 어디에 있고 무엇을 배송하는지 더 쉽게 이해할 수 있도록 정보를 정리해야 합니다.
CTO 선언문
IT는 우리에게 우선 순위가 아니므로 데이터가 증가함에 따라 기술에 충분히 투자하지 않았습니다. IT를 관리할 수 있는 훌륭한 직원이 있지만 인프라 관리에 너무 바빠서 데이터 구성, 분석 구축, CFO 구현 방법 파악과 같이 실제로 중요한 작업을 수행하도록 할 수 없습니다. 추적 기술.
CFO 선언문
우리의 경쟁 우위 중 일부는 선적 및 배달 지연에 대해 스스로에게 불이익을 준다는 것입니다. 선적이 어디에 있는지 항상 아는 것은 우리의 수익 및 수익성과 직접적인 상관 관계가 있습니다. 또한 서버 환경 구축에 자본을 투자하고 싶지 않습니다.
Flowlogistic의 경영진은 현재 Apache Kafka 서버가 실시간 재고 추적 시스템의 데이터 볼륨을 처리할 수 없다고 판단했습니다. 독점 추적 소프트웨어를 공급할 Google Cloud Platform(GCP)에 새로운 시스템을 구축해야 합니다. 시스템은 다양한 글로벌 소스에서 데이터를 수집하고 실시간으로 처리 및 쿼리하며 데이터를 안정적으로 저장할 수 있어야 합니다. 어떤 GCP 제품 조합을 선택해야 합니까?
회사 개요
Flowlogistic은 선도적인 물류 및 공급망 제공업체입니다. 그들은 전 세계 기업이 자원을 관리하고 최종 목적지로 운송하도록 돕습니다. 이 회사는 철도, 트럭, 항공기 및 해양 운송을 포함하도록 제품을 확장하면서 빠르게 성장했습니다.
회사 배경
이 회사는 지역 트럭 회사로 시작하여 다른 물류 시장으로 확장했습니다. 인프라를 업데이트하지 않았기 때문에 주문 및 배송을 관리하고 추적하는 것이 병목 현상이 되었습니다. 운영을 개선하기 위해 Flowlogistic은 소포 수준에서 실시간으로 선적을 추적하는 독점 기술을 개발했습니다. 그러나 Apache Kafka를 기반으로 하는 기술 스택이 처리량을 지원할 수 없기 때문에 배포할 수 없습니다. 또한 Flowlogistic은 주문 및 배송을 추가로 분석하여 리소스를 가장 잘 배치하는 방법을 결정하고자 합니다.
솔루션 개념
Flowlogistic은 클라우드를 사용하여 두 가지 개념을 구현하려고 합니다.
* 화물의 위치를 알려주는 실시간 재고 추적 시스템에서 자체 기술을 사용
* 구조화된 데이터와 구조화되지 않은 데이터를 모두 포함하는 모든 주문 및 배송 로그에 대한 분석을 수행하여 리소스를 가장 잘 배치하는 방법, 정보를 확장할 시장을 결정합니다. 또한 예측 분석을 사용하여 배송이 지연될 시기를 조기에 파악하고자 합니다.
기존 기술 환경
Flowlogistic 아키텍처는 단일 데이터 센터에 상주합니다.
* 데이터베이스
- 2개의 클러스터에 있는 8개의 물리적 서버
- SQL Server - 사용자 데이터, 인벤토리, 정적 데이터
- 물리적 서버 3대
- Cassandra - 메타데이터, 메시지 추적
10 Kafka 서버 - 추적 메시지 집계 및 배치 삽입
* 애플리케이션 서버 - 고객 프런트엔드, 주문/통관용 미들웨어
- 20개의 물리적 서버에 걸쳐 있는 60개의 가상 머신
- Tomcat - 자바 서비스
- Nginx - 정적 콘텐츠
- 배치 서버
* 스토리지 기기
- 가상 머신(VM) 호스트용 iSCSI
- 파이버 채널 스토리지 영역 네트워크(FC SAN) - SQL 서버 스토리지
NAS(Network Attached Storage) 이미지 스토리지, 로그, 백업
* 10개의 Apache Hadoop /Spark 서버
- 코어 데이터 레이크
- 데이터 분석 워크로드
* 20개의 기타 서버
- Jenkins, 모니터링, 배스천 호스트,
비즈니스 요구 사항
* 스케일링된 팬티 제작으로 안정적이고 재현 가능한 환경을 구축하세요.
* 분석을 위해 중앙 집중식 Data Lake의 데이터 집계
* 과거 데이터를 사용하여 향후 배송에 대한 예측 분석 수행
* 독점 기술을 사용하여 전 세계 모든 배송을 정확하게 추적
* 새로운 리소스의 신속한 프로비저닝을 통해 비즈니스 민첩성 및 혁신 속도 향상
* 클라우드 성능을 위한 아키텍처 분석 및 최적화
* 다른 모든 요구 사항이 충족되면 클라우드로 완전히 마이그레이션
기술 요구 사항
* 스트리밍 및 배치 데이터 모두 처리
* 기존 Hadoop 워크로드 마이그레이션
* 아키텍처가 회사의 변화하는 요구 사항을 충족할 수 있도록 확장 가능하고 탄력적이어야 합니다.
* 가능하면 관리 서비스를 사용하십시오.
* 데이터 비행 및 유휴 암호화
프로덕션 데이터 센터와 클라우드 환경 간의 VPN 연결
SEO 선언문
우리는 너무 빨리 성장했기 때문에 인프라를 업그레이드할 수 없다는 것이 더 이상의 성장과 효율성을 방해하고 있습니다. 우리는 전 세계로 화물을 이동하는 데는 효율적이지만 데이터를 이동하는 데는 비효율적입니다.
우리는 고객이 어디에 있고 무엇을 배송하는지 더 쉽게 이해할 수 있도록 정보를 정리해야 합니다.
CTO 선언문
IT는 우리에게 우선 순위가 아니므로 데이터가 증가함에 따라 기술에 충분히 투자하지 않았습니다. IT를 관리할 수 있는 훌륭한 직원이 있지만 인프라 관리에 너무 바빠서 데이터 구성, 분석 구축, CFO 구현 방법 파악과 같이 실제로 중요한 작업을 수행하도록 할 수 없습니다. 추적 기술.
CFO 선언문
우리의 경쟁 우위 중 일부는 선적 및 배달 지연에 대해 스스로에게 불이익을 준다는 것입니다. 선적이 어디에 있는지 항상 아는 것은 우리의 수익 및 수익성과 직접적인 상관 관계가 있습니다. 또한 서버 환경 구축에 자본을 투자하고 싶지 않습니다.
Flowlogistic의 경영진은 현재 Apache Kafka 서버가 실시간 재고 추적 시스템의 데이터 볼륨을 처리할 수 없다고 판단했습니다. 독점 추적 소프트웨어를 공급할 Google Cloud Platform(GCP)에 새로운 시스템을 구축해야 합니다. 시스템은 다양한 글로벌 소스에서 데이터를 수집하고 실시간으로 처리 및 쿼리하며 데이터를 안정적으로 저장할 수 있어야 합니다. 어떤 GCP 제품 조합을 선택해야 합니까?
Professional-Data-Engineer 문제 150
당신은 각기 다른 우선 순위와 예산을 가진 여러 사업부가 있는 대기업의 BI 책임자입니다. 프로젝트당 2,000개의 동시 주문형 슬롯 할당량으로 BigQuery에 주문형 가격을 사용합니다. 조직의 사용자가 쿼리를 실행할 슬롯을 얻지 못하는 경우가 있으므로 이를 수정해야 합니다. 계정에 새 프로젝트를 도입하지 않으려고 합니다.
어떻게 해야 합니까?
어떻게 해야 합니까?
