Professional-Data-Engineer 문제 121
거의 실시간으로 분당 10,000개의 메시지 속도로 Google BigQuery에 소셜 미디어 게시물을 저장하고 분석해야 합니다. 처음에는 개별 게시물에 스트리밍 삽입을 사용하도록 애플리케이션을 디자인합니다. 또한 애플리케이션은 스트리밍 삽입 직후에 데이터 집계를 수행합니다. 스트리밍 삽입 후 쿼리가 강력한 일관성을 나타내지 않고 쿼리 보고서에서 진행 중인 데이터가 누락될 수 있음을 발견했습니다. 애플리케이션 디자인을 어떻게 조정할 수 있습니까?
Professional-Data-Engineer 문제 122
MJTelco 사례 연구
회사 개요
MJTelco는 전 세계적으로 빠르게 성장하고 서비스가 부족한 시장에서 네트워크를 구축할 계획인 스타트업입니다. 이 회사는 혁신적인 광통신 하드웨어에 대한 특허를 보유하고 있습니다. 이러한 특허를 기반으로 저렴한 하드웨어로 많은 안정적인 고속 백본 링크를 생성할 수 있습니다.
회사 배경
경험 많은 통신 경영진에 의해 설립된 MJTelco는 원래 우주에서 통신 문제를 극복하기 위해 개발된 기술을 사용합니다. 운영에 있어 기본적으로 실시간 분석을 주도하고 기계 학습을 통합하여 토폴로지를 지속적으로 최적화하는 분산 데이터 인프라를 구축해야 합니다. 하드웨어가 저렴하기 때문에 네트워크를 과도하게 배포하여 동적 지역 정치가 위치 가용성 및 비용에 미치는 영향을 설명할 계획입니다.
그들의 관리 및 운영 팀은 전 세계에 위치하여 데이터 소비자와 시스템에서 다대다 관계를 생성합니다. 신중하게 고려한 후, 그들은 퍼블릭 클라우드가 그들의 요구를 지원하기에 완벽한 환경이라고 결정했습니다.
솔루션 개념
MJTelco는 연구소에서 성공적인 PoC(개념 증명) 프로젝트를 실행하고 있습니다. 두 가지 기본 요구 사항이 있습니다.
PoC를 확장하고 강화하여 더 많은 데이터 흐름으로 증가할 때 생성되는 훨씬 더 많은 데이터 흐름을 지원합니다.

50,000개 이상의 설치.
기계 학습 주기를 개선하여 제어에 사용하는 동적 모델을 확인하고 개선합니다.

토폴로지 정의.
MJTelco는 또한 개발/테스트, 스테이징 및 프로덕션의 세 가지 별도 운영 환경을 사용할 것입니다.
- 실험을 실행하고, 새로운 기능을 배포하고, 프로덕션 고객에게 서비스를 제공하는 요구 사항을 충족합니다.
비즈니스 요구 사항
최소한의 비용으로 생산 환경을 확장하고 언제 어디서나 리소스를 인스턴스화합니다.

예측할 수 없는 분산된 통신 사용자 커뮤니티에서 필요합니다.
최첨단 기계 학습 및 분석을 보호하기 위해 독점 데이터의 보안을 보장합니다.

분산된 연구원의 분석을 위해 데이터에 대한 안정적이고 시기적절한 액세스 제공

기계 학습 모델의 빠른 반복을 지원하는 격리된 환경을 유지 관리

고객에게 영향을 미칩니다.
기술 요구 사항
원격 측정 데이터의 안전하고 효율적인 전송 및 저장 보장

여러 흐름으로 10,000~100,000개의 데이터 공급자를 지원하도록 인스턴스를 빠르게 확장

각.
약 2년 동안의 데이터를 추적하는 데이터 테이블에 대한 분석 및 프레젠테이션 허용

100m 기록/일
데이터 파이프라인 문제 인식에 중점을 둔 모니터링 인프라의 신속한 반복 지원

원격 분석 흐름과 프로덕션 학습 주기 모두에서.
CEO 성명서
우리의 비즈니스 모델은 특허, 분석 및 동적 기계 학습에 의존합니다. 우리의 저렴한 하드웨어는 매우 안정적으로 구성되어 있어 비용 이점이 있습니다. 안정성과 용량 약속을 충족하려면 대규모 분산 데이터 파이프라인을 신속하게 안정화해야 합니다.
CTO 성명서
당사의 퍼블릭 클라우드 서비스는 광고된 대로 작동해야 합니다. 확장하고 데이터를 안전하게 유지하는 리소스가 필요합니다. 또한 데이터 과학자가 모델을 주의 깊게 연구하고 신속하게 적용할 수 있는 환경이 필요합니다. 우리는 데이터를 처리하기 위해 자동화에 의존하기 때문에 반복하면서 작동할 개발 및 테스트 환경도 필요합니다.
CFO 성명서
프로젝트가 너무 커서 데이터 및 분석에 필요한 하드웨어와 소프트웨어를 유지 관리할 수 없습니다.
또한 많은 데이터 피드를 모니터링하기 위해 운영 팀에 직원을 배치할 여력이 없으므로 자동화 및 인프라에 의존할 것입니다. Google Cloud의 머신 러닝을 통해 양적 연구원은 데이터 파이프라인의 문제 대신 중요한 문제를 해결할 수 있습니다.
MJTelco는 지난 2년간의 기록에 대한 기록 분석을 허용하는 Google Bigtable에 스키마를 생성해야 합니다. 들어오는 각 레코드는 15분마다 전송되며 장치의 고유 식별자와 데이터 레코드가 포함됩니다. 가장 일반적인 쿼리는 지정된 날짜의 지정된 장치에 대한 모든 데이터에 대한 것입니다. 어떤 스키마를 사용해야 합니까?
회사 개요
MJTelco는 전 세계적으로 빠르게 성장하고 서비스가 부족한 시장에서 네트워크를 구축할 계획인 스타트업입니다. 이 회사는 혁신적인 광통신 하드웨어에 대한 특허를 보유하고 있습니다. 이러한 특허를 기반으로 저렴한 하드웨어로 많은 안정적인 고속 백본 링크를 생성할 수 있습니다.
회사 배경
경험 많은 통신 경영진에 의해 설립된 MJTelco는 원래 우주에서 통신 문제를 극복하기 위해 개발된 기술을 사용합니다. 운영에 있어 기본적으로 실시간 분석을 주도하고 기계 학습을 통합하여 토폴로지를 지속적으로 최적화하는 분산 데이터 인프라를 구축해야 합니다. 하드웨어가 저렴하기 때문에 네트워크를 과도하게 배포하여 동적 지역 정치가 위치 가용성 및 비용에 미치는 영향을 설명할 계획입니다.
그들의 관리 및 운영 팀은 전 세계에 위치하여 데이터 소비자와 시스템에서 다대다 관계를 생성합니다. 신중하게 고려한 후, 그들은 퍼블릭 클라우드가 그들의 요구를 지원하기에 완벽한 환경이라고 결정했습니다.
솔루션 개념
MJTelco는 연구소에서 성공적인 PoC(개념 증명) 프로젝트를 실행하고 있습니다. 두 가지 기본 요구 사항이 있습니다.
PoC를 확장하고 강화하여 더 많은 데이터 흐름으로 증가할 때 생성되는 훨씬 더 많은 데이터 흐름을 지원합니다.

50,000개 이상의 설치.
기계 학습 주기를 개선하여 제어에 사용하는 동적 모델을 확인하고 개선합니다.

토폴로지 정의.
MJTelco는 또한 개발/테스트, 스테이징 및 프로덕션의 세 가지 별도 운영 환경을 사용할 것입니다.
- 실험을 실행하고, 새로운 기능을 배포하고, 프로덕션 고객에게 서비스를 제공하는 요구 사항을 충족합니다.
비즈니스 요구 사항
최소한의 비용으로 생산 환경을 확장하고 언제 어디서나 리소스를 인스턴스화합니다.

예측할 수 없는 분산된 통신 사용자 커뮤니티에서 필요합니다.
최첨단 기계 학습 및 분석을 보호하기 위해 독점 데이터의 보안을 보장합니다.

분산된 연구원의 분석을 위해 데이터에 대한 안정적이고 시기적절한 액세스 제공

기계 학습 모델의 빠른 반복을 지원하는 격리된 환경을 유지 관리

고객에게 영향을 미칩니다.
기술 요구 사항
원격 측정 데이터의 안전하고 효율적인 전송 및 저장 보장

여러 흐름으로 10,000~100,000개의 데이터 공급자를 지원하도록 인스턴스를 빠르게 확장

각.
약 2년 동안의 데이터를 추적하는 데이터 테이블에 대한 분석 및 프레젠테이션 허용

100m 기록/일
데이터 파이프라인 문제 인식에 중점을 둔 모니터링 인프라의 신속한 반복 지원

원격 분석 흐름과 프로덕션 학습 주기 모두에서.
CEO 성명서
우리의 비즈니스 모델은 특허, 분석 및 동적 기계 학습에 의존합니다. 우리의 저렴한 하드웨어는 매우 안정적으로 구성되어 있어 비용 이점이 있습니다. 안정성과 용량 약속을 충족하려면 대규모 분산 데이터 파이프라인을 신속하게 안정화해야 합니다.
CTO 성명서
당사의 퍼블릭 클라우드 서비스는 광고된 대로 작동해야 합니다. 확장하고 데이터를 안전하게 유지하는 리소스가 필요합니다. 또한 데이터 과학자가 모델을 주의 깊게 연구하고 신속하게 적용할 수 있는 환경이 필요합니다. 우리는 데이터를 처리하기 위해 자동화에 의존하기 때문에 반복하면서 작동할 개발 및 테스트 환경도 필요합니다.
CFO 성명서
프로젝트가 너무 커서 데이터 및 분석에 필요한 하드웨어와 소프트웨어를 유지 관리할 수 없습니다.
또한 많은 데이터 피드를 모니터링하기 위해 운영 팀에 직원을 배치할 여력이 없으므로 자동화 및 인프라에 의존할 것입니다. Google Cloud의 머신 러닝을 통해 양적 연구원은 데이터 파이프라인의 문제 대신 중요한 문제를 해결할 수 있습니다.
MJTelco는 지난 2년간의 기록에 대한 기록 분석을 허용하는 Google Bigtable에 스키마를 생성해야 합니다. 들어오는 각 레코드는 15분마다 전송되며 장치의 고유 식별자와 데이터 레코드가 포함됩니다. 가장 일반적인 쿼리는 지정된 날짜의 지정된 장치에 대한 모든 데이터에 대한 것입니다. 어떤 스키마를 사용해야 합니까?
Professional-Data-Engineer 문제 123
사례 연구: 1 - Flowlogistic
회사 개요
Flowlogistic은 선도적인 물류 및 공급망 제공업체입니다. 그들은 전 세계의 기업이 자원을 관리하고 최종 목적지까지 운송하도록 돕습니다. 이 회사는 철도, 트럭, 항공기 및 해상 운송을 포함하도록 제품을 확장하면서 빠르게 성장했습니다.
회사 배경
이 회사는 지역 트럭 회사로 시작하여 다른 물류 시장으로 확장했습니다.
인프라를 업데이트하지 않았기 때문에 주문 및 배송을 관리하고 추적하는 데 병목 현상이 발생했습니다. 운영을 개선하기 위해 Flowlogistic은 소포 수준에서 실시간으로 선적을 추적하는 독점 기술을 개발했습니다. 그러나 Apache Kafka 기반 기술 스택이 처리량을 지원할 수 없기 때문에 배포할 수 없습니다. 또한 Flowlogistic은 주문 및 배송을 추가로 분석하여 리소스를 가장 잘 배치하는 방법을 결정하려고 합니다.
솔루션 개념
Flowlogistic은 클라우드를 사용하여 두 가지 개념을 구현하려고 합니다.
적재 위치를 나타내는 실시간 재고 추적 시스템에서 독점 기술 사용 구조화 및 비구조화 데이터가 모두 포함된 모든 주문 및 배송 로그에 대한 분석을 수행하여 리소스를 가장 잘 배포하고 확장할 시장을 결정 정보. 또한 예측 분석을 사용하여 배송이 지연되는 시기를 더 빨리 알기를 원합니다.
기존 기술 환경
Flowlogistic 아키텍처는 단일 데이터 센터에 있습니다.
데이터베이스
2개의 클러스터에 8개의 물리적 서버
SQL Server - 사용자 데이터, 인벤토리, 정적 데이터
물리적 서버 3대
Cassandra - 메타데이터, 메시지 추적
10 Kafka 서버 - 메시지 집계 및 일괄 삽입 추적
애플리케이션 서버 - 고객 프런트 엔드, 주문/관세용 미들웨어 20개의 물리적 서버에 걸쳐 60개의 가상 머신 Tomcat - Java 서비스 Nginx - 정적 콘텐츠 배치 서버 가상 머신(VM) 호스트용 스토리지 어플라이언스 iSCSI 파이버 채널 FC SAN(Storage Area Network) ?SQL 서버 스토리지 NAS(Network-Attached Storage) 이미지 스토리지, 로그, 백업 Apache Hadoop/Spark 서버 Core Data Lake 데이터 분석 워크로드
20개의 기타 서버
Jenkins, 모니터링, 배스천 호스트,
비즈니스 요구 사항
확장된 팬티 생산으로 안정적이고 재현 가능한 환경을 구축하십시오. 분석을 위해 중앙 집중식 Data Lake에서 데이터 집계 과거 데이터를 사용하여 미래 배송에 대한 예측 분석 수행 독점 기술을 사용하여 전 세계적으로 모든 배송을 정확하게 추적 새로운 리소스의 신속한 프로비저닝을 통해 비즈니스 민첩성과 혁신 속도 향상 클라우드에서 성능을 위한 아키텍처 분석 및 최적화 마이그레이션 다른 모든 요구 사항이 충족되는 경우 완전히 클라우드로 기술 요구 사항 스트리밍 및 배치 데이터 모두 처리 기존 Hadoop 워크로드 마이그레이션 아키텍처가 회사의 변화하는 요구 사항을 충족할 수 있도록 확장 가능하고 탄력적이어야 합니다.
가능할 때마다 관리형 서비스 사용
데이터 비행 및 저장 데이터 암호화
프로덕션 데이터 센터와 클라우드 환경 간에 VPN 연결 SEO 성명서 우리는 너무 빠르게 성장하여 인프라를 업그레이드할 수 없기 때문에 더 이상의 성장과 효율성을 실제로 방해하고 있습니다. 우리는 전 세계로 배송물을 이동하는 데 효율적이지만 데이터를 이동하는 데는 비효율적입니다.
고객이 어디에 있고 무엇을 배송하는지 더 쉽게 이해할 수 있도록 정보를 구성해야 합니다.
CTO 성명서
IT는 우리의 우선 순위가 아니므로 데이터가 증가함에 따라 기술에 충분한 투자를 하지 않았습니다. IT를 관리할 수 있는 훌륭한 직원이 있지만 그들은 인프라 관리에 너무 바빠서 데이터 구성, 분석 구축, CFO의 구현 방법 파악과 같은 정말 중요한 일을 하도록 할 수 없습니다. 추적 기술.
CFO 성명서
우리의 경쟁 우위의 일부는 배송 지연 및 배송에 대해 스스로에게 불이익을 준다는 것입니다. 출하량이 항상 어디에 있는지 아는 것은 우리의 수익 및 수익성과 직접적인 상관관계가 있습니다.
또한 서버 환경을 구축하는 데 자본을 투입하고 싶지 않습니다.
Flowlogistic은 Google BigQuery를 기본 분석 시스템으로 사용하려고 하지만 BigQuery로 이동할 수 없는 Apache Hadoop 및 Spark 워크로드가 여전히 있습니다. Flowlogistic은 두 워크로드에 공통적인 데이터를 저장하는 방법을 모릅니다. 그들은 어떻게 해야 합니까?
회사 개요
Flowlogistic은 선도적인 물류 및 공급망 제공업체입니다. 그들은 전 세계의 기업이 자원을 관리하고 최종 목적지까지 운송하도록 돕습니다. 이 회사는 철도, 트럭, 항공기 및 해상 운송을 포함하도록 제품을 확장하면서 빠르게 성장했습니다.
회사 배경
이 회사는 지역 트럭 회사로 시작하여 다른 물류 시장으로 확장했습니다.
인프라를 업데이트하지 않았기 때문에 주문 및 배송을 관리하고 추적하는 데 병목 현상이 발생했습니다. 운영을 개선하기 위해 Flowlogistic은 소포 수준에서 실시간으로 선적을 추적하는 독점 기술을 개발했습니다. 그러나 Apache Kafka 기반 기술 스택이 처리량을 지원할 수 없기 때문에 배포할 수 없습니다. 또한 Flowlogistic은 주문 및 배송을 추가로 분석하여 리소스를 가장 잘 배치하는 방법을 결정하려고 합니다.
솔루션 개념
Flowlogistic은 클라우드를 사용하여 두 가지 개념을 구현하려고 합니다.
적재 위치를 나타내는 실시간 재고 추적 시스템에서 독점 기술 사용 구조화 및 비구조화 데이터가 모두 포함된 모든 주문 및 배송 로그에 대한 분석을 수행하여 리소스를 가장 잘 배포하고 확장할 시장을 결정 정보. 또한 예측 분석을 사용하여 배송이 지연되는 시기를 더 빨리 알기를 원합니다.
기존 기술 환경
Flowlogistic 아키텍처는 단일 데이터 센터에 있습니다.
데이터베이스
2개의 클러스터에 8개의 물리적 서버
SQL Server - 사용자 데이터, 인벤토리, 정적 데이터
물리적 서버 3대
Cassandra - 메타데이터, 메시지 추적
10 Kafka 서버 - 메시지 집계 및 일괄 삽입 추적
애플리케이션 서버 - 고객 프런트 엔드, 주문/관세용 미들웨어 20개의 물리적 서버에 걸쳐 60개의 가상 머신 Tomcat - Java 서비스 Nginx - 정적 콘텐츠 배치 서버 가상 머신(VM) 호스트용 스토리지 어플라이언스 iSCSI 파이버 채널 FC SAN(Storage Area Network) ?SQL 서버 스토리지 NAS(Network-Attached Storage) 이미지 스토리지, 로그, 백업 Apache Hadoop/Spark 서버 Core Data Lake 데이터 분석 워크로드
20개의 기타 서버
Jenkins, 모니터링, 배스천 호스트,
비즈니스 요구 사항
확장된 팬티 생산으로 안정적이고 재현 가능한 환경을 구축하십시오. 분석을 위해 중앙 집중식 Data Lake에서 데이터 집계 과거 데이터를 사용하여 미래 배송에 대한 예측 분석 수행 독점 기술을 사용하여 전 세계적으로 모든 배송을 정확하게 추적 새로운 리소스의 신속한 프로비저닝을 통해 비즈니스 민첩성과 혁신 속도 향상 클라우드에서 성능을 위한 아키텍처 분석 및 최적화 마이그레이션 다른 모든 요구 사항이 충족되는 경우 완전히 클라우드로 기술 요구 사항 스트리밍 및 배치 데이터 모두 처리 기존 Hadoop 워크로드 마이그레이션 아키텍처가 회사의 변화하는 요구 사항을 충족할 수 있도록 확장 가능하고 탄력적이어야 합니다.
가능할 때마다 관리형 서비스 사용
데이터 비행 및 저장 데이터 암호화
프로덕션 데이터 센터와 클라우드 환경 간에 VPN 연결 SEO 성명서 우리는 너무 빠르게 성장하여 인프라를 업그레이드할 수 없기 때문에 더 이상의 성장과 효율성을 실제로 방해하고 있습니다. 우리는 전 세계로 배송물을 이동하는 데 효율적이지만 데이터를 이동하는 데는 비효율적입니다.
고객이 어디에 있고 무엇을 배송하는지 더 쉽게 이해할 수 있도록 정보를 구성해야 합니다.
CTO 성명서
IT는 우리의 우선 순위가 아니므로 데이터가 증가함에 따라 기술에 충분한 투자를 하지 않았습니다. IT를 관리할 수 있는 훌륭한 직원이 있지만 그들은 인프라 관리에 너무 바빠서 데이터 구성, 분석 구축, CFO의 구현 방법 파악과 같은 정말 중요한 일을 하도록 할 수 없습니다. 추적 기술.
CFO 성명서
우리의 경쟁 우위의 일부는 배송 지연 및 배송에 대해 스스로에게 불이익을 준다는 것입니다. 출하량이 항상 어디에 있는지 아는 것은 우리의 수익 및 수익성과 직접적인 상관관계가 있습니다.
또한 서버 환경을 구축하는 데 자본을 투입하고 싶지 않습니다.
Flowlogistic은 Google BigQuery를 기본 분석 시스템으로 사용하려고 하지만 BigQuery로 이동할 수 없는 Apache Hadoop 및 Spark 워크로드가 여전히 있습니다. Flowlogistic은 두 워크로드에 공통적인 데이터를 저장하는 방법을 모릅니다. 그들은 어떻게 해야 합니까?
Professional-Data-Engineer 문제 124
BigQuery 데이터 웨어하우스의 기본 인벤토리 테이블을 읽는 거의 실시간 인벤토리 대시보드를 만들어야 합니다. 과거 재고 데이터는 품목 및 위치별 재고 잔액으로 저장됩니다.
매시간 수천 개의 인벤토리 업데이트가 있습니다. 대시보드의 성능을 최대화하고 데이터가 정확한지 확인하려고 합니다. 당신은 무엇을해야합니까?
매시간 수천 개의 인벤토리 업데이트가 있습니다. 대시보드의 성능을 최대화하고 데이터가 정확한지 확인하려고 합니다. 당신은 무엇을해야합니까?
Professional-Data-Engineer 문제 125
회사의 데이터 분석가에게는 프로젝트에서 Cloud IAM 소유자 역할이 할당되어 프로젝트에서 여러 GCP 제품으로 작업할 수 있습니다. 조직에서는 모든 BigQuery 데이터 액세스 로그를 6개월 동안 보관해야 합니다. 회사의 감사 담당자만 모든 프로젝트의 데이터 액세스 로그에 액세스할 수 있도록 해야 합니다. 당신은 무엇을해야합니까?
