Professional-Data-Engineer 문제 151
다양한 분석가가 데이터에 쉽게 액세스할 수 있도록 팀의 공유 테이블을 단일 데이터 세트에 저장하려고 합니다. 분석가가 이 데이터를 읽을 수 있지만 수정할 수 없게 만들고 싶습니다. 동시에 분석가에게 동일한 프로젝트에서 개별 작업 공간을 제공하여 다른 분석가가 테이블에 액세스할 수 없도록 하여 자신만의 용도로 테이블을 만들고 저장할 수 있도록 하려고 합니다. 어떻게 해야 할까요?
Professional-Data-Engineer 문제 152
사례 연구: 2 - MJTelco
회사 개요
MJTelco는 전 세계적으로 빠르게 성장하고 서비스가 부족한 시장에 네트워크를 구축할 계획인 신생 기업입니다. 이 회사는 혁신적인 광 통신 하드웨어에 대한 특허를 보유하고 있습니다. 이러한 특허를 기반으로 저렴한 하드웨어로 많은 안정적이고 고속 백본 링크를 만들 수 있습니다.
회사 배경
경험이 풍부한 통신 임원이 설립한 MJTelco는 원래 우주에서 통신 문제를 극복하기 위해 개발된 기술을 사용합니다. 운영의 기본은 실시간 분석을 구동하고 머신 러닝을 통합하여 토폴로지를 지속적으로 최적화하는 분산 데이터 인프라를 구축해야 한다는 것입니다. 하드웨어가 저렴하기 때문에 네트워크를 과도하게 구축하여 동적 지역 정치가 위치 가용성과 비용에 미치는 영향을 고려할 계획입니다. 관리 및 운영 팀은 전 세계에 위치하고 있으며 데이터 소비자와 시스템에서 제공하는 사람 간에 다대다 관계를 구축합니다. 신중하게 고려한 후 퍼블릭 클라우드가 요구 사항을 지원하기에 완벽한 환경이라고 결정했습니다.
솔루션 컨셉
MJTelco는 실험실에서 성공적인 개념 증명(PoC) 프로젝트를 진행하고 있습니다. 그들에게는 두 가지 주요 요구 사항이 있습니다.
50,000개가 넘는 설치로 증가하면 생성되는 훨씬 더 많은 데이터 흐름을 지원하기 위해 PoC를 확장하고 강화합니다.
토폴로지 정의를 제어하는 데 사용하는 동적 모델을 검증하고 개선하기 위해 머신 러닝 주기를 세부적으로 조정합니다.
MJTelco는 또한 개발/테스트, 스테이징, 프로덕션이라는 세 가지 별도의 운영 환경을 사용할 것입니다.
실험 실행, 새로운 기능 배포, 프로덕션 고객 서비스 제공에 필요한 요구 사항을 충족합니다.
비즈니스 요구 사항
최소한의 비용으로 프로덕션 환경을 확장하고, 예측할 수 없는 분산된 텔레콤 사용자 커뮤니티에서 필요할 때 필요한 곳에 리소스를 인스턴스화합니다. 최첨단 머신 러닝과 분석을 보호하기 위해 독점 데이터의 보안을 보장합니다.
분산된 연구 인력이 분석할 수 있도록 안정적이고 시기적절한 데이터 액세스를 제공합니다. 고객에게 영향을 미치지 않으면서 머신 러닝 모델의 빠른 반복을 지원하는 격리된 환경을 유지합니다.
기술적 요구 사항
원격 측정 데이터의 안전하고 효율적인 전송 및 저장을 보장합니다. 각각 여러 흐름을 사용하는 10,000~100,000개의 데이터 공급자를 지원하도록 인스턴스를 빠르게 확장합니다.
최대 2년 분의 데이터를 추적하는 데이터 테이블에 대한 분석 및 프레젠테이션을 허용합니다.
100m 레코드/일
원격 측정 흐름과 프로덕션 학습 주기 모두에서 데이터 파이프라인 문제에 대한 인식에 초점을 맞춘 모니터링 인프라의 신속한 반복을 지원합니다.
CEO 성명
저희의 사업 모델은 저희의 특허, 분석 및 역동적인 머신 러닝에 의존합니다. 저희의 저렴한 하드웨어는 매우 신뢰할 수 있도록 구성되어 있어 비용상 이점이 있습니다. 저희는 신뢰성과 용량 약속을 충족하기 위해 대규모 분산 데이터 파이프라인을 신속하게 안정화해야 합니다.
CTO 성명
당사의 퍼블릭 클라우드 서비스는 광고된 대로 작동해야 합니다. 확장 가능하고 데이터를 안전하게 유지하는 리소스가 필요합니다. 또한 데이터 과학자가 모델을 신중하게 연구하고 빠르게 조정할 수 있는 환경도 필요합니다. 당사는 자동화에 의존하여 데이터를 처리하기 때문에 반복 작업을 수행하는 동안 개발 및 테스트 환경도 작동해야 합니다.
CFO 성명
이 프로젝트는 데이터와 분석에 필요한 하드웨어와 소프트웨어를 유지하기에는 규모가 너무 큽니다.
또한, 우리는 그렇게 많은 데이터 피드를 모니터링하기 위해 운영팀을 배치할 여유가 없으므로 자동화와 인프라에 의존할 것입니다. Google Cloud의 머신 러닝을 통해 양적 연구자들은 데이터 파이프라인의 문제 대신 고가치 문제를 해결할 수 있습니다.
다음 요구 사항을 충족하는 운영 팀을 위한 시각화를 작성해야 합니다.
어떤 접근 방식이 요구 사항을 충족합니까?
회사 개요
MJTelco는 전 세계적으로 빠르게 성장하고 서비스가 부족한 시장에 네트워크를 구축할 계획인 신생 기업입니다. 이 회사는 혁신적인 광 통신 하드웨어에 대한 특허를 보유하고 있습니다. 이러한 특허를 기반으로 저렴한 하드웨어로 많은 안정적이고 고속 백본 링크를 만들 수 있습니다.
회사 배경
경험이 풍부한 통신 임원이 설립한 MJTelco는 원래 우주에서 통신 문제를 극복하기 위해 개발된 기술을 사용합니다. 운영의 기본은 실시간 분석을 구동하고 머신 러닝을 통합하여 토폴로지를 지속적으로 최적화하는 분산 데이터 인프라를 구축해야 한다는 것입니다. 하드웨어가 저렴하기 때문에 네트워크를 과도하게 구축하여 동적 지역 정치가 위치 가용성과 비용에 미치는 영향을 고려할 계획입니다. 관리 및 운영 팀은 전 세계에 위치하고 있으며 데이터 소비자와 시스템에서 제공하는 사람 간에 다대다 관계를 구축합니다. 신중하게 고려한 후 퍼블릭 클라우드가 요구 사항을 지원하기에 완벽한 환경이라고 결정했습니다.
솔루션 컨셉
MJTelco는 실험실에서 성공적인 개념 증명(PoC) 프로젝트를 진행하고 있습니다. 그들에게는 두 가지 주요 요구 사항이 있습니다.
50,000개가 넘는 설치로 증가하면 생성되는 훨씬 더 많은 데이터 흐름을 지원하기 위해 PoC를 확장하고 강화합니다.
토폴로지 정의를 제어하는 데 사용하는 동적 모델을 검증하고 개선하기 위해 머신 러닝 주기를 세부적으로 조정합니다.
MJTelco는 또한 개발/테스트, 스테이징, 프로덕션이라는 세 가지 별도의 운영 환경을 사용할 것입니다.
실험 실행, 새로운 기능 배포, 프로덕션 고객 서비스 제공에 필요한 요구 사항을 충족합니다.
비즈니스 요구 사항
최소한의 비용으로 프로덕션 환경을 확장하고, 예측할 수 없는 분산된 텔레콤 사용자 커뮤니티에서 필요할 때 필요한 곳에 리소스를 인스턴스화합니다. 최첨단 머신 러닝과 분석을 보호하기 위해 독점 데이터의 보안을 보장합니다.
분산된 연구 인력이 분석할 수 있도록 안정적이고 시기적절한 데이터 액세스를 제공합니다. 고객에게 영향을 미치지 않으면서 머신 러닝 모델의 빠른 반복을 지원하는 격리된 환경을 유지합니다.
기술적 요구 사항
원격 측정 데이터의 안전하고 효율적인 전송 및 저장을 보장합니다. 각각 여러 흐름을 사용하는 10,000~100,000개의 데이터 공급자를 지원하도록 인스턴스를 빠르게 확장합니다.
최대 2년 분의 데이터를 추적하는 데이터 테이블에 대한 분석 및 프레젠테이션을 허용합니다.
100m 레코드/일
원격 측정 흐름과 프로덕션 학습 주기 모두에서 데이터 파이프라인 문제에 대한 인식에 초점을 맞춘 모니터링 인프라의 신속한 반복을 지원합니다.
CEO 성명
저희의 사업 모델은 저희의 특허, 분석 및 역동적인 머신 러닝에 의존합니다. 저희의 저렴한 하드웨어는 매우 신뢰할 수 있도록 구성되어 있어 비용상 이점이 있습니다. 저희는 신뢰성과 용량 약속을 충족하기 위해 대규모 분산 데이터 파이프라인을 신속하게 안정화해야 합니다.
CTO 성명
당사의 퍼블릭 클라우드 서비스는 광고된 대로 작동해야 합니다. 확장 가능하고 데이터를 안전하게 유지하는 리소스가 필요합니다. 또한 데이터 과학자가 모델을 신중하게 연구하고 빠르게 조정할 수 있는 환경도 필요합니다. 당사는 자동화에 의존하여 데이터를 처리하기 때문에 반복 작업을 수행하는 동안 개발 및 테스트 환경도 작동해야 합니다.
CFO 성명
이 프로젝트는 데이터와 분석에 필요한 하드웨어와 소프트웨어를 유지하기에는 규모가 너무 큽니다.
또한, 우리는 그렇게 많은 데이터 피드를 모니터링하기 위해 운영팀을 배치할 여유가 없으므로 자동화와 인프라에 의존할 것입니다. Google Cloud의 머신 러닝을 통해 양적 연구자들은 데이터 파이프라인의 문제 대신 고가치 문제를 해결할 수 있습니다.
다음 요구 사항을 충족하는 운영 팀을 위한 시각화를 작성해야 합니다.
어떤 접근 방식이 요구 사항을 충족합니까?
Professional-Data-Engineer 문제 153
당신은 핸드헬드 스캐너를 사용하여 배송 라벨을 읽는 배송 회사에서 일합니다. 귀사는 스캐너가 수신자의 개인 식별 정보(PII)만 분석 시스템에 전송하도록 요구하는 엄격한 데이터 개인 정보 보호 표준을 가지고 있으며, 이는 사용자 개인 정보 보호 규칙을 위반합니다. 당신은 클라우드 기반 관리 서비스를 사용하여 PII가 분석 시스템에 노출되는 것을 방지하기 위해 확장 가능한 솔루션을 빠르게 구축하려고 합니다.
어떻게 해야 할까요?
어떻게 해야 할까요?
Professional-Data-Engineer 문제 154
Google BigQuery에서 분당 10,000개의 메시지 속도로 거의 실시간으로 소셜 미디어 게시물을 저장하고 분석해야 합니다. 처음에는 개별 게시물에 스트리밍 삽입을 사용하도록 애플리케이션을 설계합니다.
귀하의 애플리케이션은 또한 스트리밍 삽입 직후에 데이터 집계를 수행합니다. 스트리밍 삽입 후의 쿼리가 강력한 일관성을 나타내지 않고 쿼리의 보고서가 비행 중 데이터를 놓칠 수 있음을 발견합니다.
귀하의 애플리케이션은 또한 스트리밍 삽입 직후에 데이터 집계를 수행합니다. 스트리밍 삽입 후의 쿼리가 강력한 일관성을 나타내지 않고 쿼리의 보고서가 비행 중 데이터를 놓칠 수 있음을 발견합니다.
Professional-Data-Engineer 문제 155
MJTelco에서는 Google Bigtable에서 지난 2년간의 기록에 대한 과거 분석을 허용하는 스키마를 생성해야 합니다. 들어오는 각 레코드는 15분마다 전송되며, 기기의 고유 식별자와 데이터 레코드가 포함됩니다. 가장 일반적인 쿼리는 특정 날짜에 대한 특정 기기의 모든 데이터에 대한 것입니다. 어떤 스키마를 사용해야 합니까?
