Professional-Data-Engineer 문제 201
Google Cloud Bigtable은 각 행에서 단일 값의 색인을 생성합니다. 이 값을 _______이라고 합니다.
Professional-Data-Engineer 문제 202
부동산 속성이 포함된 사용 가능한 데이터 세트를 기반으로 주택 가격을 예측하는 모델을 학습하고 있습니다.
귀하의 계획은 완전히 연결된 신경망을 훈련시키는 것이며 데이터 세트에 해당 속성의 위도와 경도가 포함되어 있음을 발견했습니다. 부동산 전문가들은 부동산의 위치가 가격에 큰 영향을 미친다고 말했으므로 이러한 물리적 종속성을 통합하는 기능을 엔지니어링하고 싶습니다.
당신은 무엇을 해야 합니까?
귀하의 계획은 완전히 연결된 신경망을 훈련시키는 것이며 데이터 세트에 해당 속성의 위도와 경도가 포함되어 있음을 발견했습니다. 부동산 전문가들은 부동산의 위치가 가격에 큰 영향을 미친다고 말했으므로 이러한 물리적 종속성을 통합하는 기능을 엔지니어링하고 싶습니다.
당신은 무엇을 해야 합니까?
Professional-Data-Engineer 문제 203
MJTelco 사례 연구
회사 개요
MJTelco는 빠르게 성장하고 있지만 서비스가 부족한 전 세계 시장에서 네트워크를 구축하려는 스타트업입니다. 이 회사는 혁신적인 광통신 하드웨어에 대한 특허를 보유하고 있습니다. 이러한 특허를 바탕으로 저렴한 하드웨어로 안정적인 고속 백본 링크를 많이 만들 수 있습니다.
회사 배경
숙련된 통신 경영진이 설립한 MJTelco는 원래 우주에서의 통신 문제를 극복하기 위해 개발된 기술을 사용합니다. 운영의 기본으로서 실시간 분석을 촉진하고 기계 학습을 통합하여 토폴로지를 지속적으로 최적화하는 분산 데이터 인프라를 구축해야 합니다. 하드웨어가 저렴하기 때문에 동적 지역 정치가 위치 가용성 및 비용에 미치는 영향을 설명할 수 있도록 네트워크를 과도하게 배포할 계획입니다.
관리 및 운영 팀은 전 세계에 위치하여 데이터 소비자와 시스템 제공 간의 다대다 관계를 형성합니다. 그들은 신중한 고려 끝에 퍼블릭 클라우드가 그들의 요구 사항을 지원하기에 완벽한 환경이라고 결정했습니다.
솔루션 컨셉
MJTelco는 자사 연구실에서 성공적인 개념 증명(PoC) 프로젝트를 진행하고 있습니다. 두 가지 주요 요구 사항이 있습니다.
* PoC를 확장하고 강화하여 다음 이상으로 증가할 때 생성되는 훨씬 더 많은 데이터 흐름을 지원합니다.
50,000개 설치.
* 기계 학습 주기를 개선하여 토폴로지 정의를 제어하는 데 사용하는 동적 모델을 검증하고 개선합니다.
MJTelco는 또한 실험 실행, 새로운 기능 배포 및 생산 고객 서비스 요구 사항을 충족하기 위해 개발/테스트, 준비 및 생산이라는 세 가지 별도의 운영 환경을 사용할 것입니다.
비즈니스 요구 사항
* 최소한의 비용으로 프로덕션 환경을 확장하고 예측할 수 없는 분산 통신 사용자 커뮤니티에서 필요할 때 리소스를 인스턴스화합니다.
* 최첨단 기계 학습 및 분석을 보호하기 위해 독점 데이터의 보안을 보장합니다.
* 분산된 연구 인력의 분석을 위해 데이터에 대한 안정적이고 시기적절한 액세스 제공
* 고객에게 영향을 주지 않고 기계 학습 모델의 신속한 반복을 지원하는 격리된 환경을 유지합니다.
기술 요구 사항
원격 측정 데이터의 안전하고 효율적인 전송 및 저장 보장
각각 여러 흐름이 있는 10,000~100,000개의 데이터 공급자를 지원하도록 인스턴스를 빠르게 확장합니다.
하루에 약 1억 개의 레코드를 저장하는 최대 2년간의 데이터를 추적하는 데이터 테이블에 대한 분석 및 프레젠테이션을 허용합니다. 원격 측정 흐름과 생산 학습 주기 모두에서 데이터 파이프라인 문제 인식에 초점을 맞춘 모니터링 인프라의 신속한 반복을 지원합니다.
CEO 성명서
우리의 비즈니스 모델은 특허, 분석 및 동적 기계 학습에 의존합니다. 우리의 저렴한 하드웨어는 신뢰성이 높도록 구성되어 있어 비용상의 이점을 제공합니다. 우리는 안정성과 용량 약속을 충족하기 위해 대규모 분산 데이터 파이프라인을 신속하게 안정화해야 합니다.
CTO 성명서
우리의 퍼블릭 클라우드 서비스는 광고된 대로 운영되어야 합니다. 우리에게는 데이터를 확장하고 안전하게 유지하는 리소스가 필요합니다.
또한 데이터 과학자가 신중하게 모델을 연구하고 신속하게 조정할 수 있는 환경도 필요합니다.
우리는 데이터 처리를 자동화에 의존하기 때문에 반복 작업을 수행하려면 개발 및 테스트 환경도 필요합니다.
CFO 성명서
데이터와 분석에 필요한 하드웨어와 소프트웨어를 유지 관리하기에는 프로젝트 규모가 너무 큽니다. 또한 우리는 너무 많은 데이터 피드를 모니터링하기 위해 운영팀을 인력을 확보할 여력이 없으므로 자동화와 인프라에 의존할 것입니다. Google Cloud의 머신러닝을 통해 우리의 정량적 연구원은 데이터 파이프라인 문제 대신 가치가 높은 문제를 해결할 수 있습니다.
MJTelco는 일일 수집에 관심이 있는 레코드 스트림을 고려하여 Google BigQuery 비용 증가를 우려하고 있습니다. MJTelco에서 디자인 솔루션 제공을 요청합니다. Tracking_table이라는 하나의 대규모 데이터 테이블이 필요합니다. 또한 매일의 이벤트를 세밀하게 분석하는 동시에 일일 쿼리 비용을 최소화하려고 합니다. 또한 스트리밍 수집을 사용하려고 합니다. 당신은 무엇을 해야 합니까?
회사 개요
MJTelco는 빠르게 성장하고 있지만 서비스가 부족한 전 세계 시장에서 네트워크를 구축하려는 스타트업입니다. 이 회사는 혁신적인 광통신 하드웨어에 대한 특허를 보유하고 있습니다. 이러한 특허를 바탕으로 저렴한 하드웨어로 안정적인 고속 백본 링크를 많이 만들 수 있습니다.
회사 배경
숙련된 통신 경영진이 설립한 MJTelco는 원래 우주에서의 통신 문제를 극복하기 위해 개발된 기술을 사용합니다. 운영의 기본으로서 실시간 분석을 촉진하고 기계 학습을 통합하여 토폴로지를 지속적으로 최적화하는 분산 데이터 인프라를 구축해야 합니다. 하드웨어가 저렴하기 때문에 동적 지역 정치가 위치 가용성 및 비용에 미치는 영향을 설명할 수 있도록 네트워크를 과도하게 배포할 계획입니다.
관리 및 운영 팀은 전 세계에 위치하여 데이터 소비자와 시스템 제공 간의 다대다 관계를 형성합니다. 그들은 신중한 고려 끝에 퍼블릭 클라우드가 그들의 요구 사항을 지원하기에 완벽한 환경이라고 결정했습니다.
솔루션 컨셉
MJTelco는 자사 연구실에서 성공적인 개념 증명(PoC) 프로젝트를 진행하고 있습니다. 두 가지 주요 요구 사항이 있습니다.
* PoC를 확장하고 강화하여 다음 이상으로 증가할 때 생성되는 훨씬 더 많은 데이터 흐름을 지원합니다.
50,000개 설치.
* 기계 학습 주기를 개선하여 토폴로지 정의를 제어하는 데 사용하는 동적 모델을 검증하고 개선합니다.
MJTelco는 또한 실험 실행, 새로운 기능 배포 및 생산 고객 서비스 요구 사항을 충족하기 위해 개발/테스트, 준비 및 생산이라는 세 가지 별도의 운영 환경을 사용할 것입니다.
비즈니스 요구 사항
* 최소한의 비용으로 프로덕션 환경을 확장하고 예측할 수 없는 분산 통신 사용자 커뮤니티에서 필요할 때 리소스를 인스턴스화합니다.
* 최첨단 기계 학습 및 분석을 보호하기 위해 독점 데이터의 보안을 보장합니다.
* 분산된 연구 인력의 분석을 위해 데이터에 대한 안정적이고 시기적절한 액세스 제공
* 고객에게 영향을 주지 않고 기계 학습 모델의 신속한 반복을 지원하는 격리된 환경을 유지합니다.
기술 요구 사항
원격 측정 데이터의 안전하고 효율적인 전송 및 저장 보장
각각 여러 흐름이 있는 10,000~100,000개의 데이터 공급자를 지원하도록 인스턴스를 빠르게 확장합니다.
하루에 약 1억 개의 레코드를 저장하는 최대 2년간의 데이터를 추적하는 데이터 테이블에 대한 분석 및 프레젠테이션을 허용합니다. 원격 측정 흐름과 생산 학습 주기 모두에서 데이터 파이프라인 문제 인식에 초점을 맞춘 모니터링 인프라의 신속한 반복을 지원합니다.
CEO 성명서
우리의 비즈니스 모델은 특허, 분석 및 동적 기계 학습에 의존합니다. 우리의 저렴한 하드웨어는 신뢰성이 높도록 구성되어 있어 비용상의 이점을 제공합니다. 우리는 안정성과 용량 약속을 충족하기 위해 대규모 분산 데이터 파이프라인을 신속하게 안정화해야 합니다.
CTO 성명서
우리의 퍼블릭 클라우드 서비스는 광고된 대로 운영되어야 합니다. 우리에게는 데이터를 확장하고 안전하게 유지하는 리소스가 필요합니다.
또한 데이터 과학자가 신중하게 모델을 연구하고 신속하게 조정할 수 있는 환경도 필요합니다.
우리는 데이터 처리를 자동화에 의존하기 때문에 반복 작업을 수행하려면 개발 및 테스트 환경도 필요합니다.
CFO 성명서
데이터와 분석에 필요한 하드웨어와 소프트웨어를 유지 관리하기에는 프로젝트 규모가 너무 큽니다. 또한 우리는 너무 많은 데이터 피드를 모니터링하기 위해 운영팀을 인력을 확보할 여력이 없으므로 자동화와 인프라에 의존할 것입니다. Google Cloud의 머신러닝을 통해 우리의 정량적 연구원은 데이터 파이프라인 문제 대신 가치가 높은 문제를 해결할 수 있습니다.
MJTelco는 일일 수집에 관심이 있는 레코드 스트림을 고려하여 Google BigQuery 비용 증가를 우려하고 있습니다. MJTelco에서 디자인 솔루션 제공을 요청합니다. Tracking_table이라는 하나의 대규모 데이터 테이블이 필요합니다. 또한 매일의 이벤트를 세밀하게 분석하는 동시에 일일 쿼리 비용을 최소화하려고 합니다. 또한 스트리밍 수집을 사용하려고 합니다. 당신은 무엇을 해야 합니까?
Professional-Data-Engineer 문제 204
Google BigQuery를 데이터 웨어하우스로 사용하고 있습니다. 사용자는 쿼리 실행 시점에 관계없이 다음과 같은 간단한 쿼리가 매우 느리게 실행된다고 보고합니다.
SELECT country, state, city FROM [myproject:mydataset.mytable] GROUP BY country 쿼리에 대한 쿼리 계획을 확인하고 Stage:1의 Read 섹션에서 다음 출력을 확인합니다.

이 쿼리가 지연되는 가장 큰 원인은 무엇입니까?
SELECT country, state, city FROM [myproject:mydataset.mytable] GROUP BY country 쿼리에 대한 쿼리 계획을 확인하고 Stage:1의 Read 섹션에서 다음 출력을 확인합니다.

이 쿼리가 지연되는 가장 큰 원인은 무엇입니까?
Professional-Data-Engineer 문제 205
MJTelco의 Google Cloud Dataflow 파이프라인은 이제 50,000개의 설치에서 데이터 수신을 시작할 준비가 되었습니다.
Cloud Dataflow가 필요에 따라 컴퓨팅 성능을 확장하도록 허용하려고 합니다. 어떤 Cloud Dataflow 파이프라인 구성 설정을 업데이트해야 하나요?
Cloud Dataflow가 필요에 따라 컴퓨팅 성능을 확장하도록 허용하려고 합니다. 어떤 Cloud Dataflow 파이프라인 구성 설정을 업데이트해야 하나요?
