Professional-Data-Engineer 문제 166
MJTelco 사례 연구
회사 개요
MJTelco는 전 세계적으로 빠르게 성장하고 서비스가 부족한 시장에서 네트워크를 구축하려는 신생 기업입니다.
이 회사는 혁신적인 광통신 하드웨어에 대한 특허를 보유하고 있습니다. 이러한 특허를 기반으로 저렴한 하드웨어로 많은 안정적이고 고속 백본 링크를 만들 수 있습니다.
회사 배경
경험이 풍부한 통신 임원이 설립한 MJTelco는 원래 우주에서 통신 문제를 극복하기 위해 개발된 기술을 사용합니다. 운영의 기본은 실시간 분석을 구동하고 머신 러닝을 통합하여 토폴로지를 지속적으로 최적화하는 분산 데이터 인프라를 구축해야 한다는 것입니다. 하드웨어가 저렴하기 때문에 네트워크를 과도하게 구축하여 역동적인 지역 정치가 위치 가용성과 비용에 미치는 영향을 설명할 계획입니다.
그들의 관리 및 운영 팀은 전 세계에 위치하고 있으며, 데이터 소비자와 시스템 제공자 간에 다대다 관계를 구축하고 있습니다. 신중한 고려 끝에 그들은 퍼블릭 클라우드가 그들의 요구를 지원하기에 완벽한 환경이라고 결정했습니다.
솔루션 컨셉
MJTelco는 실험실에서 성공적인 개념 증명(PoC) 프로젝트를 진행하고 있습니다. 그들에게는 두 가지 주요 요구 사항이 있습니다.
* 50,000개가 넘는 설치로 늘어나는 데이터 흐름을 지원하기 위해 PoC를 확장하고 강화합니다.
* 토폴로지 정의를 제어하는 데 사용하는 동적 모델을 검증하고 개선하기 위해 머신 러닝 주기를 세부적으로 조정합니다.
MJTelco는 실험 실행, 새로운 기능 배포, 프로덕션 고객 서비스 제공의 요구 사항을 충족하기 위해 개발/테스트, 스테이징, 프로덕션이라는 세 가지 별도의 운영 환경을 사용할 것입니다.
비즈니스 요구 사항
* 예측 불가능하고 분산된 통신 사용자 커뮤니티에서 필요할 때 필요한 곳에 리소스를 인스턴스화하여 최소한의 비용으로 생산 환경을 확장합니다.
* 최첨단 머신 러닝과 분석을 보호하기 위해 독점 데이터의 보안을 보장합니다.
* 분산된 연구원들이 분석할 수 있는 데이터에 대한 안정적이고 시기적절한 액세스를 제공합니다.
* 고객에게 영향을 주지 않고 머신 러닝 모델의 빠른 반복을 지원하는 격리된 환경을 유지합니다.
기술적 요구 사항
원격 측정 데이터의 안전하고 효율적인 전송 및 저장을 보장합니다.
여러 흐름을 사용하는 10,000~100,000개의 데이터 공급자를 지원하도록 인스턴스를 빠르게 확장합니다.
약 1억 개의 레코드/일을 저장하고 최대 2년 분의 데이터를 추적하는 데이터 테이블에 대한 분석 및 프레젠테이션을 허용합니다. 원격 측정 흐름과 프로덕션 학습 주기 모두에서 데이터 파이프라인 문제에 대한 인식에 초점을 맞춘 모니터링 인프라의 신속한 반복을 지원합니다.
CEO 성명
저희의 사업 모델은 저희의 특허, 분석 및 역동적인 머신 러닝에 의존합니다. 저희의 저렴한 하드웨어는 매우 신뢰할 수 있도록 구성되어 있어 비용상 이점이 있습니다. 저희는 신뢰성과 용량 약속을 충족하기 위해 대규모 분산 데이터 파이프라인을 신속하게 안정화해야 합니다.
CTO 성명
우리의 퍼블릭 클라우드 서비스는 광고된 대로 작동해야 합니다. 우리는 확장 가능하고 데이터를 안전하게 유지하는 리소스가 필요합니다.
또한 데이터 과학자들이 모델을 신중하게 연구하고 빠르게 적용할 수 있는 환경도 필요합니다.
우리는 데이터 처리를 위해 자동화에 의존하기 때문에 반복 작업을 하는 동안 개발 및 테스트 환경도 작동해야 합니다.
CFO 성명
이 프로젝트는 데이터와 분석에 필요한 하드웨어와 소프트웨어를 유지하기에는 너무 큽니다. 또한, 우리는 너무 많은 데이터 피드를 모니터링할 운영팀을 고용할 여유가 없으므로 자동화와 인프라에 의존할 것입니다. Google Cloud의 머신 러닝을 통해 양적 연구자들은 데이터 파이프라인의 문제 대신 고가치 문제를 해결할 수 있습니다.
다음 요구 사항을 충족하는 운영 팀을 위한 시각화를 작성해야 합니다.
* 보고서에는 최근 6주 동안의 50,000개 설비 전체의 원격 측정 데이터가 포함되어야 합니다(1분마다 샘플링).
* 보고서는 실시간 데이터보다 3시간 이상 지연되어서는 안 됩니다.
* 실행 가능한 보고서는 최적이 아닌 링크만 표시해야 합니다.
* 대부분의 최적이 아닌 링크는 위쪽으로 정렬해야 합니다.
* 최적이 아닌 링크는 지역별로 그룹화하고 필터링할 수 있습니다.
* 보고서를 로드하는 데 걸리는 사용자 응답 시간은 5초 미만이어야 합니다.
어떤 접근 방식이 요구 사항을 충족합니까?
회사 개요
MJTelco는 전 세계적으로 빠르게 성장하고 서비스가 부족한 시장에서 네트워크를 구축하려는 신생 기업입니다.
이 회사는 혁신적인 광통신 하드웨어에 대한 특허를 보유하고 있습니다. 이러한 특허를 기반으로 저렴한 하드웨어로 많은 안정적이고 고속 백본 링크를 만들 수 있습니다.
회사 배경
경험이 풍부한 통신 임원이 설립한 MJTelco는 원래 우주에서 통신 문제를 극복하기 위해 개발된 기술을 사용합니다. 운영의 기본은 실시간 분석을 구동하고 머신 러닝을 통합하여 토폴로지를 지속적으로 최적화하는 분산 데이터 인프라를 구축해야 한다는 것입니다. 하드웨어가 저렴하기 때문에 네트워크를 과도하게 구축하여 역동적인 지역 정치가 위치 가용성과 비용에 미치는 영향을 설명할 계획입니다.
그들의 관리 및 운영 팀은 전 세계에 위치하고 있으며, 데이터 소비자와 시스템 제공자 간에 다대다 관계를 구축하고 있습니다. 신중한 고려 끝에 그들은 퍼블릭 클라우드가 그들의 요구를 지원하기에 완벽한 환경이라고 결정했습니다.
솔루션 컨셉
MJTelco는 실험실에서 성공적인 개념 증명(PoC) 프로젝트를 진행하고 있습니다. 그들에게는 두 가지 주요 요구 사항이 있습니다.
* 50,000개가 넘는 설치로 늘어나는 데이터 흐름을 지원하기 위해 PoC를 확장하고 강화합니다.
* 토폴로지 정의를 제어하는 데 사용하는 동적 모델을 검증하고 개선하기 위해 머신 러닝 주기를 세부적으로 조정합니다.
MJTelco는 실험 실행, 새로운 기능 배포, 프로덕션 고객 서비스 제공의 요구 사항을 충족하기 위해 개발/테스트, 스테이징, 프로덕션이라는 세 가지 별도의 운영 환경을 사용할 것입니다.
비즈니스 요구 사항
* 예측 불가능하고 분산된 통신 사용자 커뮤니티에서 필요할 때 필요한 곳에 리소스를 인스턴스화하여 최소한의 비용으로 생산 환경을 확장합니다.
* 최첨단 머신 러닝과 분석을 보호하기 위해 독점 데이터의 보안을 보장합니다.
* 분산된 연구원들이 분석할 수 있는 데이터에 대한 안정적이고 시기적절한 액세스를 제공합니다.
* 고객에게 영향을 주지 않고 머신 러닝 모델의 빠른 반복을 지원하는 격리된 환경을 유지합니다.
기술적 요구 사항
원격 측정 데이터의 안전하고 효율적인 전송 및 저장을 보장합니다.
여러 흐름을 사용하는 10,000~100,000개의 데이터 공급자를 지원하도록 인스턴스를 빠르게 확장합니다.
약 1억 개의 레코드/일을 저장하고 최대 2년 분의 데이터를 추적하는 데이터 테이블에 대한 분석 및 프레젠테이션을 허용합니다. 원격 측정 흐름과 프로덕션 학습 주기 모두에서 데이터 파이프라인 문제에 대한 인식에 초점을 맞춘 모니터링 인프라의 신속한 반복을 지원합니다.
CEO 성명
저희의 사업 모델은 저희의 특허, 분석 및 역동적인 머신 러닝에 의존합니다. 저희의 저렴한 하드웨어는 매우 신뢰할 수 있도록 구성되어 있어 비용상 이점이 있습니다. 저희는 신뢰성과 용량 약속을 충족하기 위해 대규모 분산 데이터 파이프라인을 신속하게 안정화해야 합니다.
CTO 성명
우리의 퍼블릭 클라우드 서비스는 광고된 대로 작동해야 합니다. 우리는 확장 가능하고 데이터를 안전하게 유지하는 리소스가 필요합니다.
또한 데이터 과학자들이 모델을 신중하게 연구하고 빠르게 적용할 수 있는 환경도 필요합니다.
우리는 데이터 처리를 위해 자동화에 의존하기 때문에 반복 작업을 하는 동안 개발 및 테스트 환경도 작동해야 합니다.
CFO 성명
이 프로젝트는 데이터와 분석에 필요한 하드웨어와 소프트웨어를 유지하기에는 너무 큽니다. 또한, 우리는 너무 많은 데이터 피드를 모니터링할 운영팀을 고용할 여유가 없으므로 자동화와 인프라에 의존할 것입니다. Google Cloud의 머신 러닝을 통해 양적 연구자들은 데이터 파이프라인의 문제 대신 고가치 문제를 해결할 수 있습니다.
다음 요구 사항을 충족하는 운영 팀을 위한 시각화를 작성해야 합니다.
* 보고서에는 최근 6주 동안의 50,000개 설비 전체의 원격 측정 데이터가 포함되어야 합니다(1분마다 샘플링).
* 보고서는 실시간 데이터보다 3시간 이상 지연되어서는 안 됩니다.
* 실행 가능한 보고서는 최적이 아닌 링크만 표시해야 합니다.
* 대부분의 최적이 아닌 링크는 위쪽으로 정렬해야 합니다.
* 최적이 아닌 링크는 지역별로 그룹화하고 필터링할 수 있습니다.
* 보고서를 로드하는 데 걸리는 사용자 응답 시간은 5초 미만이어야 합니다.
어떤 접근 방식이 요구 사항을 충족합니까?
Professional-Data-Engineer 문제 167
최근에 Cloud Composer 2 환경에 여러 데이터 처리 작업을 배포했습니다. Apache Airflow에서 일부 작업이 실패하는 것을 알게 되었습니다. 모니터링 대시보드에서 총 작업자의 메모리 사용량이 증가하고 작업자 포드가 추방되었습니다. 이러한 오류를 해결해야 합니다. 어떻게 해야 할까요?
2개의 답변을 선택하세요
2개의 답변을 선택하세요
Professional-Data-Engineer 문제 168
공개 HTTPS 엔드포인트에서 Cloud Storage로 많은 수의 파일을 마이그레이션하고 있습니다. 서명된 URL을 사용하여 파일이 무단 액세스로부터 보호됩니다. 개체 URL 목록이 포함된 TSV 파일을 만들고 Storage Transfer Service를 사용하여 전송 작업을 시작했습니다. 작업이 오랫동안 실행되다가 결국 실패한 것을 알게 되었습니다. 전송 작업의 로그를 확인하면 작업이 어느 시점까지는 잘 실행되다가 나머지 파일에 HTTP 403 오류가 발생하여 실패했습니다. 소스 시스템에 변경 사항이 없음을 확인했습니다. 마이그레이션 프로세스를 재개하려면 문제를 해결해야 합니다. 어떻게 해야 합니까?
Professional-Data-Engineer 문제 169
실시간 애플리케이션에 Bigtable을 사용하고 있으며 읽기와 쓰기가 혼합된 무거운 부하가 있는 경우
최근에 추가 사용 사례를 식별했고 전체 데이터베이스에서 특정 통계를 계산하기 위해 매시간 분석 작업을 수행해야 합니다. 프로덕션 애플리케이션의 안정성과 분석 워크로드를 모두 보장해야 합니다.
어떻게 해야 할까요?
최근에 추가 사용 사례를 식별했고 전체 데이터베이스에서 특정 통계를 계산하기 위해 매시간 분석 작업을 수행해야 합니다. 프로덕션 애플리케이션의 안정성과 분석 워크로드를 모두 보장해야 합니다.
어떻게 해야 할까요?
Professional-Data-Engineer 문제 170
온프레미스 Hadoop 시스템을 Cloud Dataproc으로 마이그레이션하려고 합니다. Hive가 주로 사용되는 도구이며, 데이터 형식은 ORC(Optimized Row Columnar)입니다. 모든 ORC 파일이 Cloud Storage 버킷에 성공적으로 복사되었습니다. 성능을 극대화하려면 일부 데이터를 클러스터의 로컬 Hadoop Distributed File System(HDFS)에 복제해야 합니다. Cloud Dataproc에서 Hive를 사용하는 두 가지 방법은 무엇입니까? (두 가지를 선택하세요.)
