Professional-Data-Engineer 문제 86
작업을 실행할 수 있도록 Dataproc 클러스터의 가상 머신이 사용하는 서비스 계정에 어떤 역할을 할당해야 하나요?
Professional-Data-Engineer 문제 87
Google Data Studio 360에서 대규모 팀을 위한 중요한 보고서를 만듭니다. 보고서는 Google BigQuery를 데이터 소스로 사용합니다. 시각화에는 1시간 미만의 데이터가 표시되지 않습니다.
당신은 무엇을해야합니까?
당신은 무엇을해야합니까?
Professional-Data-Engineer 문제 88
다음 중 훈련 데이터 세트(2개 선택)에서 학습할 때 신경망이 조정하는 숫자는 무엇입니까?
Professional-Data-Engineer 문제 89
Google Cloud에서 데이터 파이프라인을 구축 중입니다. 기계 학습 프로세스를 위해 캐주얼한 방법을 사용하여 데이터를 준비해야 합니다. 로지스틱 회귀 모델을 지원하려고 합니다. 또한 실제 값으로 유지되어야 하고 제거할 수 없는 null 값을 모니터링하고 조정해야 합니다. 당신은 무엇을해야합니까?
Professional-Data-Engineer 문제 90
사례 연구 2 - MJTelco
회사 개요
MJTelco는 전 세계적으로 빠르게 성장하고 서비스가 부족한 시장에서 네트워크를 구축할 계획인 스타트업입니다.
이 회사는 혁신적인 광통신 하드웨어에 대한 특허를 보유하고 있습니다. 이러한 특허를 기반으로 저렴한 하드웨어로 많은 안정적인 고속 백본 링크를 생성할 수 있습니다.
회사 배경
경험 많은 통신 경영진에 의해 설립된 MJTelco는 원래 우주에서 통신 문제를 극복하기 위해 개발된 기술을 사용합니다. 운영에 있어 기본적으로 실시간 분석을 주도하고 기계 학습을 통합하여 토폴로지를 지속적으로 최적화하는 분산 데이터 인프라를 구축해야 합니다. 하드웨어가 저렴하기 때문에 네트워크를 과도하게 배포하여 동적 지역 정치가 위치 가용성 및 비용에 미치는 영향을 설명할 계획입니다.
그들의 관리 및 운영 팀은 전 세계에 위치하여 데이터 소비자와 시스템에서 다대다 관계를 생성합니다. 신중하게 고려한 후, 그들은 퍼블릭 클라우드가 그들의 요구를 지원하기에 완벽한 환경이라고 결정했습니다.
솔루션 개념
MJTelco는 연구소에서 성공적인 PoC(개념 증명) 프로젝트를 실행하고 있습니다. 두 가지 기본 요구 사항이 있습니다.
* PoC를 확장하고 강화하여 50,000개 이상의 설치로 증가할 때 생성되는 훨씬 더 많은 데이터 흐름을 지원합니다.
* 기계 학습 주기를 수정하여 토폴로지 정의를 제어하는 데 사용하는 동적 모델을 확인하고 개선합니다.
MJTelco는 또한 실험 실행, 새로운 기능 배포 및 프로덕션 고객 서비스의 요구 사항을 충족하기 위해 개발/테스트, 스테이징 및 프로덕션의 세 가지 별도 운영 환경을 사용할 것입니다.
비즈니스 요구 사항
* 최소한의 비용으로 생산 환경을 확장하고 예측할 수 없는 분산된 통신 사용자 커뮤니티에서 필요할 때 리소스를 인스턴스화합니다.
* 최첨단 기계 학습 및 분석을 보호하기 위해 독점 데이터의 보안을 보장합니다.
* 분산된 연구원의 분석을 위한 데이터에 대한 안정적이고 시기적절한 액세스 제공
* 고객에게 영향을 주지 않고 기계 학습 모델의 빠른 반복을 지원하는 격리된 환경을 유지합니다.
기술 요구 사항
* 원격 측정 데이터의 안전하고 효율적인 전송 및 저장 보장
* 인스턴스를 빠르게 확장하여 각각 여러 흐름으로 10,000~100,000개의 데이터 공급자를 지원합니다.
* 약 2년 동안의 데이터를 추적하는 데이터 테이블에 대한 분석 및 프레젠테이션 허용
100m 기록/일
* 원격 측정 흐름 및 프로덕션 학습 주기 모두에서 데이터 파이프라인 문제 인식에 중점을 둔 모니터링 인프라의 신속한 반복을 지원합니다.
CEO 성명서
우리의 비즈니스 모델은 특허, 분석 및 동적 기계 학습에 의존합니다. 우리의 저렴한 하드웨어는 매우 안정적으로 구성되어 있어 비용 이점이 있습니다. 안정성과 용량 약속을 충족하려면 대규모 분산 데이터 파이프라인을 신속하게 안정화해야 합니다.
CTO 성명서
당사의 퍼블릭 클라우드 서비스는 광고된 대로 작동해야 합니다. 확장하고 데이터를 안전하게 유지하는 리소스가 필요합니다. 또한 데이터 과학자가 모델을 주의 깊게 연구하고 신속하게 적용할 수 있는 환경이 필요합니다. 우리는 데이터를 처리하기 위해 자동화에 의존하기 때문에 반복하면서 작동할 개발 및 테스트 환경도 필요합니다.
CFO 성명서
프로젝트가 너무 커서 데이터 및 분석에 필요한 하드웨어와 소프트웨어를 유지 관리할 수 없습니다.
또한 많은 데이터 피드를 모니터링하기 위해 운영 팀에 직원을 배치할 여력이 없으므로 자동화 및 인프라에 의존할 것입니다. Google Cloud의 머신 러닝을 통해 양적 연구원은 데이터 파이프라인의 문제 대신 중요한 문제를 해결할 수 있습니다.
다음 요구 사항이 있는 운영 팀을 위한 시각화를 작성해야 합니다.
* 원격 측정에는 최근 6주 동안의 모든 50,000개 설치 데이터가 포함되어야 합니다(1분에 한 번 샘플링).
* 보고서는 실시간 데이터보다 3시간 이상 지연되어서는 안 됩니다.
* 실행 가능한 보고서는 차선의 링크만 표시해야 합니다.
* 대부분의 차선책 링크는 맨 위로 정렬되어야 합니다.
* 차선책 링크는 지역 지리별로 그룹화하고 필터링할 수 있습니다.
* 보고서를 로드하는 사용자 응답 시간은 5초 미만이어야 합니다.
지난 6주간의 데이터를 저장할 데이터 원본을 만들고 뷰어가 여러 날짜 범위, 고유한 지리적 지역 및 고유한 설치 유형을 볼 수 있도록 시각화를 만듭니다. 시각화를 변경하지 않고 항상 최신 데이터를 표시합니다. 매달 새로운 시각화를 만들고 업데이트하는 것을 피하려고 합니다. 당신은 무엇을해야합니까?
회사 개요
MJTelco는 전 세계적으로 빠르게 성장하고 서비스가 부족한 시장에서 네트워크를 구축할 계획인 스타트업입니다.
이 회사는 혁신적인 광통신 하드웨어에 대한 특허를 보유하고 있습니다. 이러한 특허를 기반으로 저렴한 하드웨어로 많은 안정적인 고속 백본 링크를 생성할 수 있습니다.
회사 배경
경험 많은 통신 경영진에 의해 설립된 MJTelco는 원래 우주에서 통신 문제를 극복하기 위해 개발된 기술을 사용합니다. 운영에 있어 기본적으로 실시간 분석을 주도하고 기계 학습을 통합하여 토폴로지를 지속적으로 최적화하는 분산 데이터 인프라를 구축해야 합니다. 하드웨어가 저렴하기 때문에 네트워크를 과도하게 배포하여 동적 지역 정치가 위치 가용성 및 비용에 미치는 영향을 설명할 계획입니다.
그들의 관리 및 운영 팀은 전 세계에 위치하여 데이터 소비자와 시스템에서 다대다 관계를 생성합니다. 신중하게 고려한 후, 그들은 퍼블릭 클라우드가 그들의 요구를 지원하기에 완벽한 환경이라고 결정했습니다.
솔루션 개념
MJTelco는 연구소에서 성공적인 PoC(개념 증명) 프로젝트를 실행하고 있습니다. 두 가지 기본 요구 사항이 있습니다.
* PoC를 확장하고 강화하여 50,000개 이상의 설치로 증가할 때 생성되는 훨씬 더 많은 데이터 흐름을 지원합니다.
* 기계 학습 주기를 수정하여 토폴로지 정의를 제어하는 데 사용하는 동적 모델을 확인하고 개선합니다.
MJTelco는 또한 실험 실행, 새로운 기능 배포 및 프로덕션 고객 서비스의 요구 사항을 충족하기 위해 개발/테스트, 스테이징 및 프로덕션의 세 가지 별도 운영 환경을 사용할 것입니다.
비즈니스 요구 사항
* 최소한의 비용으로 생산 환경을 확장하고 예측할 수 없는 분산된 통신 사용자 커뮤니티에서 필요할 때 리소스를 인스턴스화합니다.
* 최첨단 기계 학습 및 분석을 보호하기 위해 독점 데이터의 보안을 보장합니다.
* 분산된 연구원의 분석을 위한 데이터에 대한 안정적이고 시기적절한 액세스 제공
* 고객에게 영향을 주지 않고 기계 학습 모델의 빠른 반복을 지원하는 격리된 환경을 유지합니다.
기술 요구 사항
* 원격 측정 데이터의 안전하고 효율적인 전송 및 저장 보장
* 인스턴스를 빠르게 확장하여 각각 여러 흐름으로 10,000~100,000개의 데이터 공급자를 지원합니다.
* 약 2년 동안의 데이터를 추적하는 데이터 테이블에 대한 분석 및 프레젠테이션 허용
100m 기록/일
* 원격 측정 흐름 및 프로덕션 학습 주기 모두에서 데이터 파이프라인 문제 인식에 중점을 둔 모니터링 인프라의 신속한 반복을 지원합니다.
CEO 성명서
우리의 비즈니스 모델은 특허, 분석 및 동적 기계 학습에 의존합니다. 우리의 저렴한 하드웨어는 매우 안정적으로 구성되어 있어 비용 이점이 있습니다. 안정성과 용량 약속을 충족하려면 대규모 분산 데이터 파이프라인을 신속하게 안정화해야 합니다.
CTO 성명서
당사의 퍼블릭 클라우드 서비스는 광고된 대로 작동해야 합니다. 확장하고 데이터를 안전하게 유지하는 리소스가 필요합니다. 또한 데이터 과학자가 모델을 주의 깊게 연구하고 신속하게 적용할 수 있는 환경이 필요합니다. 우리는 데이터를 처리하기 위해 자동화에 의존하기 때문에 반복하면서 작동할 개발 및 테스트 환경도 필요합니다.
CFO 성명서
프로젝트가 너무 커서 데이터 및 분석에 필요한 하드웨어와 소프트웨어를 유지 관리할 수 없습니다.
또한 많은 데이터 피드를 모니터링하기 위해 운영 팀에 직원을 배치할 여력이 없으므로 자동화 및 인프라에 의존할 것입니다. Google Cloud의 머신 러닝을 통해 양적 연구원은 데이터 파이프라인의 문제 대신 중요한 문제를 해결할 수 있습니다.
다음 요구 사항이 있는 운영 팀을 위한 시각화를 작성해야 합니다.
* 원격 측정에는 최근 6주 동안의 모든 50,000개 설치 데이터가 포함되어야 합니다(1분에 한 번 샘플링).
* 보고서는 실시간 데이터보다 3시간 이상 지연되어서는 안 됩니다.
* 실행 가능한 보고서는 차선의 링크만 표시해야 합니다.
* 대부분의 차선책 링크는 맨 위로 정렬되어야 합니다.
* 차선책 링크는 지역 지리별로 그룹화하고 필터링할 수 있습니다.
* 보고서를 로드하는 사용자 응답 시간은 5초 미만이어야 합니다.
지난 6주간의 데이터를 저장할 데이터 원본을 만들고 뷰어가 여러 날짜 범위, 고유한 지리적 지역 및 고유한 설치 유형을 볼 수 있도록 시각화를 만듭니다. 시각화를 변경하지 않고 항상 최신 데이터를 표시합니다. 매달 새로운 시각화를 만들고 업데이트하는 것을 피하려고 합니다. 당신은 무엇을해야합니까?
