Professional-Machine-Learning-Engineer 문제 51
Google Cloud에서 구조화된 데이터용 ML 파이프라인을 다시 빌드하려고 합니다. PySpark를 사용하여 대규모 데이터 변환을 수행하고 있지만 파이프라인을 실행하는 데 12시간 이상이 걸립니다. 개발 및 파이프라인 실행 시간을 단축하기 위해 서버리스 도구와 SQL 구문을 사용하려고 합니다. 원시 데이터를 이미 Cloud Storage로 이동했습니다. 속도 및 처리 요구사항을 충족하면서 GCP에서 파이프라인을 구축하려면 어떻게 해야 하나요?
Professional-Machine-Learning-Engineer 문제 52
온라인 리셀러는 데이터의 30%가 누락된 하나의 열이 있는 대규모 다중 열 데이터 세트를 가지고 있습니다. 기계 학습 전문가는 데이터 세트의 특정 열을 사용하여 누락된 데이터를 재구성할 수 있다고 생각합니다.
전문가는 데이터 세트의 무결성을 유지하기 위해 어떤 재구성 접근 방식을 사용해야 합니까?
전문가는 데이터 세트의 무결성을 유지하기 위해 어떤 재구성 접근 방식을 사용해야 합니까?
Professional-Machine-Learning-Engineer 문제 53
최근 수천 개의 데이터 세트가 있는 엔터프라이즈 규모 회사에 합류했습니다. BigQuery의 각 테이블에 대한 정확한 설명이 있다는 것을 알고 있으며 AI Platform에서 구축 중인 모델에 사용할 적절한 BigQuery 테이블을 검색하고 있습니다. 필요한 데이터를 어떻게 찾아야 합니까?
Professional-Machine-Learning-Engineer 문제 54
현재 BigQuery에 저장된 여러 구조화된 데이터세트에 대해 분류 워크플로를 빌드해야 합니다. 분류를 여러 번 수행하게 되므로 코드를 작성하지 않고 탐색 데이터 분석, 기능 선택, 모델 구축, 교육, 초매개변수 조정 및 제공과 같은 단계를 완료하려고 합니다. 당신은 무엇을해야합니까?
Professional-Machine-Learning-Engineer 문제 55
금융 서비스 회사는 Amazon S3에서 강력한 서버리스 데이터 레이크를 구축하고 있습니다. 데이터 레이크는 유연해야 하며 다음 요구 사항을 충족해야 합니다.
* Amazon Athena 및 Amazon Redshift Spectrum을 통해 Amazon S3에서 이전 및 새 데이터 쿼리를 지원합니다.
* 이벤트 기반 ETL 파이프라인 지원
* 메타데이터를 이해하는 빠르고 쉬운 방법 제공
어떤 접근 방식이 이러한 요구 사항을 충족합니까?
* Amazon Athena 및 Amazon Redshift Spectrum을 통해 Amazon S3에서 이전 및 새 데이터 쿼리를 지원합니다.
* 이벤트 기반 ETL 파이프라인 지원
* 메타데이터를 이해하는 빠르고 쉬운 방법 제공
어떤 접근 방식이 이러한 요구 사항을 충족합니까?
