Professional-Machine-Learning-Engineer 문제 76

소매 체인은 Amazon Kinesis Data Firehose를 사용하여 20,000개의 매장 네트워크에서 Amazon S3로 구매 기록을 수집하고 있습니다. 개선된 기계 학습 모델 교육을 지원하려면 교육 기록에 새롭고 간단한 변환이 필요하며 일부 속성이 결합됩니다. 모델을 매일 재학습해야 합니다.
많은 수의 저장소와 레거시 데이터 수집을 고려할 때 개발 노력이 가장 적게 필요한 변경 사항은 무엇입니까?

Professional-Machine-Learning-Engineer 문제 77

Keras에서 구매 내역을 기반으로 고객 구매를 예측하는 맞춤형 심층 신경망을 설계해야 합니다. 여러 모델 아키텍처를 사용하여 모델 성능을 탐색하고, 교육 데이터를 저장하고, 동일한 대시보드에서 평가 메트릭을 비교할 수 있기를 원합니다. 당신은 무엇을해야합니까?

Professional-Machine-Learning-Engineer 문제 78

데이터 과학자는 고용 데이터를 분석해야 합니다. 데이터 세트에는 10가지 다른 기능에 걸쳐 사람에 대한 약 1천만 개의 관찰이 포함됩니다. 예비 분석 중에 데이터 과학자는 소득 및 연령 분포가 정상이 아님을 알아차렸습니다. 소득 수준은 예상대로 오른쪽 스큐를 보여주지만, 소득이 높은 개인이 적을수록 연령 분포도 오른쪽 스큐를 나타내며, 노동력에 참여하는 노인이 적습니다.
데이터 과학자가 잘못 왜곡된 데이터를 수정하기 위해 적용할 수 있는 기능 변환은 무엇입니까? (2개를 선택하세요.)

Professional-Machine-Learning-Engineer 문제 79

데이터 과학자는 기존 온프레미스 ETL 프로세스를 클라우드로 마이그레이션해야 합니다. 현재 프로세스는 정기적인 시간 간격으로 실행되고 PySpark를 사용하여 다운스트림 처리를 위해 여러 대형 데이터 소스를 결합하고 단일 통합 출력으로 형식을 지정합니다.
데이터 과학자는 클라우드 솔루션에 대해 다음 요구 사항을 받았습니다.
* 여러 데이터 소스를 결합합니다.
* 기존 PySpark 로직을 재사용합니다.
* 기존 일정에 따라 솔루션을 실행합니다.
* 관리해야 할 서버의 수를 최소화합니다.
데이터 과학자는 이 솔루션을 구축하기 위해 어떤 아키텍처를 사용해야 합니까?

Professional-Machine-Learning-Engineer 문제 80

팀은 이미지에 운전 면허증, 여권 또는 신용 카드가 포함되어 있는지 여부를 예측하는 모델을 구축해야 합니다. 데이터 엔지니어링 팀은 이미 파이프라인을 구축하고 운전 면허증이 있는 이미지 10,000개, 여권이 있는 이미지 1,000개, 신용 카드가 있는 이미지 1,000개로 구성된 데이터 세트를 생성했습니다. 이제 ['driversjicense', 'passport', 'credit_card'] 레이블 맵을 사용하여 모델을 훈련시켜야 합니다. 어떤 손실 함수를 사용해야 합니까?