Associate-Developer-Apache-Spark 문제 1
다음 코드 블록 중 문자 X를 포함하지 않는 DataFrame itemsDf의 열 공급자에 있는 모든 값의 1열 DataFrame을 반환하는 것은 무엇입니까? DataFrame에서 모든 값은 한 번만 나열되어야 합니다.
DataFrame 항목Df의 샘플:
1.+------+--------------------+---- ---------------------+
2.|항목 ID| 아이템이름| 속성| 공급자|
3.+------+--------------------+---- ---------------------+
4.| 1|워싱턴용 두꺼운 코트...|[블루, 겨울, 포근함]|스포츠 컴퍼니 주식회사|
5.| 2|우아한 아웃도어...|[빨강, 여름, 프레...| 설인X|
6.| 3| 아웃도어 백팩|[녹색, 여름, T...|Sports Company Inc.|
7.+---------------------+------+---- ---------------------+
DataFrame 항목Df의 샘플:
1.+------+--------------------+---- ---------------------+
2.|항목 ID| 아이템이름| 속성| 공급자|
3.+------+--------------------+---- ---------------------+
4.| 1|워싱턴용 두꺼운 코트...|[블루, 겨울, 포근함]|스포츠 컴퍼니 주식회사|
5.| 2|우아한 아웃도어...|[빨강, 여름, 프레...| 설인X|
6.| 3| 아웃도어 백팩|[녹색, 여름, T...|Sports Company Inc.|
7.+---------------------+------+---- ---------------------+
Associate-Developer-Apache-Spark 문제 2
다음 코드 블록 중 중복 없이 10,000행 DataFrame itemsDf에서 약 1,000행이 포함된 DataFrame을 반환하고 코드 블록이 두 번 실행되더라도 동일한 행을 반환하는 것은 무엇입니까?
Associate-Developer-Apache-Spark 문제 3
다음 코드 블록 중 고유한 행만 있는 2000행 DataFrame transactionDf에서 약 1000개의 행을 반환하고 그중 일부는 잠재적으로 중복될 수 있는 것은 무엇입니까?
Associate-Developer-Apache-Spark 문제 4
아래 표시된 코드 블록에 오류가 있습니다. 코드 블록은 각각 productId 및 itemId 열에서 DataFrames transactionDf 및 itemsDf의 외부 조인을 수행하기 위한 것입니다.
오류를 찾으십시오.
코드 블록:
transactionDf.join(itemsDf, [itemsDf.itemId, transactionDf.productId], "외부")
오류를 찾으십시오.
코드 블록:
transactionDf.join(itemsDf, [itemsDf.itemId, transactionDf.productId], "외부")
Associate-Developer-Apache-Spark 문제 5
다음 코드 블록 중 fileSchema 스키마를 사용하여 filePath 위치에 있는 parquet 파일을 DataFrame으로 읽는 것은 무엇입니까?