pyspark中文文檔 spark上怎么講讀取的數(shù)據(jù)的某幾行合并成一行,新手?
spark上怎么講讀取的數(shù)據(jù)的某幾行合并成一行,新手?#RDD指定的行數(shù)據(jù)在spark中拼接,RDD合并為一行。Python實(shí)現(xiàn)frompyparkimportsparkcontextsc=spark
spark上怎么講讀取的數(shù)據(jù)的某幾行合并成一行,新手?
#RDD指定的行數(shù)據(jù)在spark中拼接,RDD合并為一行。Python實(shí)現(xiàn)frompyparkimportsparkcontextsc=sparkcontext(“l(fā)ocal”,“myapp”)行=sc.并行化([[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12
pyspark用dataframe還是rdd好?
數(shù)據(jù)幀比RDD快。對(duì)于結(jié)構(gòu)化數(shù)據(jù),用dataframe編寫的代碼更簡潔。
對(duì)于非結(jié)構(gòu)化語音數(shù)據(jù),建議使用RDD將其處理為結(jié)構(gòu)化數(shù)據(jù),然后轉(zhuǎn)換為數(shù)據(jù)幀。