pyspark中文文檔 spark上怎么講讀取的數(shù)據(jù)的某幾行合并成一行,新手?
spark上怎么講讀取的數(shù)據(jù)的某幾行合并成一行,新手?#RDD指定的行數(shù)據(jù)在spark中拼接,RDD合并為一行。Python實(shí)現(xiàn)frompyparkimportsparkcontextsc=spark
spark上怎么講讀取的數(shù)據(jù)的某幾行合并成一行,新手?
#RDD指定的行數(shù)據(jù)在spark中拼接,RDD合并為一行。Python實(shí)現(xiàn)frompyparkimportsparkcontextsc=sparkcontext(“l(fā)ocal”,“myapp”)行=sc.并行化([[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12
spark中讀入RDD的數(shù)據(jù)是自動(dòng)分區(qū)的嗎?
讓我們先了解RDD是什么。
RDD是一組分布式對(duì)象,它本質(zhì)上是一組只讀分區(qū)記錄。
以便在群集中的不同節(jié)點(diǎn)上執(zhí)行并行計(jì)算。
也就是說(shuō),RDD是一組只讀記錄分區(qū),不能直接修改。它只能基于穩(wěn)定物理存儲(chǔ)中的數(shù)據(jù)集創(chuàng)建,或者通過(guò)在其他RDD上執(zhí)行某些轉(zhuǎn)換操作(如map、join和groupby)來(lái)創(chuàng)建。
RDD提供了一組豐富的操作來(lái)支持常見(jiàn)的數(shù)據(jù)操作,這些操作分為兩種類型:操作和轉(zhuǎn)換。前者用于執(zhí)行計(jì)算并指定輸出形式,后者指定RDD之間的相互依賴關(guān)系。
(如計(jì)數(shù)、收集等)接受RDD,但返回非RDD(即輸出值或結(jié)果)。
分區(qū)可以由
new sparkconext(new sparkconf)指定。paralleize()]
]數(shù)據(jù)幀比RDD快。對(duì)于結(jié)構(gòu)化數(shù)據(jù),dataframe編寫(xiě)的代碼更加簡(jiǎn)潔。
對(duì)于非結(jié)構(gòu)化語(yǔ)音數(shù)據(jù),建議使用RDD將其處理為結(jié)構(gòu)化數(shù)據(jù),然后將其轉(zhuǎn)換為數(shù)據(jù)幀。