nosql的應用場景科普Spark，Spark是什么，如何使用Spark？

2023-05-02

1768

科普Spark，Spark是什么，如何使用Spark？自己寫的Spark入門實戰(zhàn)教程，適合于有一定hadoop和數(shù)據(jù)分析經(jīng)驗的朋友。Spark簡介Spark是一個開源的計算框架平臺，使用該平臺，數(shù)據(jù)分

科普Spark，Spark是什么，如何使用Spark？

自己寫的Spark入門實戰(zhàn)教程，適合于有一定hadoop和數(shù)據(jù)分析經(jīng)驗的朋友。

Spark簡介

Spark是一個開源的計算框架平臺，使用該平臺，數(shù)據(jù)分析程序可自動分發(fā)到集群中的不同機器中，以解決大規(guī)模數(shù)據(jù)快速計算的問題，同時它還向上提供一個優(yōu)雅的編程范式，使得數(shù)據(jù)分析人員通過編寫類似于本機的數(shù)據(jù)分析程序即可實現(xiàn)集群并行計算。

Spark項目由多個緊密集成的組件組成。核心是Spark Core組件

，它實現(xiàn)了Spark的基本功能，包括：任務調(diào)度、內(nèi)存管理、錯誤恢復、與存儲系統(tǒng)交互等模塊，特別的，Spark Core還定義了彈性分布式數(shù)據(jù)集（RDD）的API，是Spark內(nèi)存計算與并行計算的主要編程抽象。

在Spark Core上有一系列軟件棧，用于滿足了各種不同數(shù)據(jù)分析計算任務需求，包括連接關系型數(shù)據(jù)庫或Hadoop Hive的SQL／HQL的查詢組件Spark SQL，對實時數(shù)據(jù)進行流式計算的組件Spark Steaming，支持常見機器學習算法并行計算組件MLlib，支持并行圖計算組件GraphX等。

為了進一步支持在數(shù)千個計算節(jié)點上的伸縮計算，Spark Core底層支持在各種集群管理器上運行，包括Hadoop YARN、Apache Mesos，或者Spark自帶的Standalone獨立調(diào)度器。

Spark部署

安裝Spark比較簡單，只要在機器上配置好最新版JAVA環(huán)境，下載編譯好的Spark軟件包后即可在本地運行。當然，也可以根據(jù)具體環(huán)境，使用Maven編譯需要的Spark功能。

Spark部署有兩種，一是本地部署，二是集群部署。前者只需啟動本地的交互式環(huán)境腳本即可，常用在本機快速程序測試，后者的應用場景更多些，具體根據(jù)集群環(huán)境不同，可部署在簡易的Spark獨立調(diào)度集群上、部署在Hadoop YARN集群上、或部署在Apache Mesos上等。

其中，Spark自帶的獨立調(diào)度器是最簡單實現(xiàn)Spark集群環(huán)境的一種，只需在多網(wǎng)計算機上安裝好Spark，然后在其中一臺啟動集群管理器（通過腳本），然后再在其他計算機上啟動工作節(jié)點（通過腳本），并連接到管理器上即可。

Spark編程

使用Spark編程，需要先在本機安裝好Spark環(huán)境，然后啟動Spark上下文管理器連接到本機（本地部署）或是集群上的集群管理器（集群部署），再使用Spark提供的抽象接口編程即可。

支持Spark的原生語言是Scala，一種支持JVM的腳本語言，可以避免其他語言在做數(shù)據(jù)轉(zhuǎn)化過程的性能或信息丟失。但隨著Spark項目的不斷完善，使用Python和PySpark包、或者R和SparkR包進行Spark編程也都是不錯的選擇。

不論使用何種編程語言，使用Spark進行數(shù)據(jù)分析的關鍵在于掌握Spark抽象的編程范式，其基本流程包括4步：

初始化SparkContext

。SparkContext即是Spark上下文管理器（也稱為驅(qū)動器程序），它主要負責向Spark工作節(jié)點上發(fā)送指令并獲得計算結(jié)果，但數(shù)據(jù)分析人員無需關注具體細節(jié)，只需使用SparkContext接口編程即可。

創(chuàng)建RDD

。彈性分布數(shù)據(jù)集RDD是Spark在多機進行并行計算的核心數(shù)據(jù)結(jié)構(gòu)，因此使用Spark進行數(shù)據(jù)分析，首先需使用SparkContext將外部數(shù)據(jù)讀入到Spark集群內(nèi)。

設計數(shù)據(jù)轉(zhuǎn)化操作

。即操作的結(jié)果是返回一個新的RDD，即在圖計算中只是一個中間節(jié)點。類比于Hadoop的Map()映射算子，但又不僅于此，Spark還支持filter()過濾算子、distinct()去重算子、sample()采樣算子，以及多個RDD集合的交差補并等集合操作。

設計數(shù)據(jù)執(zhí)行操作

。即操作的結(jié)果向SparkContext返回結(jié)果，或者將結(jié)果寫入外部操作系統(tǒng)。類比于Hadoop的Reduce()算子，按某函數(shù)操作兩個數(shù)據(jù)并返回一個同類型的數(shù)據(jù)，此外Spark還支持collect()直接返回結(jié)果算子、count()計數(shù)算子、take()/top()返回部分數(shù)據(jù)算子、foreach()迭代計算算子等操作。

Spark編程范式的本質(zhì)是有向無環(huán)圖的惰性計算

，即當使用上述進行編程后，Spark將自動將上述RDD和轉(zhuǎn)化算子轉(zhuǎn)換為有向無環(huán)圖的數(shù)據(jù)工作流，只有當觸發(fā)執(zhí)行算子時，才按需進行數(shù)據(jù)工作流的計算。此外，為進一步提高計算效率，Spark默認將在內(nèi)存中執(zhí)行，并自動進行內(nèi)存分配管理，當然分析人員也可根據(jù)需求通過persist()算子將中間步驟數(shù)據(jù)顯式的將內(nèi)存數(shù)據(jù)持久化到磁盤中，以方便調(diào)試或復用。

在R環(huán)境下使用Spark實例

最新版的RStudio已經(jīng)較完整的集成了Spark數(shù)據(jù)分析功能，可以在SparkR官方擴展接口基礎上更方便的使用Spark，主要需要安裝兩個包，分別是sparklyr和dplyr。其中，sparklyr包提供了更簡潔易用的Spark R編程接口，dplyr包提供了一個語法可擴展的數(shù)據(jù)操作接口，支持與主流SQL/NoSQL數(shù)據(jù)庫連接，同時使數(shù)據(jù)操作與數(shù)據(jù)集數(shù)據(jù)結(jié)構(gòu)解耦合，并且和Spark原生算子可基本對應。

若第一次運行，先在本機安裝必要的包和Spark環(huán)境：

之后運行下面的小例子，可以發(fā)現(xiàn)，除了需要初始化SparkContext、導入RDD數(shù)據(jù)和導出數(shù)據(jù)外，其他數(shù)據(jù)處理操作都與在本機做數(shù)據(jù)分析是一樣的。

此外，除了dplyr接口外，sparklyr還封裝了一套特征工程和常用機器學習算法，足以滿足80%常見的數(shù)據(jù)分析與挖掘工作，至于剩余的20%定制算法或是流處理、圖計算等任務，便需要了解更多高階的Spark接口來實現(xiàn)了。

spring boot使用shiro還是secuitry好？

應該是Spring Security。眾所周知，Spring Boot/Spring Cloud 是 Java 開發(fā)中最主流的技術棧，而在 Spring Boot/Spring Cloud 中做安全管理，Spring Security 一定是最方便的；這樣，如果要保護 Spring Boot 中的接口，添加一個 Spring Security 的dependency，差不多就沒問題了，所有接口也就保護起來了（這幾乎不需要任何一行配置，就能搞定）。

拿microservice的場景舉例，如果你想用 Shiro 代替 Spring Security，無疑 Shiro 的代碼量會非?？植?，而反觀Spring Security 則可以非常容易的集成到 Spring Boot/Spring Cloud 技術棧中，可以和 Spring Boot、Spring Cloud、Spring Social、WebSocket 等非常方便的整合。

国产成人毛片视频|星空传媒久草视频|欧美激情草久视频|久久久久女女|久操超碰在线播放|亚洲强奸一区二区|五月天丁香社区在线|色婷婷成人丁香网|午夜欧美6666|纯肉无码91视频

科普Spark，Spark是什么，如何使用Spark？

spring boot使用shiro還是secuitry好？

相關推薦

科普Spark，Spark是什么，如何使用Spark？

spring boot使用shiro還是secuitry好？