有spark為什么還要hive 求問怎么設置sparksql讀取hive的數據庫?
求問怎么設置sparksql讀取hive的數據庫?過去,hive是用來建立數據倉庫的,因此對hive管理的數據查詢有很大的需求。Hive、shark和sparlsql可以查詢Hive數據。Shark使
求問怎么設置sparksql讀取hive的數據庫?
過去,hive是用來建立數據倉庫的,因此對hive管理的數據查詢有很大的需求。Hive、shark和sparlsql可以查詢Hive數據。Shark使用hive的SQL語法解析器和優(yōu)化器,修改executor,使其物理執(zhí)行過程在spark上運行;spark-SQL使用自己的語法解析器、優(yōu)化器和executor,spark-SQL還擴展了接口,不僅支持hive數據查詢,還支持多數據源的數據查詢。
如何使用scala開發(fā)spark作業(yè),并訪問hive?
1. 為了讓spark連接到hive的原始數據倉庫,我們需要在hive中連接hive-網站.xml將該文件復制到spark的conf目錄,這樣您就可以通過這個配置文件找到hive的元數據和數據存儲。
在這里,因為我的spark是自動安裝和部署的,所以我需要知道CDH將配置-網站.xml它在哪里?摸索之后。此文件的默認路徑在/etc/hive/conf下
對于spark/etc/conf也是如此
此時,如上所述,相應的配置單元發(fā)生了更改-網站.xml復制到spark/conf目錄
如果hive的元數據存儲在mysql中,我們需要準備mysql相關的驅動程序,例如mysql-connector-java-5.1.22-bin.jar文件.
hive和sparksql的區(qū)別?
功能點:hive:[1,數據存儲
2,數據清理spark:1,數據清理2,流計算hive可以通過HQL模式讀取hive數據進行數據清理spark可以通過spark SQL或spark core模式清理數據,可以讀取數據源包live JDBC、hive、elasticsearch、file等,因此spark可以替換數據蜂巢的清洗功能,也可以使用蜂巢作為數據源。蜂巢的優(yōu)勢在于1。大數據存儲。MapReduce操作通過SQL降低大數據使用門檻。Spark的優(yōu)勢在于1?;趦却娴腗apReduce操作,速度快。流計算(基準產品Flink、storm)