hive的優(yōu)缺點(diǎn)有哪些 orc表優(yōu)缺點(diǎn)?
orc表優(yōu)缺點(diǎn)?除了再配置MapReduce壓縮后功能外,Hive的ORC表和Parquet表然后支持什么表的壓解屬性。但接受的裝換格式太遠(yuǎn),ORC表允許None、Zlib、Snappy裝換,默認(rèn)為Z
orc表優(yōu)缺點(diǎn)?
除了再配置MapReduce壓縮后功能外,Hive的ORC表和Parquet表然后支持什么表的壓解屬性。
但接受的裝換格式太遠(yuǎn),ORC表允許None、Zlib、Snappy裝換,默認(rèn)為ZLIB壓縮后。但這3種壓解格式不支持區(qū)域分割,因此比較適合單個(gè)文件不是特別大的場景。在用Zlib壓解率高,但效率差一些;建議使用Snappy效率高,但裝換率低。
Parquet表接受Uncompress、Snappy、Gzip、Lzo裝換,設(shè)置為不裝換Uncompressed。其中Lzo壓縮是支持分割處理的,所以在表的單個(gè)文件會增大的場景會選擇類型Lzo格式。Gzip壓縮后率高,效率低;而Snappy、Lzo效率高,高壓縮率低。
什么是詞根標(biāo)準(zhǔn)化hive?
hive是實(shí)現(xiàn)Hadoop的一個(gè)數(shù)據(jù)倉庫工具,是可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,并提供簡單的sql查詢功能,可以將sql語句轉(zhuǎn)換為MapReduce任務(wù)并且運(yùn)行。
其優(yōu)點(diǎn)是自學(xué)成本低,可以類SQL語句快速實(shí)現(xiàn)程序簡單MapReduce統(tǒng)計(jì),沒有必要變更土地性質(zhì)拿來的MapReduce應(yīng)用,相當(dāng)更適合數(shù)據(jù)倉庫的統(tǒng)計(jì)分析。
不會Python只會Bi工具,可以從事數(shù)據(jù)分析師嗎?
題主好像沉浸了一個(gè)死區(qū),Python和BI工具都都能夠做數(shù)據(jù)分析,但是各有優(yōu)缺點(diǎn),那我想知道為什么不兩個(gè)相互生克制化出聲用呢?
.例如,我現(xiàn)在你經(jīng)常用Python在網(wǎng)上爬數(shù)據(jù),接著用FineBI通過分析什么,總是還用Python優(yōu)化一下FineBI,特點(diǎn)兩個(gè)工具的優(yōu)點(diǎn)從底層做起事來極其效率。
不過,Python這種偽代碼性質(zhì)的語言初學(xué)者并不算難,可是探索出來就又不是什么簡單事情了,而且Python語言不能不能加密,但目前國內(nèi)市場完全是靠c語言程序軟件賣給別人客戶的越來越少,網(wǎng)站和移動應(yīng)用不不需要給客戶源代碼,因?yàn)檫@個(gè)問題就是問題了
BI工具的話,簡單點(diǎn)上手容易、靈活快鍵,尤其是題主所說的FineBI、pentaho等自助餐化工具,傻瓜式操作很比較適合現(xiàn)在的數(shù)據(jù)分析小白何練起,就算是是手中掌握了R這種編程語言,也很適合我拿來做分析工具
我的很同意下來上面兩名答主的話,工具沒有好壞優(yōu)劣之分,只是相對而言這個(gè)工具比較適合什么樣的人、干什么樣的事情,想在數(shù)據(jù)分析這一行做到是有高度,F(xiàn)ineBI這種BI工具和Python這種編程語言那絕對是是要兩者兼得的。