大數(shù)據(jù)挖掘 你平時(shí)最愛瀏覽的網(wǎng)站是什么網(wǎng)站?
你平時(shí)最愛瀏覽的網(wǎng)站是什么網(wǎng)站?坎特伯雷,你明白嗎?不同的行業(yè)有不同的選擇,各行各業(yè)都有數(shù)據(jù)分析的需求。主要是MATLAB,python,R這些。以我自己為例,Matlab矩陣運(yùn)算能力強(qiáng),語法簡(jiǎn)單,性
你平時(shí)最愛瀏覽的網(wǎng)站是什么網(wǎng)站?
坎特伯雷,你明白嗎?不同的行業(yè)有不同的選擇,各行各業(yè)都有數(shù)據(jù)分析的需求。主要是MATLAB,python,R這些。
以我自己為例,Matlab矩陣運(yùn)算能力強(qiáng),語法簡(jiǎn)單,性能強(qiáng),更便于科研數(shù)據(jù)分析。它可以調(diào)用GPU,界面友好。有很多用于數(shù)據(jù)分析的數(shù)據(jù)導(dǎo)入和導(dǎo)出工具包
非常適合數(shù)據(jù)分析,而且
它還可以很容易地構(gòu)建接口。例如,我為上一個(gè)項(xiàng)目構(gòu)建了以下圖形界面:
但問題是MATLAB不是免費(fèi)的,而且也不便宜。大學(xué)和研究機(jī)構(gòu)會(huì)根據(jù)自己的需要購(gòu)買,比如我們學(xué)校。
據(jù)我所知,有很多人使用盜版,但這是極不推薦的。即使你買的是短期學(xué)生版,也不要使用盜版。
還有python,它在天文數(shù)據(jù)分析和數(shù)據(jù)挖掘中也非常流行。因?yàn)楹芏嗳司帉懥撕芏嚅_源工具包,所以社區(qū)非常大,每個(gè)人都為這個(gè)社區(qū)貢獻(xiàn)自己的代碼。
太陽物理學(xué)中有一個(gè)著名的sunpy
使用這個(gè)軟件包,我們可以很容易地導(dǎo)入和處理各種天文臺(tái)的觀測(cè)數(shù)據(jù)。
另外,機(jī)器學(xué)習(xí)近年來的興起也是以python為主,python的數(shù)據(jù)處理和分析將越來越流行。
還有一些財(cái)務(wù)統(tǒng)計(jì)數(shù)據(jù),如R SPSS等。
數(shù)據(jù)分析,數(shù)據(jù)發(fā)掘應(yīng)該用什么編程語言呢?
謝謝。據(jù)我所知,有幾個(gè)大數(shù)據(jù)收集平臺(tái)根據(jù)數(shù)據(jù)來源:
1。系統(tǒng)日志收集平臺(tái)。大多數(shù)企業(yè)都有系統(tǒng)日志采集平臺(tái),在企業(yè)業(yè)務(wù)平臺(tái)上,每天都會(huì)產(chǎn)生大量的日志數(shù)據(jù)。通過對(duì)這些日志數(shù)據(jù)的收集和清理后的分析,企業(yè)可以發(fā)現(xiàn)這些日志數(shù)據(jù)的潛在價(jià)值。
2. 網(wǎng)絡(luò)數(shù)據(jù)采集平臺(tái)。這種數(shù)據(jù)采集平臺(tái)一般都是通過爬蟲來采集的。在服務(wù)器上構(gòu)建爬蟲對(duì)目標(biāo)網(wǎng)站集進(jìn)行爬網(wǎng),然后對(duì)每天爬網(wǎng)的數(shù)據(jù)進(jìn)行清理,最終得到企業(yè)所需的數(shù)據(jù)。
3. 數(shù)據(jù)庫收集平臺(tái)。這主要是基于企業(yè)的產(chǎn)品。產(chǎn)品與數(shù)據(jù)庫交互產(chǎn)生的數(shù)據(jù)也是有價(jià)值的數(shù)據(jù)源,從中可以獲得一些新的用戶需求。
最后,阿里云和騰訊云也是大型大數(shù)據(jù)采集平臺(tái)。