數(shù)據(jù)分析師用哪個(gè)數(shù)據(jù)庫比較好?
網(wǎng)友解答: 作為一個(gè)數(shù)據(jù)分析師來回答一下:我做這行兩年多了,剛開始的時(shí)候用的多是MySQL數(shù)據(jù)庫,當(dāng)然,Oracle數(shù)據(jù)庫也會(huì)用到,尤其是在金融行業(yè)或者國企都用Oracle,一般的公司使
作為一個(gè)數(shù)據(jù)分析師來回答一下:
我做這行兩年多了,剛開始的時(shí)候用的多是MySQL數(shù)據(jù)庫,當(dāng)然,Oracle數(shù)據(jù)庫也會(huì)用到,尤其是在金融行業(yè)或者國企都用Oracle,一般的公司使用MySQL數(shù)據(jù)庫,可能是因?yàn)镸ySQL數(shù)據(jù)庫免費(fèi)吧。另外,在一家互聯(lián)網(wǎng)公司,我遇到了mongodb,目前一些新興的互聯(lián)網(wǎng)公司使用nosql的也比較多,這個(gè)當(dāng)時(shí)是現(xiàn)學(xué)現(xiàn)賣的。作為一個(gè)數(shù)據(jù)分析師,可能對(duì)數(shù)據(jù)庫的使用一般是存取數(shù)據(jù),至于更高級(jí)別的優(yōu)化、事務(wù)之類的,一般是使用不到的,有專門的數(shù)據(jù)庫人員,我們只要用好數(shù)據(jù)庫就好。
說道數(shù)據(jù)分析或者數(shù)據(jù)挖掘,除了數(shù)據(jù)庫來存取數(shù)據(jù),我們還需要處理數(shù)據(jù)的工具,最趁手的當(dāng)然是Python了。Python結(jié)合數(shù)據(jù)庫是日常的code,Python也提供了齊備的工具,針對(duì)MySQL的有pymysql庫,和oracle結(jié)合有cx_Oracle庫,和mongodb結(jié)合有pymongo庫,另外當(dāng)然少不了我們的數(shù)據(jù)分析利器pandas庫了,提供了read_sql函數(shù),支持各種數(shù)據(jù)庫,直接讀取成DataFrame的數(shù)據(jù)格式,十分的方便。
總結(jié)一下就是:其實(shí)遇到的大多數(shù)都是MySQL,oracle也有,這兩種都是sql語句,差別不大,只要掌握sql語句,這兩個(gè)數(shù)據(jù)庫問題都不大,mongodb是新興的非關(guān)系數(shù)據(jù)庫,語句也不是很復(fù)雜,之間上手工作也是無壓力的。結(jié)合Python中的pandas使用,讓你很溜的處理數(shù)據(jù),數(shù)據(jù)分析也就得心應(yīng)手了,小case了。
網(wǎng)友解答:這的看你需要分析的數(shù)據(jù)有多大了,M級(jí)隨便哪個(gè)庫,G級(jí)oracle或sql server, T級(jí)估計(jì)就的上hbase之類了,數(shù)據(jù)再大就麻煩了,如果你僅僅是分析有多少條,上面的請(qǐng)忽略。