python數(shù)據(jù)分析 如何進(jìn)行數(shù)據(jù)的歸一化處理?
如何進(jìn)行數(shù)據(jù)的歸一化處理?第一個問題,測試集的歸一化的均值和標(biāo)準(zhǔn)偏差應(yīng)該來源于訓(xùn)練集。如果你熟悉Python的sklearn的話,你就應(yīng)該知道應(yīng)該先對訓(xùn)練集數(shù)據(jù)fit,得到包含均值和標(biāo)準(zhǔn)偏差的scal
如何進(jìn)行數(shù)據(jù)的歸一化處理?
第一個問題,測試集的歸一化的均值和標(biāo)準(zhǔn)偏差應(yīng)該來源于訓(xùn)練集。如果你熟悉Python的sklearn的話,你就應(yīng)該知道應(yīng)該先對訓(xùn)練集數(shù)據(jù)fit,得到包含均值和標(biāo)準(zhǔn)偏差的scaler,然后再分別對訓(xùn)練集和驗(yàn)證集transform。這個問題其實(shí)很好,很多人不注意,最容易犯的錯誤就是先歸一化,再劃分訓(xùn)練測試集。
第二個問題,是均值方差歸一化,最大最小歸一化等不同歸一化的選擇問題。歸一化的目的無非調(diào)整各個字段之間的數(shù)量級差異。均值方差歸一化可能更適合你不知道數(shù)據(jù)的邊界在哪里,最大最小歸一化相當(dāng)于整合到01之間,這相當(dāng)于你是知道這個字段的邊界在哪里。所以我個人更傾向于均值方差歸一化。這個問題我只是經(jīng)驗(yàn)之談,不一定對。
我不是一個IT行業(yè)人,我想了解人工智能究竟是怎么實(shí)現(xiàn)的,或者說實(shí)現(xiàn)的方向,怎么做最接近?
人工智能就是模擬人類的。所以主要還是通過視頻,圖像和音頻輸入。像小度那樣的機(jī)器人,肯定是裝有攝像頭來識別人臉,有拾音器來辨別聲音。具體的,本質(zhì)上是人臉的半結(jié)構(gòu)化特征的提取,和聲紋的半結(jié)構(gòu)化特征提取,然后在后臺的特征數(shù)據(jù)集進(jìn)行比對的結(jié)果。在這之前,分別需要對千萬級的人臉和聲紋數(shù)據(jù)進(jìn)行模型訓(xùn)練,“教會”機(jī)器人怎么去檢測人臉和聲紋,怎么去提取特征,這個過程可以就是基于深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練過程,而深度學(xué)習(xí)網(wǎng)絡(luò)是模擬人腦的一種神經(jīng)網(wǎng)絡(luò)。現(xiàn)在比較流行的深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練框架有caffe,TensorFlow等,流行的語言有python,c ,c等。想學(xué)的話,先百度一下我上面提到的所有不太理解的那些名詞吧,弄懂概念后才能繼續(xù)。