国产成人毛片视频|星空传媒久草视频|欧美激情草久视频|久久久久女女|久操超碰在线播放|亚洲强奸一区二区|五月天丁香社区在线|色婷婷成人丁香网|午夜欧美6666|纯肉无码91视频

衣帽掛 機(jī)器學(xué)習(xí)中,特征提取和特征選擇有什么區(qū)別?

機(jī)器學(xué)習(xí)中,特征提取和特征選擇有什么區(qū)別?特征選擇(feature selection)和特征提?。╢eature extraction)是特征工程中的兩個重要問題。有句說法:數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)中,特征提取和特征選擇有什么區(qū)別?

特征選擇(feature selection)和特征提?。╢eature extraction)是特征工程中的兩個重要問題。有句說法:數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限,而模型和算法只是逼近這個上限而已。由此可見,特征工程尤其是特征選擇在機(jī)器學(xué)習(xí)中占有相當(dāng)重要的地位。


在機(jī)器學(xué)習(xí)中,特征選擇(feature selection) 也被稱為變量選擇、屬性選擇 或變量子集選擇 。它是指:為了構(gòu)建模型而選擇相關(guān)特征(即屬性、指標(biāo))子集的過程。使用特征選擇技術(shù)有三個原因:

  • 簡化模型,使之更易于被研究人員或用戶理解
  • 縮短訓(xùn)練時間
  • 改善通用性、降低過擬合(即降低方差)


要使用特征選擇技術(shù)的關(guān)鍵假設(shè)是:訓(xùn)練數(shù)據(jù)包含許多冗余或無關(guān)的特征,因而移除這些特征并不會導(dǎo)致丟失信息。特征選擇是指去掉無關(guān)特征,保留相關(guān)特征的過程,也可以認(rèn)為是從所有的特征中選擇一個最好的特征子集,本質(zhì)上是一種降維的過程。


特征提?。╢eature extraction)是指將機(jī)器學(xué)習(xí)算法不能識別的原始數(shù)據(jù)轉(zhuǎn)化為算法可以識別的特征的過程。比如說,圖片是由一系列像素點(diǎn)構(gòu)(原始數(shù)據(jù))成的,這些像素點(diǎn)本身無法被機(jī)器學(xué)習(xí)算法直接使用,但是如果將這些像素點(diǎn)轉(zhuǎn)化成矩陣的形式(數(shù)值特征),那么機(jī)器學(xué)習(xí)算法就可以使用了。


特征選擇技術(shù)與特征提取有所不同。特征提取實(shí)際上是把原始數(shù)據(jù)轉(zhuǎn)化為機(jī)器學(xué)習(xí)算法可以識別的數(shù)值特征,從原有特征的功能中創(chuàng)造新的特征,不存在降維的概念,不需要理會這些特征是否有用;而特征選擇是在提取出來的特征中選擇最優(yōu)的一個特征子集,常常用于許多特征但樣本(即數(shù)據(jù)點(diǎn))相對較少的領(lǐng)域。特征選擇應(yīng)用的典型用例包括:解析書面文本和微陣列數(shù)據(jù),這些場景下特征成千上萬,但樣本只有幾十到幾百個。