国产成人毛片视频|星空传媒久草视频|欧美激情草久视频|久久久久女女|久操超碰在线播放|亚洲强奸一区二区|五月天丁香社区在线|色婷婷成人丁香网|午夜欧美6666|纯肉无码91视频

sklearn中文教程 使用sklearn做文本分類(lèi),速度比較慢,有什么優(yōu)化方法?

使用sklearn做文本分類(lèi),速度比較慢,有什么優(yōu)化方法?首先,我想你可以打印出每一步的時(shí)間,看看哪一步需要更多的時(shí)間,并嘗試找到優(yōu)化方法。讓我先談?wù)勎蚁氲降膸c(diǎn)。在sklearn的一些分類(lèi)方法中,您

使用sklearn做文本分類(lèi),速度比較慢,有什么優(yōu)化方法?

首先,我想你可以打印出每一步的時(shí)間,看看哪一步需要更多的時(shí)間,并嘗試找到優(yōu)化方法。讓我先談?wù)勎蚁氲降膸c(diǎn)。

在sklearn的一些分類(lèi)方法中,您還可以嘗試在其參數(shù)中使用multi-process選項(xiàng)。

如果您的培訓(xùn)數(shù)據(jù)很大,請(qǐng)先嘗試LSA、LDA和其他模型來(lái)降低維度。這兩種方法在sklearn中也可用。

此外,在countvectorizer中,設(shè)置mintf和maxtf參數(shù)以避免過(guò)多的字。雖然這可能對(duì)速度影響很小,但可能會(huì)對(duì)結(jié)果產(chǎn)生影響。

如果你在處理中文文本,必須有一個(gè)好的停止詞和字典。

暫時(shí)就這么多了。

如何使用sklearn中的SVM?

sklearn中有sgdclassizer,通過(guò)改變損失函數(shù)損失,可以對(duì)應(yīng)不同的分類(lèi)回歸學(xué)習(xí)器,如下圖所示:

默認(rèn)為使用鉸鏈損失,即實(shí)現(xiàn)線性支持向量機(jī)