美女光着屁股让男人桶,成人依依网站亚洲综合久

隨機貼片與隨機子空間

BaggingClassifier也支持采樣特征。它被兩個超參數(shù)max_features和bootstrap_features控制。他們的工作方式和max_samples和bootstrap一樣，但這是對于特征采樣而不是實例采樣。因此，每一個分類器都會被在隨機的輸入特征內(nèi)進行訓(xùn)練。

當(dāng)你在處理高維度輸入下（例如圖片）此方法尤其有效。對訓(xùn)練實例和特征的采樣被叫做隨機貼片。保留了所有的訓(xùn)練實例（例如bootstrap=False和max_samples=1.0），但是對特征采樣（bootstrap_features=True并且/或者max_features小于 1.0）叫做隨機子空間。

采樣特征導(dǎo)致更多的預(yù)測多樣性，用高偏差換低方差。

隨機森林

正如我們所討論的，隨機森林是決策樹的一種集成，通常是通過 bagging 方法（有時是 pasting 方法）進行訓(xùn)練，通常用max_samples設(shè)置為訓(xùn)練集的大小。與建立一個BaggingClassifier然后把它放入DecisionTreeClassifier相反，你可以使用更方便的也是對決策樹優(yōu)化夠的RandomForestClassifier（對于回歸是RandomForestRegressor）。接下來的代碼訓(xùn)練了帶有 500 個樹（每個被限制為 16 葉子結(jié)點）的決策森林，使用所有空閑的 CPU 核：

>>>from sklearn.ensemble import RandomForestClassifier>>>rnd_clf = RandomForestClassifier(n_estimators=500, max_leaf_nodes=16, n_jobs=-1) >>>rnd_clf.fit(X_train, y_train)>>>y_pred_rf = rnd_clf.predict(X_test)

除了一些例外，RandomForestClassifier使用DecisionTreeClassifier的所有超參數(shù)（決定數(shù)怎么生長），把BaggingClassifier的超參數(shù)加起來來控制集成本身。

隨機森林算法在樹生長時引入了額外的隨機；與在節(jié)點分裂時需要找到最好分裂特征相反（詳見第六章），它在一個隨機的特征集中找最好的特征。它導(dǎo)致了樹的差異性，并且再一次用高偏差換低方差，總的來說是一個更好的模型。以下是BaggingClassifier大致相當(dāng)于之前的randomforestclassifier：

>>>bag_clf = BaggingClassifier(DecisionTreeClassifier(splitter="random", max_leaf_nodes=16),n_estimators=500, max_samples=1.0, bootstrap=True, n_jobs=-1)

極端隨機樹

當(dāng)你在隨機森林上生長樹時，在每個結(jié)點分裂時只考慮隨機特征集上的特征（正如之前討論過的一樣）。相比于找到更好的特征我們可以通過使用對特征使用隨機閾值使樹更加隨機（像規(guī)則決策樹一樣）。

這種極端隨機的樹被簡稱為Extremely Randomized Trees（極端隨機樹），或者更簡單的稱為Extra-Tree。再一次用高偏差換低方差。它還使得Extra-Tree比規(guī)則的隨機森林更快地訓(xùn)練，因為在每個節(jié)點上找到每個特征的最佳閾值是生長樹最耗時的任務(wù)之一。

你可以使用 sklearn 的ExtraTreesClassifier來創(chuàng)建一個Extra-Tree分類器。他的 API 跟RandomForestClassifier是相同的，相似的，ExtraTreesRegressor跟RandomForestRegressor也是相同的 API。

我們很難去分辨ExtraTreesClassifier和RandomForestClassifier到底哪個更好。通常情況下是通過交叉驗證來比較它們（使用網(wǎng)格搜索調(diào)整超參數(shù)）。

特征重要度

最后，如果你觀察一個單一決策樹，重要的特征會出現(xiàn)在更靠近根部的位置，而不重要的特征會經(jīng)常出現(xiàn)在靠近葉子的位置。因此我們可以通過計算一個特征在森林的全部樹中出現(xiàn)的平均深度來預(yù)測特征的重要性。sklearn 在訓(xùn)練后會自動計算每個特征的重要度。你可以通過feature_importances_變量來查看結(jié)果。例如如下代碼在 iris 數(shù)據(jù)集（第四章介紹）上訓(xùn)練了一個RandomForestClassifier模型，然后輸出了每個特征的重要性。看來，最重要的特征是花瓣長度（44%）和寬度（42%），而萼片長度和寬度相對比較是不重要的（分別為 11% 和 2%）：

>>> from sklearn.datasets import load_iris >>> iris = load_iris() >>> rnd_clf = RandomForestClassifier(n_estimators=500, n_jobs=-1) >>> rnd_clf.fit(iris["data"], iris["target"]) >>> for name, score in zip(iris["feature_names"], rnd_clf.feature_importances_): >>> print(name, score) sepal length (cm) 0.112492250999sepal width (cm) 0.0231192882825 petal length (cm) 0.441030464364 petal width (cm) 0.423357996355

相似的，如果你在 MNIST 數(shù)據(jù)及上訓(xùn)練隨機森林分類器（在第三章上介紹），然后畫出每個像素的重要性，你可以得到圖 7-6 的圖片。

隨機森林可以非常方便快速得了解哪些特征實際上是重要的，特別是你需要進行特征選擇的時候。

提升

提升（Boosting，最初稱為假設(shè)增強）指的是可以將幾個弱學(xué)習(xí)者組合成強學(xué)習(xí)者的集成方法。對于大多數(shù)的提升方法的思想就是按順序去訓(xùn)練分類器，每一個都要嘗試修正前面的分類?，F(xiàn)如今已經(jīng)有很多的提升方法了，但最著名的就是Adaboost（適應(yīng)性提升，是Adaptive Boosting的簡稱）和Gradient Boosting（梯度提升）。讓我們先從Adaboost說起。

Adaboost

使一個新的分類器去修正之前分類結(jié)果的方法就是對之前分類結(jié)果不對的訓(xùn)練實例多加關(guān)注。這導(dǎo)致新的預(yù)測因子越來越多地聚焦于這種情況。這是Adaboost使用的技術(shù)。

舉個例子，去構(gòu)建一個 Adaboost 分類器，第一個基分類器（例如一個決策樹）被訓(xùn)練然后在訓(xùn)練集上做預(yù)測，在誤分類訓(xùn)練實例上的權(quán)重就增加了。第二個分類機使用更新過的權(quán)重然后再一次訓(xùn)練，權(quán)重更新，以此類推（詳見圖 7-7）

圖 7-8 顯示連續(xù)五次預(yù)測的 moons 數(shù)據(jù)集的決策邊界（在本例中，每一個分類器都是高度正則化帶有 RBF 核的 SVM）。第一個分類器誤分類了很多實例，所以它們的權(quán)重被提升了。第二個分類器因此對這些誤分類的實例分類效果更好，以此類推。右邊的圖代表了除了學(xué)習(xí)率減半外（誤分類實例權(quán)重每次迭代上升一半）相同的預(yù)測序列。你可以看出，序列學(xué)習(xí)技術(shù)與梯度下降很相似，除了調(diào)整單個預(yù)測因子的參數(shù)以最小化代價函數(shù)之外，AdaBoost 增加了集合的預(yù)測器，逐漸使其更好。

一旦所有的分類器都被訓(xùn)練后，除了分類器根據(jù)整個訓(xùn)練集上的準確率被賦予的權(quán)重外，集成預(yù)測就非常像Bagging和Pasting了。

序列學(xué)習(xí)技術(shù)的一個重要的缺點就是：它不能被并行化（只能按步驟），因為每個分類器只能在之前的分類器已經(jīng)被訓(xùn)練和評價后再進行訓(xùn)練。因此，它不像Bagging和Pasting一樣。

讓我們詳細看一下 Adaboost 算法。每一個實例的權(quán)重wi初始都被設(shè)為1/m第一個分類器被訓(xùn)練，然后他的權(quán)重誤差率r1在訓(xùn)練集上算出，詳見公式 7-1。

公式7-1：第j個分類器的權(quán)重誤差率

其中是第j個分類器對于第i實例的預(yù)測。

分類器的權(quán)重j 隨后用公式 7-2 計算出來。其中η是超參數(shù)學(xué)習(xí)率（默認為 1）。

分類器準確率越高，它的權(quán)重就越高。如果它只是瞎猜，那么它的權(quán)重會趨近于 0。然而，如果它總是出錯（比瞎猜的幾率都低），它的權(quán)重會使負數(shù)。

公式 7-2：分類器權(quán)重

接下來實例的權(quán)重會按照公式 7-3 更新：誤分類的實例權(quán)重會被提升。

公式7-3 權(quán)重更新規(guī)則

對于i=1, 2, ..., m

隨后所有實例的權(quán)重都被歸一化（例如被整除）

最后，一個新的分類器通過更新過的權(quán)重訓(xùn)練，整個過程被重復(fù)（新的分類器權(quán)重被計算，實例的權(quán)重被更新，隨后另一個分類器被訓(xùn)練，以此類推）。當(dāng)規(guī)定的分類器數(shù)量達到或者最好的分類器被找到后算法就會停止。

為了進行預(yù)測，Adaboost 通過分類器權(quán)重j 簡單的計算了所有的分類器和權(quán)重。預(yù)測類別會是權(quán)重投票中主要的類別。（詳見公式 7-4）

公式7-4： Adaboost 分類器

其中N是分類器的數(shù)量。

sklearn 通常使用 Adaboost 的多分類版本SAMME（這就代表了分段加建模使用多類指數(shù)損失函數(shù)）。如果只有兩類別，那么SAMME是與 Adaboost 相同的。如果分類器可以預(yù)測類別概率（例如如果它們有predict_proba()），如果 sklearn 可以使用SAMME叫做SAMME.R的變量（R 代表“REAL”），這種依賴于類別概率的通常比依賴于分類器的更好。

接下來的代碼訓(xùn)練了使用 sklearn 的AdaBoostClassifier基于 200 個決策樹樁 Adaboost 分類器（正如你說期待的，對于回歸也有AdaBoostRegressor）。一個決策樹樁是max_depth=1的決策樹-換句話說，是一個單一的決策節(jié)點加上兩個葉子結(jié)點。這就是AdaBoostClassifier的默認基分類器：

>>>from sklearn.ensemble import AdaBoostClassifier>>>ada_clf = AdaBoostClassifier(DecisionTreeClassifier(max_depth=1), n_estimators=200,algorithm="SAMME.R", learning_rate=0.5) >>>ada_clf.fit(X_train, y_train)

如果你的 Adaboost 集成過擬合了訓(xùn)練集，你可以嘗試減少基分類器的數(shù)量或者對基分類器使用更強的正則化。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴