壹條信息的信息量大小和它的不確定性有直接的關系,信息量的度量就等於不確定性的多少。信息量的計算公式如下所示:
** 變量的不確定性越大,熵越大 **
選擇屬性判斷結點
信息獲取量(Information Gain):Gain(A)= Info(D) - Infor_A(D)通過A作為節點分類獲取了多少信息。
實例,以下是對是否購買計算機的群體的壹項數據調查:
已知從結果上來看的信息量是:
依次類推,當將age作為第壹個結點之後,會得到新生成的三個結點,然後再次重復計算,將三個結點按照決策樹原理再次進行分類,知道分類結果唯壹。
優點:
直觀 便於理解 小規模數據集有效
缺點:
處理連續性變量不好 錯誤增加的比較快 不適用於大規模數據集
分類(classfication)、回歸(regression)、聚類(clustering),降維(dimensionality)
模型選擇(model selection)、預處理(preprocessing)
使用的數據文件
得到的dot文件
使用graphviz將dot文件轉為png,pdf