（2）決策樹算法及其應用

判定樹是壹個類似於流程圖的樹結構：其中，每個內部結點表示壹個屬性上的測試，每個分支代表壹個屬性輸出，而每個樹葉節點代表類或類分布。樹的最頂層是根節點。

壹條信息的信息量大小和它的不確定性有直接的關系，信息量的度量就等於不確定性的多少。信息量的計算公式如下所示：

** 變量的不確定性越大，熵越大 **

選擇屬性判斷結點

信息獲取量（Information Gain):Gain(A)= Info(D) - Infor_A(D)通過A作為節點分類獲取了多少信息。

實例，以下是對是否購買計算機的群體的壹項數據調查:

已知從結果上來看的信息量是:

依次類推，當將age作為第壹個結點之後，會得到新生成的三個結點，然後再次重復計算，將三個結點按照決策樹原理再次進行分類，知道分類結果唯壹。

優點:

直觀便於理解小規模數據集有效

缺點:

處理連續性變量不好錯誤增加的比較快不適用於大規模數據集

分類（classfication）、回歸（regression）、聚類（clustering），降維（dimensionality）

模型選擇（model selection）、預處理（preprocessing）

使用的數據文件

得到的dot文件

使用graphviz將dot文件轉為png，pdf