當前位置:外匯行情大全網 - 期貨行情 - 樸素貝葉斯及三種常見模型的推導

樸素貝葉斯及三種常見模型的推導

樸素貝葉斯,壹種樸素貝葉斯算法,有兩個關鍵定義:特征間強假設獨立性和貝葉斯定理。這兩個定義是樸素貝葉斯的關鍵。我們先來了解壹下這兩個定義。

貝葉斯定義是概率論中的壹個定理,與隨機變量的條件概率和邊際概率分布有關。

通常情況下,事件B(發生)條件下事件A的概率與事件A(發生)條件下事件B的概率不同。但是,它們之間存在著確定的關系,貝葉斯定理就是這種關系的陳述。貝葉斯公式的壹個目的是通過已知的三個概率函數推導出第四個。

直接給出公式:

其中,P(A|B)是指事件B發生時,事件A發生的概率(條件概率)。在貝葉斯定理中,每個名詞都有壹個常規名稱:

根據這些術語,貝葉斯定理可以表示為:

後驗概率=(似然性*先驗概率)/歸壹化常數

換句話說,後驗概率與先驗概率和相似度的乘積成正比。

同時,分母P(B)可以分解為:

如果P(X,Y|Z)=P(X|Z)P(Y|Z),或者等價地,P(X|Y,Z)=P(X|Z),那麽稱事件X和Y對於給定的事件Z是條件獨立的,即當Z發生時,X發生與否與Y發生與否無關。

應用於自然語言處理,即在壹定的文章類別條件下,文章的每個特征(詞)在壹定的文章類別條件下是獨立的,不相關的。通俗地說,在壹定的文章類別條件下,不存在相關性(其實不成立)。這是壹個非常強的假設,但是解決問題就變得容易了。

設輸入空間是壹組n個向量,輸出空間是壹組類別標簽。輸入是特征向量,輸出是類別標簽。X是在輸入空間X中定義的隨機變量,Y是在輸出空間Y中定義的隨機變量。P(X,Y)是X和Y的聯合概率分布。訓練數據集:

它是由P(X,Y)的獨立同分布生成的,所以樸素貝葉斯模型也是壹個生成模型。

樸素貝葉斯算法通過訓練集學習聯合概率分布P(X,Y),具體來說,學習先驗概率分布和條件概率分布,其中先驗概率分布

條件概率分布

,k=1,2,...,K

聯合概率分布P(X,Y) = P(X|Y)P(Y)由兩個概率得到。

條件概率分布P(X=x|Y=c_k)有指數個參數,其估計實際上是不可行的。假設有壹個值,j=1,2,...,n,Y有k個值,那麽參數個數就是。

事實上,指數參數估計是不可行的。所以樸素貝葉斯算法在特征之間做假設,即對條件概率分布做條件獨立性假設,這是壹個強假設。通過這個假設,我們的參數解變得可行,這就是樸素貝葉斯的由來。在這種情況下,我們還假設存在壹個值,j = 1,2,...

在樸素貝葉斯算法的分類中,對於給定的輸入X,通過學習後的模型計算後驗概率分布,輸出後驗概率最大的類作為輸入X的類,後驗概率根據貝葉斯定理計算:

上面的公式是後驗概率分布的壹種,因為對於相同的輸入X,不同類別的後驗概率的分母是相同的,最終的類別輸出是後驗概率分布中概率最大的類別,所以我們可以簡化為只通過比較分子的大小來確定最終結果,即最終的類別輸出是:

如果我們把乘積概率記在右邊,那麽連乘積就可以轉化為和,計算就更簡單了(加法永遠比乘法簡單)。上訴公式有壹個變體:

同時,這種形式也可以看作是權重系數為1的線性回歸。

在介紹了樸素貝葉斯的概率模型之後,我們目前的主要問題是如何估計這個模型的參數。估計參數後,我們可以預測輸入向量x。有不同類型的樸素貝葉斯用於求解這些參數。具體介紹三種類型:伯努利樸素貝葉斯、多項式樸素貝葉斯和高斯樸素貝葉斯。不同類型的樸素貝葉斯對參數有不同的解。根本原因在於P條件概率(X=x|Y=c_k)的假設分布不同,也就是說,在給定類別的情況下,X假設的分布不同:伯努利假設是伯努利分布(實際上應該是多元伯努利分布),多項式假設是多項式分布,高斯假設是高斯分布(實際上是多元高斯分布)。然後,我們將其提煉為三種不同的類型。

伯努利樸素貝葉斯,其實應該叫“多元樸素貝葉斯”,假設P(X=x|Y=c_k)是多元伯努利分布。在了解多元伯努利分布之前,我們先介紹壹下什麽是(壹元)伯努利分布。

伯努利分布又稱兩點分布或0-1分布,是壹種離散的概率分布。隨機變量X稱為伯努利分布,參數為p (0

最簡單的例子就是拋硬幣,硬幣的結果是正或負。

乘冪運算變成乘法運算,更簡單。當x=1時,概率為P(X=1)=p,當x=0時,概率為P(X=0)=1-p,所以兩種情況可以合並。

知道了什麽是伯努利分布之後,我們再來看看什麽是多元伯努利分布。

多元伯努利分布,通俗的說就是同時進行幾個不同的伯努利實驗,其中x是向量,也是向量,表示不同伯努利實驗的參數。

伯努利多項式假設文檔生成模型P(X=x|Y=c_k)是多元伯努利分布,由於我們之前做的特征獨立性假設,它是壹個向量形式,其中,也就是說,X向量是壹個壹熱向量(每個維度值為0或1),表示這個維度的特征是否出現。特征集有n個特征,特征集的維數決定了它。

由於特征之間的獨立性,多元伯努利成為伯努利分布的連續乘積。需要註意的是,因為是伯努利分布,0-1,所以特征出現的概率是p,特征不出現的概率也是1-p。最終模型的參數估計完成後,如果壹個特征沒有出現,就需要乘以那個沒有出現的特征。!!兩個向量直接相乘不能得到最終結果。

對應的伯努利樸素貝葉斯模型是:

為了簡化運算,我們可以忽略分母。雖然對應的結果不是真實概率,但同壹樣本的後驗概率之間的大小關系保持不變。同時,如果雙方同時進行對數運算,後驗概率之間的大小關系也保持不變。因此,

了解多元伯努利分布後,接下來的工作就是估計和計算參數。

參數估計的過程也是樸素貝葉斯分類器的學習過程,最大似然估計可以用於參數估計。先驗概率的最大似然估計為

,k=1,2,...,K

其中I(x)是壹個指示函數,如果X為真,I(x)的結果是1,如果X為假,I(x)=0。用語言描述,這個概率等於n個樣本的數據集中,有類別的樣本所占的比例。

條件概率的最大似然估計為:

用語言描述,條件概率等於樣本集(數據集子集)中第I個特征等於0或1的概率,它服從伯努利分布,所以只需要計算壹個,比如p,因為兩個概率之和是1(這是同壹個變量)。

這些參數估計出來後,樸素貝葉斯就完成了學習過程,然後就可以用它來預測了(應用才是最終目的)。

因為是伯努利分布,參數p在[0,1]之間,可能存在,即有概率為0。

例如,在當前類別下的所有樣本中,特征I出現(=1)。根據上面的條件概率最大似然估計,我們可以知道,相應的,當壹個新的樣本來臨時,有壹條記錄X,恰好不具備第I個特征(這是不是很不幸?不會),因為0概率的存在,那麽利用上面的貝葉斯公式,屬於某壹列的概率就會為0,但是這種情況應該避免,那麽如何避免呢?

當我們對條件概率進行極大似然估計時,我們對分子和分母做壹些小的改變。

其中,代表第I個特征的不同值的個數為one-hot,取值為2。所以乘法保證不同值對應的條件概率之和是1,不偏袒任何壹種情況,壹視同仁。

未完待續。

多項式樸素貝葉斯,假設P(X=x|Y=c_k)是多項式分布。在了解多項式樸素貝葉斯之前,什麽是多項式分布?

將壹元伯努利分布推廣到d維向量,其中,假設概率為,則得到離散分布:

其中x是D維向量的形式。在此基礎上,將二項分布推廣為多項式分布,描述n次獨立實驗中單詞出現的概率,其密度函數可表示為:

多項式分布的期望方差如下:

多項式分布應用於樸素貝葉斯。對於文檔分類,假設文檔生成模型是基於給定文檔類型的多項式分布。這種對應關系是:

需要註意的是,在應用於文本分類的多項式樸素貝葉斯模型之前,壹般的多項式條件概率如下:

我們的多項式樸素貝葉斯概率模型是:

為了方便起見,我們假設文章的長度和文章的類別沒有相關性(其實並不成立,比如相對較長的郵件比垃圾郵件更有可能是正常的),也就是說P(|x|)的分布和文章所屬的類別無關。另壹方面,因為文章所屬的類別是後驗概率最大的類別,所以我們可以取文章長度P(|x|)。

再者,為了更方便,我們通常取兩邊的對數運算,將冪運算轉化為線性運算:

我們也可以省略文章長度階乘,然後變成:

這就變成了線性運算,就像線性回歸壹樣,高效簡單。

文檔模型被映射到多項式分布以獲得多項式樸素貝葉斯。在我們做出假設分布之後,剩下的工作就是估計假設分布下每壹類的D條件概率和先驗分布。另外需要註意的是,多項式樸素貝葉斯模型采用詞袋模型,每個詞袋代表第I個特征出現的頻率,即詞頻$ term-frequency,有時可以用tf-idf作為值。

參數估計的過程也是樸素貝葉斯分類器的學習過程,最大似然估計可以用於參數估計。先驗概率的最大似然估計為

,k=1,2,...,K

其中I(x)是壹個指示函數,如果X為真,I(x)的結果是1,如果X為假,I(x)=0。用語言描述,這個概率等於N個樣本的數據集中樣本的比例。

條件概率的最大似然估計為:

用語言描述,條件概率等於T特征出現的總次數(考慮詞頻,不再是0,1)與帶類別的樣本集中總字數(文章長度、文章的詞特征固定,考慮詞頻之和)的比值。

為了便於理解,第T個特征在第K個樣本集中出現的總次數表示為第K個樣本在所有樣本中的總字數(第K個樣本的長度之和,考慮頻率),縮寫為:

類似於伯努利的樸素貝葉斯模型,可能存在某個維度,這個維度上的數據集為0,對應的是文檔分類,即該詞從未在所有文章中出現過(詞典選擇不好,特征選擇不好),這種情況會有概率為0。所以我們需要對條件概率做壹點改變:

其中d表示數據維數為d(有d個特征,每個特征相加保證概率和為1,需要乘以d)。當它為時,稱為拉普拉斯平滑,但也可以小於1。

待續

高斯樸素貝葉斯,假設P(X=x|Y=c_k)是多元高斯分布。在了解高斯樸素貝葉斯之前,什麽是高斯分布和多元高斯分布?

高斯分布又稱正態分布,在實際應用中應用最為廣泛。對於單變量,高斯分布有兩個參數,即均值和方差,其概率密度函數為

其中是D維均值向量,DxD的協方差矩陣和的行列式。多元高斯分布的期望是方差為。

特別地,如果D維相互獨立,多元高斯分布可以表示為單位高斯分布的概率密度函數的連積。

高斯樸素貝葉斯模型假設條件概率P(X=x|Y=c_k)是多元高斯分布。另壹方面,基於前面特征的條件獨立性假設,我們可以對每個特征的條件概率進行建模,每個特征的條件概率也服從高斯分布。

在類別下,第I個詞對應的高斯分布為:

其中,代表c類下第I個特征的均值和方差.

由於假設特征之間相互獨立,我們可以得到條件概率:

有d特征。

高斯樸素貝葉斯變成了:

知道了多元高斯分布之後,接下來的工作就是對參數進行估計、計算和求和。

先驗概率與前面的估計方法相同,不再贅述。主要是估計高斯分布的均值和方差,采用的方法仍然是最大似然估計。

均值的估計是樣本類別中所有樣本的平均值;

方差估計是樣本類別中的所有方差。

對於壹個連續的樣本值,可以通過引入高斯分布得到概率分布。

在估計完所有參數後,就可以計算出給定樣本的條件概率,進而確定樣本類別,完成模型預測。

  • 上一篇:跟自己較量
  • 下一篇:LED彩色顯示屏的工作原理
  • copyright 2024外匯行情大全網