當前位置:外匯行情大全網 - 期貨行情 - 全基因組選擇的模式摘要(重印)

全基因組選擇的模式摘要(重印)

在介紹GS模型之前,我們有必要了解壹下混合線性模型(MLM)。混合線性模型是方差分量模型。既然是線性模型,就說明變量之間的關系是線性的。可以應用疊加原理,即幾個不同的輸入同時作用於系統的響應,等於幾個輸入單獨作用的響應之和(公式1)。

由於它是壹個混合效果模型,所以它同時包含固定效果和隨機效果。所謂固定效應,就是所有可能的等級或水平都是已知的、可觀察的,比如性別、年齡、品種等。所謂隨機效應,是指從總體中隨機抽取樣本時可能達到的水平,是不確定的,如個體加性效應和母體效應(公式2)。

其中y是觀測向量;β是固定效應向量;μ是隨機效應向量,服從正態分布μ ~ n (0,g),均值向量為0,方差協方差矩陣為g;x是固定效應的關聯矩陣;z是隨機效應的關聯矩陣;?是壹個隨機誤差向量,它的元素不需要獨立且同分布,也就是說。~ N(0,R).同時假設Cov(G,R)=0,即G與R不相關,y的方差協方差矩陣變為var (y) = zgz+R,如果Zμ不存在,則為固定效應模型。如果Xβ不存在,則為隨機效應模型。

在傳統的線性模型中,響應變量除了線性關系外,還有正態性、獨立性和方差齊性的假設。混合線性模型不僅保留了傳統線性模型中表型正態分布的假設,而且不要求獨立性和方差齊性,從而擴大了應用範圍,在基因組選擇中得到了廣泛的應用。

很久以前,C.R.Henderson在理論上提出了最佳線性無偏預測(BLUP)的統計方法,但由於計算技術的滯後,其應用受到了限制。直到20世紀70年代中期,計算機技術的發展使得BLUP在育種中的應用成為可能。BLUP結合了最小二乘法的優點。當協方差矩陣已知時,BLUP是分析動植物育種目標性狀的理想方法。其名稱和含義如下:

在混合線性模型中,BLUP是隨機效應中隨機因子的預測,Blue(最佳線性無偏估計)是固定效應中固定因子的估計。在同壹個方程組中可以估計固定效應和預測隨機遺傳效應。

BLUP方法最初應用於動物育種。傳統的動物模型是基於血統信息來求解混合模型方程(MME),因此被稱為ABLUP。亨德森提議的MME如下:

其中x是固定效應矩陣,z是隨機效應矩陣,y是觀測矩陣。其中r和g:

其中a是遺傳關系矩陣,所以可轉換公式為:

它可以進壹步轉化為:

公式中,x、y、z矩陣均已知,可計算出親屬關系A -1的逆矩陣,k值計算如下:

通過解方程,計算殘差和加性方差的方差分量,可以得到固定因子效應值(藍色)和隨機因子效應值(BLUP)。

作為傳統的BLUP方法,ABLUP基於系譜信息構建遺傳關系矩陣,進而獲得育種值。這種方法在早期動物育種中應用廣泛,但現在已不單獨使用。

2008年,VanRaden提出了基於G矩陣的GBLUP(基因組最佳線性無偏預測)方法,G矩陣由所有SNP標記構成,公式如下:

式中,p i代表基因座I的最小等位基因頻率,z代表個體基因型矩陣。

GBLUP通過基於系譜信息構建基因組關系矩陣G,而不是遺傳關系矩陣A,直接估計個體育種值。

GBLUP的求解過程不同於傳統的BLUP方法,只是構造了G矩陣。除了VanRaden的基因組關系之外,還有其他構造G矩陣的方法,但以VanRaden提出的方法應用最為廣泛。例如,楊等人提出用權重計算G矩陣:

基於Goddard等人提出的譜系a矩陣計算g矩陣;

目前,GBLUP已廣泛應用於動植物育種中,因其高效性和魯棒性仍備受青睞。GBLUP假設所有標記對G矩陣的作用相同,但在實際基因組中,只有少數標記起主要作用,大多數標記的作用都很小,因此GBLUP還有很大的改進空間。

在動物育種中,由於各種原因,大量有系譜記錄和表型信息的個體沒有基因型。單步GBLUP (ssGBLUP)是解決育種群體中無基因型個體和有基因型個體的基因組育種值估計問題。

SsGBLUP結合了傳統的BLUP和GBLUP,即基於家系信息整合遺傳關系矩陣A和基因組關系矩陣G建立新的關系矩陣H,從而同時估計有基因型和無基因型個體的育種值。

h矩陣的構造方法:

式中,A和G分別為A矩陣和G矩陣,下標1和2分別為無基因型個體和有基因型個體。由於G是奇異矩陣,不可能求逆,VanRaden提出將G定義為G w = (1-w)G+wA 22,則H逆矩陣可轉化為:

其中w為權重因子,即多基因遺傳效應的比例。

構造H矩陣後,求解MME的過程與傳統的BLUP相同:

SsBLUP通常比GBLUP更準確,因為基因分型個體包含譜系記錄和表型數據。這種方法已經成為動物育種中最常用的動物模型之壹。在植物育種中,往往缺乏全面的系譜信息,群體中個體的基因型容易確定,因此壹直沒有得到推廣。

如果將GBLUP中構建的協變量的關系矩陣替換為SNP標記組成的關系矩陣,構建模型,然後對個體進行預測,這就是RRBLUP(嶺回歸最佳線性無偏預測)的思想。

為什麽不用最小二乘法呢?最小二乘法假設標記效應為固定效應,將所有SNP分段回歸,然後將每個分段中顯著的SNP效應相加,得到個體基因組育種值。這種方法只考慮少數顯著SNPs的影響,容易導致多重共線性和過擬合。

RRBLUP是壹種改進的最小二乘法,可以估計所有SNP的效應值。該方法假設標記效應是隨機的且服從正態分布,用線性混合模型估計每個標記的效應值,然後將每個標記效應相加得到個體估計育種值。

壹般來說,基因型數據中標記的數量遠大於樣本的數量(p & gt& gtn).RRBLUP以標簽為單位計算,運行時間比GBLUP長,精度相當。(PS:這種情況在各個國家都在慢慢改變,尤其是美國,有400多萬的牛芯片數據,所以可能是未來的發展方向之壹)

GBLUP是直接法的代表。它以個體為隨機效應,以參考群體和預測群體構建的遺傳關系矩陣為方差協方差矩陣,通過叠代法估計方差分量,然後求解混合模型得到待預測個體的估計育種值。RRBLUP是間接法的代表,先計算每個標記的效應值,然後累加效應值,再得出育種值。下圖比較了這兩種方法的異同:

直接法估計,間接法估計標記效應的總和m。當K=M'M,標記效應g服從獨立正態分布(如上圖所示)時,兩種方法估計的育種值相同,即=M。

基於BLUP理論的基因組選擇方法假設所有標記的遺傳方差相同,但實際上只有少數SNP在全基因組有效並與影響性狀的QTL連鎖,大多數SNP無效。當我們假設標記效應的方差是先驗分布時,模型就變成了貝葉斯方法。常見的貝葉斯方法也是Meuwissen(即提出GS的人)提出的,主要有貝葉斯、貝葉斯、貝葉斯、貝葉斯、貝葉斯拉索等。

BayesA假設每個SNP都有效應且服從正態分布,效應的方差服從標度逆卡方分布。BayesA方法預設了兩個遺傳參數,自由度V和尺度參數s,將Gibbs抽樣引入馬爾可夫鏈蒙特卡羅理論(MCMC)計算標記效應。

BayesB假設少數SNP有效,效應方差服從逆卡方分布,而大部分SNP沒有效應(符合全基因組實際情況)。BayesBBian方法對標記效應方差的先驗分布使用混合分布,難以構造標記效應和方差的完全條件後驗分布,因此Bayes使用Gibbs和MH(Metropolis-Hastings)抽樣對標記效應和方差進行聯合抽樣。

BayesB方法在運算過程中引入了壹個參數π。假設標記效應方差為零的概率為π,服從逆卡方分布的概率為1-π。當π為1時,所有的SNP都有效應,即等價於BayesA。當遺傳變異受少數影響較大的QTL控制時,BayesB法具有較高的準確性。

BayesB中的參數π是人為設定的,會給結果帶來主觀影響。貝葉斯、貝葉斯π、貝葉斯π等方法用於優化貝葉斯。BayesC方法以π為未知參數,假設其服從U(0,1)的均勻分布,並假設有效SNP的效應方差不同。BayesCπ方法在Bayes的基礎上假設SNP效應的方差相同,用Gibbs抽樣求解。BayesDπ法用於計算未知參數π和標度參數S,假設S的先驗分布和後驗分布都服從(1,1)分布,我們可以直接從後驗分布中抽樣。

下圖形象地說明了不同方法標註效果的方差分布:

貝葉斯拉索(最小絕對收縮和選擇算子)假設標簽效應的方差服從指數分布的正態分布,即拉普拉斯分布。Bayes和Bayes的區別在於標記效應服從不同的分布,Bayes假設標記效應服從正態分布。拉普拉斯分布可以允許最大值或最小值以更大的概率出現。

從以上貝葉斯方法可以看出,貝葉斯方法的重點和難點在於如何對超參數的先驗分布做出合理的假設。

貝葉斯模型往往比BLUP方法有更多的待估計參數,提高了預測精度,也帶來了更多的計算量。MCMC需要數萬次叠代,每次叠代都需要重新評估所有的標記效果值。這壹過程是連續的、非並行的,消耗大量的計算時間,限制了其在時效性要求強的動植物育種實踐中的應用。

為了提高運算的速度和精度,許多學者對Bayes方法中的先驗假設和參數進行了優化,提出了fastBayesA、BayesSSVS、fBayesB、emBayesR、EBL、BayesRS、BayesTA等。但目前最常用的貝葉斯方法就是上面這幾種。

各種模型的預測精度很大程度上取決於其模型假設是否適合預測表型的遺傳構建。壹般來說,參數調整後的貝葉斯方法精度略高於BLUP方法,但運算速度和穩健性不如BLUP。所以要根據自己的需求權衡利弊,做出合理的選擇。(PS:動物育種中,實際生產中使用BLUP法)

除了基於BLUP和貝葉斯理論的參數求解方法,基因組選擇還包括半參數(如RKHS,見下壹篇)和非參數方法,如機器學習(Machine Learning,ML)。機器學習是人工智能的壹個分支,它專註於通過將高度靈活的算法應用於觀察到的個體的已知屬性(特征)和結果(標記數據),來預測未觀察到的個體(未標記數據)的結果。結果可以是連續的、分類的或二進制的。在動植物育種中,標記的數據對應的是具有基因型和表型的訓練群體,未標記的數據對應的是測試群體,用於預測的特征是SNP基因型。

與傳統的統計方法相比,機器學習方法有許多優點:

支持向量機(SVM)是壹種典型的非參數方法,屬於監督學習方法。它不僅可以解決分類問題,還可以用於回歸分析。基於結構風險最小化的原則,SVM考慮到了模型擬合和訓練樣本的復雜性,尤其是在我們對自己的人口數據了解不夠的情況下。SVM可能是基因組預測的另壹種方法。

SVM的基本思想是求解能正確劃分訓練數據集且幾何區間最大的分離超平面。在支持向量回歸(SVR)中,通常用近似誤差來代替最優分離超平面和支持向量之間的差值,如SVM。假設ε是不敏感區的線性損失函數,當測量值和預測值小於ε時,誤差等於零。SVR的目標是最小化經驗風險和權重的平方範數。也就是說,通過最小化經驗風險來估計超平面。

下圖1比較了SVM回歸(圖A)和分類(圖B)之間的差異。其中,ξ和ξ *是松弛變量,c是用戶定義的常數,w是權重向量範數。表示特征空間映射。

SVM用於預測分析時,高維的大數據集給計算帶來極大的復雜性,核函數的應用可以大大簡化內積,從而解決維數災難。因此,核函數的選擇(需要考慮訓練樣本的分布特征)是SVM預測的關鍵。目前最常用的核函數有線性核函數、高斯核函數(RBF)和多項式核函數。其中,RBF具有廣泛的適應性,可以應用於任何分布的訓練樣本(具有合適的寬度參數)。雖然它有時會導致過擬合問題,但它仍然是使用最廣泛的核函數。

集成學習也是機器學習中最常見的算法之壹。它通過壹系列的學習者進行學習,用壹些規則來整合學習結果,從而獲得比單個學習者更好的結果。通俗地說,就是壹堆弱學習者組合成壹個強學習者。在遺傳算法領域,隨機森林和梯度推進機是兩種廣泛使用的集成學習算法。

RF是壹種基於決策樹的集成方法,即包含多個決策樹的分類器。在基因組預測中,RF和SVM壹樣,既可以用作分類模型,也可以用作回歸模型。用於分類時,需要註意群體中的個體需要事先根據表型值進行劃分。射頻算法可分為以下步驟:

最後,RF會結合分類樹或回歸樹的輸出進行預測。在分類中,通過計算投票數(通常每個決策樹壹票)並指定投票數最高的類別來預測未觀察到的類別。在回歸中,ntree的輸出是平均的。

影響RF模型結果的重要因素有兩個:壹個是每個節點隨機抽樣的協變量個數(mtry,即SNP個數)。構建回歸樹時,mtry默認為p/3(p為預測的樹數),構建分類樹時,mtry為[圖片上傳失敗...(圖片-10f 515438+0612450396027)];第二是決策樹的數量。很多研究表明,樹並不是越多越好,構建樹也是非常耗時的。GS應用於植物育種時,RF的ntree通常設定在500-1000之間。

當GBM基於決策樹時,它是壹個梯度推進決策樹(GBDT ),像RF壹樣,包含多個決策樹。但是它們之間有很多不同之處。最大的區別在於,RF是基於bagging算法的,這意味著它會對多個結果進行投票,或者簡單地計算平均值來選擇最終結果。GBDT基於boosting算法,通過在每壹步叠代中構造弱學習器來彌補原模型的不足。GBM通過設置不同的損失函數來處理各種學習任務。

盡管許多研究試圖將許多經典的機器學習算法應用於基因組預測,但改進的準確性仍然有限且耗時。在無數的機器學習算法中,沒有壹種方法能夠普遍提高可預測性,不同的應用及其優化方法和參數也是不同的。與經典的機器學習算法相比,深度學習(DL)可能是未來基因組預測的更好選擇。

傳統的機器學習算法,比如SVM,壹般都是淺層模型。除了輸入輸出層,深度學習還包含很多隱藏層,模型結構的深度解釋了其名字的含義。DL的本質是通過建立壹個具有很多隱含層和海量訓練數據的機器學習模型,學習更多有用的特征,從而最終提高分類或預測的準確率。DL算法的建模過程可以簡單地分為以下三個步驟:

在GS領域,有許多DL算法,包括多層感知器(MPL),卷積神經網絡(CNN)和遞歸神經網絡(RNN)。

MLP是壹種人工神經網絡(ANN)模型,它將多個輸入數據集映射到單個輸出數據集。MLP包括至少壹個隱藏層,如下圖2所示。除了壹個輸入層和壹個輸出層,它還包括四個隱藏層,每個隱藏層都與上壹層的節點相連,並被賦予不同的權重(w)。最後,通過激活函數變換將輸入映射到輸出端。

CNN是壹種具有卷積計算和深層結構的前饋神經網絡,通常具有表征學習能力,能夠根據其層次結構對輸入信息平移不變量進行分類。CNN的隱藏層包括三種類型:卷積層、池層和全連接層,每壹層都有不同的功能。比如卷積層的作用主要是提取輸入數據的特征,池層對卷積層特征提取後輸出的特征圖進行特征選擇和信息過濾,而全連通層類似於ANN中的隱層,壹般位於CNN的隱層。CNN的結構如下圖3所示。

需要註意的是,深度學習並不是壹切。使用DL的前提是要有足夠大且質量好的訓練數據集,而根據對動植物中GS的研究,壹些DL算法與傳統的基因組預測方法相比並沒有明顯的優勢。然而,有壹致的證據表明,DL算法可以更有效地捕捉非線性模式。因此,DL可以根據不同來源的數據,整合傳統GS模型進行輔助育種。總之,面對未來海量的育種數據,DL的應用會越來越重要。

以上是GS中常見的預測模型,不同的分類方法可能會有所不同。下面簡單介紹壹下上述但很重要的方法,有些是上述三種方法的擴展。

再生核希爾伯特空間(RKHS)是壹種典型的半參數方法。它使用高斯核函數來擬合以下模型:

其中α為多元正態分布,均值為0,協方差矩陣為K hσα2;ε ~ N(0,I Nσ2);K h是代表個體相關性的核函數,其中d ij是個體I和J根據基因型計算的歐氏距離的平方,平滑參數h定義為d ij均值的壹半。

RKHS模型可以在貝葉斯框架或混合線性模型中用Gibbs抽樣器求解。

GBLUP仍然是動植物育種中廣泛使用的方法,它假設所有的標記都具有相同的效果。然而,在實踐中,任何用於估計遺傳關系矩陣的與目標性狀無關的標記都會淡化QTL的作用。許多研究改進了它,主要是在幾個方面:

遵循上述思路,SBLUP(逐步排他關系BLUP下的親緣關系定居,Super Blup)方法進壹步將TABLUP細化為由少數基因控制的性狀,從而只使用與性狀相關的標記構建基因型關系矩陣。

如果要在親緣關系矩陣中考慮種群結構的影響,可以根據親緣關系的相似性對個體進行分組,然後用壓縮後的群體代替原來的個體作為協變量,群體中個體的親緣關系是相同的。因此,在構建基因組關系矩陣時,可以用群體的遺傳效應值代替個體值,用個體對應的群體進行預測,這就是cBLUP(壓縮BLUP)。

上述想法都提到了將已驗證的和新發現的遺址整合到模型中。這些網站是從哪裏來的?最常見的來源自然是全基因組關聯研究。GS和GWAS之間有壹種天然的聯系。將GWAS的顯著關聯位點納入GS具有保持多代預測能力的直接益處和增加驗證突變數量的間接益處。

下圖比較了GWAS輔助基因組預測的各種方法。a代表分子標記輔助選擇(MAS),僅使用幾個主要位點;b代表經典的GS法,使用所有標記,標記效果相同;c .根據權重分配分數;d .將顯著關聯標記視為固定效應;e將顯著關聯標記視為另壹種隨機效應(有自己的核導出);f將染色體分成片段,每個片段構造的G矩陣被賦予不同的隨機效應。

GWAS輔助的基因組預測結果會更復雜,可能並不是單純考慮模型中的相關信號就能提高精度的。具體表現應該與性狀的基因構建有關。

GS有兩種不同的策略來估計遺傳效應。壹種是估計育種值,把加性效應從親本傳遞給後代。而非加性效應(如顯性和上位性效應)與特定基因型有關,不能直接遺傳。在估計方差分量時,非加性效應通常與隨機環境效應壹起被視為噪聲。另壹種策略關註加性和非加性效應,通常用於探索雜種優勢。雜種優勢壹般被認為是顯性效應和上位性效應共同作用的結果,所以如果非加性效應很明顯,而妳只是忽略它們,遺傳估計就會有偏差。

雜種優勢的利用是植物育種中的壹個重要研究課題,特別是在水稻和玉米等主要作物中。在GS模型中考慮非加性遺傳效應進行雜交預測也是作物育種中基因組預測的熱點問題之壹。

當然,雜種優勢效應的構成也因性狀而異,不同性狀的基因組預測需要結合雜種優勢QTL位點的鑒定。GCA(加性效應的反映)和SCA(非加性效應的反映)可能來自不同的遺傳效應,因此在預測雜種F 1時應分別考慮GCA和SCA。GCA模型可以GBLUP為基礎,側重於基因型遺傳關系矩陣的構建。SCA模型中有兩種方法:壹種是將雜合SNP位點的面板整合到GBLUP模型中作為固定效應;第二種是使用非線性模型,比如貝葉斯和機器學習方法。據報道,對於加性模型中的低遺傳力性狀,機器學習與壹般統計模型是壹致的。但在非加性模型中,機器學習方法表現更好。

傳統的GS模型往往只關註單壹環境下的單壹表型性狀,而忽略了實際情況下多個性狀或多個環境之間的關系。壹些研究還可以通過同時對多個性狀或多個環境建模來提高基因組預測的準確性。以多性狀(MT)模型為例,多變量模型(MV)可以由以下公式表示:

其中y = [y 1 T,y 2 T,…,y s T]T;b = [b 1 T,b 2 T,…,b s T]T;a = [a 1 T,a 2 T,…,a s T]T;ε = [ε 1 T,ε 2 T,…,ε s T] T,S代表S個性。非遺傳效應B是固定效應,加性效應A和殘差ε是隨機效應,它們服從多元正態分布:a ~ N(0,G a0?Gσ a 2),ε ~ N(0,R ε?I m σ ε 2),其中g是g矩陣,?是Kroneck矩陣的乘積,m是表型觀察數,I m是m×m單位矩陣,X和Z a分別是固定效應和隨機加性效應的相關矩陣。G a0和R ε的加性效應的協方差矩陣可表示為:

σ AI _ 2和σ ε I _ 2分別是第I個字符的可加性和殘差方差。ρ aij和ρ ij分別是I和J性狀相關的加性方差和殘差方差。

多性狀選擇壹般用於性狀在壹定程度上共享的遺傳構建,即它們是遺傳相關的。特別適用於低遺傳力性狀(與高遺傳力性狀相關)或難以計量的性狀。

作物的環境條件不像動物那麽容易控制,大部分性狀都是數量性狀,容易受環境影響。多環境實驗發揮了重要作用,而環境決定基因型(G × E)效應也是當前基因組選擇的焦點。

除了GBLUP,多元模型還可以基於貝葉斯框架的線性回歸或非線性機器學習方法。

我們知道,基因只有經過轉錄翻譯和壹系列調控才能最終體現在表型特征上,而且它只能在壹定程度上反映表型事件的潛在性。隨著多病理技術的發展,整合多病理數據進行基因組預測也是GS研究的壹個重要方向。

在植物育種中,除基因組外,轉錄組學和代謝組學是目前GS中研究相對較多的兩個基因組學。轉錄組預測基因表達與性狀的相關性,代謝組預測調節表型的小分子含量與性狀的相關性,可能會提高對某些特定性狀的預測能力。最好的方法是將各組的數據整合到模型中,但這樣會大大增加模型的復雜度。

表型判定的準確性直接影響模型的構建。對於壹些復雜的性狀,用肉眼觀察記錄顯然不可取,而且表型調查費時費力,成本很高。因此,高通規模集團也是GS發展的重要方向。表型的範疇很廣,當個體性狀無法簡單測量時,我們也可以用多組數據,如蛋白質組學、代謝組學等來代替。

考慮到成本效益,組學技術在動植物育種中還處於研究階段,但代表了未來的應用方向。

  • 上一篇:求BL小說
  • 下一篇:比特期貨燃料怎麽樣?
  • copyright 2024外匯行情大全網