Samtools用法百科全書

samtools是操作Sam和bam文件的工具集合(通常由bwa、bowtie2、hisat2、tophat2等短序列比較工具生成。，具體格式可以在消息框裏輸入“SAM”查看)，裏面包含了很多命令。以下是對常用命令的介紹。

1.視角

view命令的主要功能有:用bam文件交換sam文件；然後對bam文件進行各種操作，比如排序、提取數據(這些操作是在bam文件上進行的，所以當輸入是sam文件時不能進行這個操作)；最後，將排序或提取的數據輸出為bam或sam(默認)格式。

bam文件的優點:bam文件是二進制文件，比sam文本文件占用磁盤空間少；使用bam二進制文件操作速度快。

在view命令中，sam文件頭(序列ID)的輸入(-t或-T)和輸出(-h)由單獨的參數控制。

用法:samtools視圖[選項]& lt；in.bam & gt| & ltin.sam & gt[region1 [...]]

默認情況下，如果不添加區域，將輸出所有區域。

選項:

-b輸出BAM

？默認情況下，輸出是SAM格式文件。此參數設置輸出BAM格式。

the SAM輸出的打印標題

？默認情況下，輸出sam格式文件沒有標題。此參數設置sam文件輸出時的標題信息。

-H僅打印頁眉(無對齊)

？只輸出文件的頭

-S的輸入是SAM

？默認情況下，輸入是壹個BAM文件。如果輸入的是SAM文件，最好加上這個參數，否則有時會出錯。

-u未壓縮的BAM輸出(force -b)

？這個參數的使用需要壹個-b參數，這樣可以節省時間，但是需要更多的磁盤空間。

-c不打印對齊，只對它們進行計數並打印

？總數。所有過濾器選項，如'-f '，'-F '和'-q '，？都被考慮在內。

？過濾工作的統計功能

-c僅打印匹配記錄的計數

-L檔？輸出對齊與輸入BED文件重疊[空]

-t檔？引用名稱和長度列表(強制)[空]

？使用列表文件作為標題的輸入。

-T檔？參考序列文件(force-S)[空]

？使用序列fasta文件作為頭的輸入。

-o檔？輸出文件名[stdout]

-F INT？篩選標誌，0表示未設置[0]

？跳過與INT [0]中的位對齊

？數字4表示該序列與參考序列沒有比對。

？數字8表示該序列的配對序列與參考序列沒有比對。

？過濾功能。例如，F12僅過濾雙端貼圖。

-q INT？最低映射質量[0]

壹般來說，比較的最低質量值是20，表示唯壹比較。您可以將它與上面提到的-bF參數結合使用，以提取特定的比較結果。

示例:

將sam文件轉換為bam文件

samtools視圖-bS ABC . Sam & gt；abc.bam

砰的壹聲，山姆

samtools視圖-h -o out.sam out.bam

提取與參考序列相比較的比較結果

samtools視圖-bf4 ABC . bam & gt；abc。F.bam

為了提取兩對成對讀數都與參考序列比對的比較結果，只需要使用4+8，12這兩個值作為過濾參數。

samtools視圖-bF 12 ABC . bam & gt；abc。F12.bam

提取與參考序列不匹配的比較結果。

samtools視圖-bf4 ABC . bam & gt；abc.f.bam

將比較結果從bam文件提取到caffold1，並以sam文件格式保存。

samtools視圖ABC . bam scaffold 1 & gt；腳手架1.sam

在腳手架1上提取可對比30k到100k的對比結果。

samtools查看ABC . bam scaffold 1:30000-100000 $ gt；腳手架1_30k-100k.sam

根據fasta文件，給sam或bam文件添加頭。

Sam tools view-T genome . fasta-h scaffold 1 . Sam & gt；腳手架1.h.sam

2.分類

排序對bam文件進行排序。有些軟件需要sort的bam或sam文件，比如stringtie，所以必須使用sort。求深度的時候，也要排序；；

用法:Sam tools sort[-n][-m & lt；maxMem & gt]& lt；in.bam & gt& ltout.prefix & gt？

默認情況下，-m內存參數是500，000，000或500M(不支持k、m和g等縮寫)。處理大數據時，如果內存足夠，設置較大的值可以節省時間。

-n將排序方法設置為按短讀取的ID排序。默認情況下，它是按照fasta文件中的序列(即頭)和序列的位置從左到右排序的。

示例:

Samtools排序accept.bamaccept.sort最終生成accept.sort.bam

3 .合並

將兩個或更多已排序的bam文件合並為壹個bam文件。合並後的文件已經排序。

用法:？Sam tools merge[-NR][-h inh . Sam]& lt；out.bam & gt& ltin 1 . bam & gt；& ltin2.bam & gt[...]

選項:-n？按閱讀名稱排序

-r？附加RG標簽(從文件名推斷)

-妳呢？未壓縮的BAM輸出

-f？如果存在，覆蓋輸出BAM

-1 ?壓縮級別1

-R街？合並指定區域中的文件STR [all]

-h檔？將文件中的標題復制到& ltout.bam & gt[in1.bam]

示例:

4 .索引

默認情況下，必須先對Bam文件進行排序，然後才能對其進行索引。否則，您將報告壹個錯誤。

索引後，帶後綴的文件。將生成bai進行快速隨機處理。很多情況下都需要Bai文件，尤其是在序列比對的情況下。比如需要samtool的tview命令；Gbrowse2在顯示讀取的比較圖時也需要它。還需要IGV顯示器比較。

用法:samtools index & ltin.bam & gt[out.index]

示例:

以下兩個命令具有相同的結果。

$ samtools index abc.sort.bam

$ Sam tools index ABC . sort . bam ABC . sort . bam . Bai

5.faidx

索引fasta文件，生成的索引文件以。fai後綴。這個命令也可以根據索引文件從fasta文件中快速提取壹個(子)序列。

用法:samtools faidx & ltin.bam & gt[ [...]]

索引基因組文件以便於提取序列。

示例:$ samtools faidx genome.fasta

因為有了索引文件，fasta格式的子序列可以通過使用下面的命令從基因組中快速提取出來。

$ Sam tools faidx genome . fasta SCF fold _ 10 & gt；scaffold_10.fasta

6 .查看

Tview可以直觀地展示reads如何與genome進行比較，類似於genome browser。

妳需要事先使用上面提到的排序和索引命令，然後使用下面的命令。

用法:samtools tview & ltaln.bam & gt[參考fasta]

當顯示參考基因組時，參考基因組的序列將顯示在第壹行，否則，第壹行將全部用n表示。

按G，會提示妳輸入基因組中的某個位點。示例“scaffold_10:1000”表示第壹個

1000腳手架第1000基面。

使用h(左)j(上)k(下)l(右)移動顯示界面。大寫字母移動快，小寫字母移動慢。

用空格鍵快速左移(類似L)，用退格鍵快速左移(類似H)。

Ctrl+H向左移動1kb基距；Ctrl+L向右移動1kb基本距離。

可以用顏色來標記比較質量、堿基質量、核苷酸等。30 ~ 40的基礎質量或比較質量用白色表示；

20 ~ 30黃色；10 ~ 20綠色；0 ~ 10藍色。

使用點“.”切換底和點的顯示；使用r開關顯示已讀姓名等。

還有很多其他的說明，根據具體？查看鍵。

7.flagstat

給出了BAM文件的比較結果。

用法:samtools flagstat & ltin.bam & gt

$ samtools flagstat示例. bam

總共11945742+0(QC通過的讀數+ QC失敗的讀數)

#總* * *閱讀數

0 + 0個副本

7536364 + 0已映射(63.09%:-nan%)

#讀取的整體匹配率

11945742 + 0配對測序

#有多少次讀取屬於成對讀取？

5972871 + 0 read1

#reads1讀取次數

5972871 + 0 read2

#reads2中的讀取次數

6412042 + 0正確配對(53.68%:nan %)

#完全匹配的讀數數目:匹配相同的參考序列，並且兩個讀數之間的距離滿足設定的閾值。

6899708 + 0及其自身和配對映射

#成對讀數中兩者都與參考序列匹配的讀數數。

636656 + 0單態(5.33%:-nan%)

#與參考序列匹配的單個讀數，加上前壹個讀數，就是匹配的讀數總數。

469868 + 0，mate映射到不同的chr

#paired reads，兩對分別與兩個不同的參考序列匹配的閱讀次數。

243047 + 0，mate映射到不同的chr(mapQ & gt；=5)

#同上，僅比較質量>；讀取次數=5

8 .深度

獲取每個堿基位點的測序深度，並將其輸出到標準輸出，因此將其附加到壹個帶有大於號的文件中。

用法:bam 2 depth[-r reg][-Q baseQthres][-Q mapq thres][-b in . bed]& lt；in 1 . bam & gt；[...]

-r後跟染色體編號(區域)

-q:計算深度時需要測序基礎質量的最低質量值。

-Q:計算深度時需要比較的最小質量值。

註:samtools索引；必須在深度之前完成；

例子

samtools深度accept.bam & gt深度

9.其他訂單

Reheader:替換bam文件的頭。

$ samtools reheader & ltin . header . Sam & gt；& ltin.bam & gt

Idxstats:統計壹個有4列的表，即“序列名稱，序列長度，比較的讀取數，未映射的讀取數”。第四列應該是配對閱讀的壹端可以匹配支架，而另壹端不匹配任何支架上的閱讀數。

$ samtools idxstats & ltaln.bam & gt

Rmdup:刪除PCR重復獲得的讀數，僅保留具有最高比對質量的讀數。

用法:？samtools rmdup [-sS]？

-s到單端讀取。默認情況下，僅用於成對端讀取。

-S將成對端讀取視為單端讀取。

10.將bam文件轉換為fastq文件

有時，我們需要提取與參考序列匹配的讀數，並進行小規模分析以方便調試等等。這時候就需要把bam或者sam文件轉換成fastq格式。

該網站提供了壹個將bam轉換為fastq的程序:http://www . hudsonalpha . org/GSL/information/software/bam 2 fatq。

$ wget http://www . hudsonalpha . org/GSL/static/software/bam 2 fastq-1.1.0 . tgz

$ tar zxf bam 2 fastq-1.1.0 . tgz

$ cd bam2fastq-1.1.0

$ make

$ ./ba m2 fastq & lt；in.bam & gt

11.mpileup

Samtools還有壹個非常重要的命令mpileup，以前叫pileup。該命令用於生成bcf文件，然後使用bcftools分析SNP和Indel。Bcftools是samtools中包含的軟件，可以在SamTools的安裝文件夾中找到。

最常用的參數是2:

-f輸入索引文件的fasta引用序列；-g輸出到bcf格式。用法和最簡單的例子如下

用法:Sam tools mpileup[-EBug][-C capQcoef][-r reg][-f in . fa][-l list][-M capMapQ][-Q minBaseQ][-Q minMapQ]in . bam[in2 . bam[...]]$ Sam tools mpileup-f genome . fasta ABC . bam & gt；abc.txt

$ Sam tools mpileup-gSDf genome . fasta ABC . bam & gt；abc.bcf

$ Sam tools mpileup-guSDf genome . fasta ABC . bam | \

？bcftools視圖-cvNg-& gt；abc.vcf

當mpileup不使用-u或-g參數時，它不會生成二進制bcf文件，而是生成壹個文本文件(輸出到標準輸出)。文本文件統計參考序列中每個堿基位點的比對；該文件的每壹行代表參考序列中壹個基站點的比較結果。例如:

腳手架_1？2841 A？11 ?,,,...,....BHIGDGIJ？消防

腳手架_1？2842 C？12 ?,$,,...,....^i. cfgeggcff+

腳手架_1？2843 G？11 ?,,...,.....FDDDDCD？DD+

腳手架_1？2844 G？11 ?,,...,.....法？AAAA<AA+

腳手架_1？2845 G？11 ?,,...,.....f 65666166 *

腳手架_1？2846 A？11 ?,,...,.....(1.1111)11*

腳手架_1？2847 A？11 ?，，+9acggtgaag。+9ACGGTGAAT。+9ACGGTGAAG。+9ACGGTGAAG，+9acggtgaag。+9ACGGTGAAG。+9ACGGTGAAG。+9ACGGTGAAG。+9ACGGTGAAG。+9ACGGTGAAG？%.+....-..)

腳手架_1？2848 N？11 ?agGGGgGGGGG！！$!！！！！！！！

腳手架_1？2849 A？11 ?加元，...,.....！0000000000

腳手架_1？2850 A？10 ?,...,.....？353333333

mpileup生成的結果包含6行:引用序列名稱；位置；參考基數；比較時讀取數字；比較；比較基礎的質量。第五列更復雜，解釋如下:

1'.'代表與參考序列的正鏈匹配。

2 '，'代表與參考序列的負鏈匹配。

3‘atcgn’代表正鏈上的錯配。

4“atcgn”表示負鏈上的不匹配。

5' * '代表模糊基數。

“6”表示匹配的堿基是讀取的開始；ascii碼後跟“”減33表示比較質量；這兩個符號修飾下面的堿基，而堿基(。，ATCGatcgNn)表示讀取的第壹個堿基。

7' $ '代表壹次讀取的結束，這個符號修改它之前的堿基。

8正則公式“\+[0-9]+[ACGTNacgtn]+”表示在此位點後插入的堿基；例如，在上面的例子中，在scaffold_1的2847之後插入了9個堿基acggtgaag。指示這很可能是在del中。

9正則式'-[0-9]+[ACGTNacgtn]+'表示此位點後刪除的壹個堿基；

使用bcftools。

Bcftools類似於samtools，用於處理vcf(變體調用格式)文件和bcf(二進制調用格式)文件。前者是文本文件，後者是其二進制文件。

Bcftools很容易使用。主命令是view命令，後面是index和cat等命令。index和cat命令類似於samtools中的命令。這裏，說話者使用view命令進行SNP和Indel調用。該命令的用法和示例如下:

$ bcftools視圖[-AbFGNQSucgv][-D seq dict][-l list loci][-s list sample]

？[-I gapSNPratio][-t mu rate][-P varThres][-P prior]

？[-1n group 1][-d min frac][-U nPerm][-X perm thres]

？[-T trioType]in . BCF[區域]

$ BCF tools view-cvNg ABC . BCF & gt；snp_indel.vcf

生成的結果文件為vcf格式，有10列，即:1引用序列名稱；2瓦裏安蒂所在的最左側位置；3變量的ID(默認不設置，用“.”表示));4等位基因；參考序列的；variant的等位基因(如果有多個等位基因，用'，')分隔)；6變體/參考質量；應用了7個過濾器；8個變體信息，用分號分隔；基因型字段的9種格式，用冒號分隔(可選)；10樣本基因型和每個樣本的信息(可選).

例如:

腳手架_1？2847 .？答？AACGGTGAAG？194 .？因德爾；DP = 11；VDB = 0.0401；af 1 = 1；AC 1 = 2；DP4=0，0，8，3；MQ = 35FQ=-67.5？GQ 1/1:235，33，0:63

腳手架_1？3908 .？g？答？111 .？DP = 13；VDB = 0.0085；af 1 = 1；AC 1 = 2；DP4=0，0，5，7；MQ = 42FQ=-63？GT:PL:GQ 1/1:144，36，0:69

腳手架_1？4500 .？答？g？31.5 .？DP = 8；VDB = 0.0034；af 1 = 1；AC 1 = 2；DP4=0，0，1，3；MQ = 42FQ =-39 GT:PL:GQ 1/1:6412，0:21

腳手架_1？4581 .？TGGNGG？TGG 145。？因德爾；DP = 8；VDB = 0.0308；af 1 = 1；AC 1 = 2；DP4=0，0，0，8；MQ = 42FQ =-58.5 GT:PL:GQ 1/1:186，24，0:45

腳手架_1？4644 .？g？答？195 .？DP = 21；VDB = 0.0198；af 1 = 1；AC 1 = 2；DP4=0，0，10，10；MQ = 42FQ =-87 GT:PL:GQ 1/1:228，60，0:99

腳手架_1？4827 .？NACAAAGA NA？4.42 .？因德爾；DP = 1；af 1 = 1；AC 1 = 2；DP4=0，0，1，0；MQ = 40FQ=-37.5？GT:PL:GQ 0/1:40，3，0:3

腳手架_1？4854 .？答？g？48 ?。？DP = 6；VDB = 0.0085；af 1 = 1；AC 1 = 2；DP4=0，0，2，1；MQ = 41；FQ =-36 GT:PL:GQ 1/1:80，9，0:16

腳手架_1？5120 .？答？g？85 ?。？DP = 8；VDB = 0.0355；af 1 = 1；AC 1 = 2；DP4=0，0，5，3；MQ = 42FQ =-51 GT:PL:GQ 1/1:11824，0:45

第8列顯示了變體的信息描述，這是更重要的。標簽的描述如下:

標簽格式描述

AF1第壹個ALT等位基因的位點等位基因頻率(AF)的雙最大似然估計

DP int原始讀取深度(無質量過濾)

DP4 int[4] #高質量參考正向基準、參考反向基準、替代和替代反向基準

FQ國際共識質量。陽性:樣本基因型不同；否定:否則

覆蓋讀取的MQ int均方根映射質量

PC2 int[2] Phred組1樣本的房顫概率大於(小於)組2

第1組和第2組樣本之間的PCHI2雙後驗加權chi^2 P值

PV4鏈偏差、堿基偏差、mapQ偏差和尾距偏差的雙[4] P值

整數比例PCHI2

RP int #置換產生較小的PCHI2

有和沒有三重/配對限制的基因型可能性的CLR int Phred對數比

沒有三元組約束的UGT弦最可能基因型構型

帶有trio約束的CGT字符串最可能的配置

使用bcftools得到變種調用的結果後。結果需要再次過濾。主要基於比較結果的第八列中的信息。其中DP4行尤為重要，提供了4個數據:1比對結果與正鏈壹致，2比對結果與負鏈壹致，3比對結果在正鏈變體上，4比對結果在負鏈變體上。您可以將(值3+值4)設置為大於某個閾值，這被視為壹個變量。例如:

$ perl -ne 'print $_ if /DP4=(\d+)，(\d+)，(\ d+)/& amp；& amp($3+$4)>= 10 & amp；& amp($3+$4)/($1+$2+$3+$4)>= 0.8 ' snp _ indel.vcf & gtsnp_indel.final.vcf

上一篇:濰坊緯金外匯是傳銷嗎

下一篇:為什麽蘇聯發動出口石油的競爭？

外匯中有個詞叫拿回是什麽意思

外匯太多怎麽處理？

中國建設銀行股份有限公司大石橋支行怎麽樣？

下列哪種動物屬於無脊椎動物()a .魚、蜜蜂、蠕蟲b .蝙蝠、烏龜、蝴蝶c .螃蟹、蚯蚓、鴿子d .水母、

外匯模擬賬戶提款

支付寶怎麽開？

大不了去哪裏買？