當前位置:外匯行情大全網 - 外匯開戶 - Samtools用法百科全書

Samtools用法百科全書

samtools是操作Sam和bam文件的工具集合(通常由bwa、bowtie2、hisat2、tophat2等短序列比較工具生成。,具體格式可以在消息框裏輸入“SAM”查看),裏面包含了很多命令。以下是對常用命令的介紹。

1.視角

view命令的主要功能有:用bam文件交換sam文件;然後對bam文件進行各種操作,比如排序、提取數據(這些操作是在bam文件上進行的,所以當輸入是sam文件時不能進行這個操作);最後,將排序或提取的數據輸出為bam或sam(默認)格式。

bam文件的優點:bam文件是二進制文件,比sam文本文件占用磁盤空間少;使用bam二進制文件操作速度快。

在view命令中,sam文件頭(序列ID)的輸入(-t或-T)和輸出(-h)由單獨的參數控制。

用法:samtools視圖[選項]& lt;in.bam & gt| & ltin.sam & gt[region1 [...]]

默認情況下,如果不添加區域,將輸出所有區域。

選項:

-b輸出BAM

?默認情況下,輸出是SAM格式文件。此參數設置輸出BAM格式。

the SAM輸出的打印標題

?默認情況下,輸出sam格式文件沒有標題。此參數設置sam文件輸出時的標題信息。

-H僅打印頁眉(無對齊)

?只輸出文件的頭

-S的輸入是SAM

?默認情況下,輸入是壹個BAM文件。如果輸入的是SAM文件,最好加上這個參數,否則有時會出錯。

-u未壓縮的BAM輸出(force -b)

?這個參數的使用需要壹個-b參數,這樣可以節省時間,但是需要更多的磁盤空間。

-c不打印對齊,只對它們進行計數並打印

?總數。所有過濾器選項,如'-f ','-F '和'-q ',?都被考慮在內。

?過濾工作的統計功能

-c僅打印匹配記錄的計數

-L檔?輸出對齊與輸入BED文件重疊[空]

-t檔?引用名稱和長度列表(強制)[空]

?使用列表文件作為標題的輸入。

-T檔?參考序列文件(force-S)[空]

?使用序列fasta文件作為頭的輸入。

-o檔?輸出文件名[stdout]

-F INT?篩選標誌,0表示未設置[0]

?跳過與INT [0]中的位對齊

?數字4表示該序列與參考序列沒有比對。

?數字8表示該序列的配對序列與參考序列沒有比對。

?過濾功能。例如,F12僅過濾雙端貼圖。

-q INT?最低映射質量[0]

壹般來說,比較的最低質量值是20,表示唯壹比較。您可以將它與上面提到的-bF參數結合使用,以提取特定的比較結果。

示例:

將sam文件轉換為bam文件

samtools視圖-bS ABC . Sam & gt;abc.bam

砰的壹聲,山姆

samtools視圖-h -o out.sam out.bam

提取與參考序列相比較的比較結果

samtools視圖-bf4 ABC . bam & gt;abc。F.bam

為了提取兩對成對讀數都與參考序列比對的比較結果,只需要使用4+8,12這兩個值作為過濾參數。

samtools視圖-bF 12 ABC . bam & gt;abc。F12.bam

提取與參考序列不匹配的比較結果。

samtools視圖-bf4 ABC . bam & gt;abc.f.bam

將比較結果從bam文件提取到caffold1,並以sam文件格式保存。

samtools視圖ABC . bam scaffold 1 & gt;腳手架1.sam

在腳手架1上提取可對比30k到100k的對比結果。

samtools查看ABC . bam scaffold 1:30000-100000 $ gt;腳手架1_30k-100k.sam

根據fasta文件,給sam或bam文件添加頭。

Sam tools view-T genome . fasta-h scaffold 1 . Sam & gt;腳手架1.h.sam

2.分類

排序對bam文件進行排序。有些軟件需要sort的bam或sam文件,比如stringtie,所以必須使用sort。求深度的時候,也要排序;;

用法:Sam tools sort[-n][-m & lt;maxMem & gt]& lt;in.bam & gt& ltout.prefix & gt?

默認情況下,-m內存參數是500,000,000或500M(不支持k、m和g等縮寫)。處理大數據時,如果內存足夠,設置較大的值可以節省時間。

-n將排序方法設置為按短讀取的ID排序。默認情況下,它是按照fasta文件中的序列(即頭)和序列的位置從左到右排序的。

示例:

Samtools排序accept.bamaccept.sort最終生成accept.sort.bam

3 .合並

將兩個或更多已排序的bam文件合並為壹個bam文件。合並後的文件已經排序。

用法:?Sam tools merge[-NR][-h inh . Sam]& lt;out.bam & gt& ltin 1 . bam & gt;& ltin2.bam & gt[...]

選項:-n?按閱讀名稱排序

-r?附加RG標簽(從文件名推斷)

-妳呢?未壓縮的BAM輸出

-f?如果存在,覆蓋輸出BAM

-1 ?壓縮級別1

-R街?合並指定區域中的文件STR [all]

-h檔?將文件中的標題復制到& ltout.bam & gt[in1.bam]

示例:

4 .索引

默認情況下,必須先對Bam文件進行排序,然後才能對其進行索引。否則,您將報告壹個錯誤。

索引後,帶後綴的文件。將生成bai進行快速隨機處理。很多情況下都需要Bai文件,尤其是在序列比對的情況下。比如需要samtool的tview命令;Gbrowse2在顯示讀取的比較圖時也需要它。還需要IGV顯示器比較。

用法:samtools index & ltin.bam & gt[out.index]

示例:

以下兩個命令具有相同的結果。

$ samtools index abc.sort.bam

$ Sam tools index ABC . sort . bam ABC . sort . bam . Bai

5.faidx

索引fasta文件,生成的索引文件以。fai後綴。這個命令也可以根據索引文件從fasta文件中快速提取壹個(子)序列。

用法:samtools faidx & ltin.bam & gt[ [...]]

索引基因組文件以便於提取序列。

示例:$ samtools faidx genome.fasta

因為有了索引文件,fasta格式的子序列可以通過使用下面的命令從基因組中快速提取出來。

$ Sam tools faidx genome . fasta SCF fold _ 10 & gt;scaffold_10.fasta

6 .查看

Tview可以直觀地展示reads如何與genome進行比較,類似於genome browser。

妳需要事先使用上面提到的排序和索引命令,然後使用下面的命令。

用法:samtools tview & ltaln.bam & gt[參考fasta]

當顯示參考基因組時,參考基因組的序列將顯示在第壹行,否則,第壹行將全部用n表示。

按G,會提示妳輸入基因組中的某個位點。示例“scaffold_10:1000”表示第壹個

1000腳手架第1000基面。

使用h(左)j(上)k(下)l(右)移動顯示界面。大寫字母移動快,小寫字母移動慢。

用空格鍵快速左移(類似L),用退格鍵快速左移(類似H)。

Ctrl+H向左移動1kb基距;Ctrl+L向右移動1kb基本距離。

可以用顏色來標記比較質量、堿基質量、核苷酸等。30 ~ 40的基礎質量或比較質量用白色表示;

20 ~ 30黃色;10 ~ 20綠色;0 ~ 10藍色。

使用點“.”切換底和點的顯示;使用r開關顯示已讀姓名等。

還有很多其他的說明,根據具體?查看鍵。

7.flagstat

給出了BAM文件的比較結果。

用法:samtools flagstat & ltin.bam & gt

$ samtools flagstat示例. bam

總共11945742+0(QC通過的讀數+ QC失敗的讀數)

#總* * *閱讀數

0 + 0個副本

7536364 + 0已映射(63.09%:-nan%)

#讀取的整體匹配率

11945742 + 0配對測序

#有多少次讀取屬於成對讀取?

5972871 + 0 read1

#reads1讀取次數

5972871 + 0 read2

#reads2中的讀取次數

6412042 + 0正確配對(53.68%:nan %)

#完全匹配的讀數數目:匹配相同的參考序列,並且兩個讀數之間的距離滿足設定的閾值。

6899708 + 0及其自身和配對映射

#成對讀數中兩者都與參考序列匹配的讀數數。

636656 + 0單態(5.33%:-nan%)

#與參考序列匹配的單個讀數,加上前壹個讀數,就是匹配的讀數總數。

469868 + 0,mate映射到不同的chr

#paired reads,兩對分別與兩個不同的參考序列匹配的閱讀次數。

243047 + 0,mate映射到不同的chr(mapQ & gt;=5)

#同上,僅比較質量>;讀取次數=5

8 .深度

獲取每個堿基位點的測序深度,並將其輸出到標準輸出,因此將其附加到壹個帶有大於號的文件中。

用法:bam 2 depth[-r reg][-Q baseQthres][-Q mapq thres][-b in . bed]& lt;in 1 . bam & gt;[...]

-r後跟染色體編號(區域)

-q:計算深度時需要測序基礎質量的最低質量值。

-Q:計算深度時需要比較的最小質量值。

註:samtools索引;必須在深度之前完成;

例子

samtools深度accept.bam & gt深度

9.其他訂單

Reheader:替換bam文件的頭。

$ samtools reheader & ltin . header . Sam & gt;& ltin.bam & gt

Idxstats:統計壹個有4列的表,即“序列名稱,序列長度,比較的讀取數,未映射的讀取數”。第四列應該是配對閱讀的壹端可以匹配支架,而另壹端不匹配任何支架上的閱讀數。

$ samtools idxstats & ltaln.bam & gt

Rmdup:刪除PCR重復獲得的讀數,僅保留具有最高比對質量的讀數。

用法:?samtools rmdup [-sS]?

-s到單端讀取。默認情況下,僅用於成對端讀取。

-S將成對端讀取視為單端讀取。

10.將bam文件轉換為fastq文件

有時,我們需要提取與參考序列匹配的讀數,並進行小規模分析以方便調試等等。這時候就需要把bam或者sam文件轉換成fastq格式。

該網站提供了壹個將bam轉換為fastq的程序:http://www . hudsonalpha . org/GSL/information/software/bam 2 fatq。

$ wget http://www . hudsonalpha . org/GSL/static/software/bam 2 fastq-1.1.0 . tgz

$ tar zxf bam 2 fastq-1.1.0 . tgz

$ cd bam2fastq-1.1.0

$ make

$ ./ba m2 fastq & lt;in.bam & gt

11.mpileup

Samtools還有壹個非常重要的命令mpileup,以前叫pileup。該命令用於生成bcf文件,然後使用bcftools分析SNP和Indel。Bcftools是samtools中包含的軟件,可以在SamTools的安裝文件夾中找到。

最常用的參數是2:

-f輸入索引文件的fasta引用序列;-g輸出到bcf格式。用法和最簡單的例子如下

用法:Sam tools mpileup[-EBug][-C capQcoef][-r reg][-f in . fa][-l list][-M capMapQ][-Q minBaseQ][-Q minMapQ]in . bam[in2 . bam[...]]$ Sam tools mpileup-f genome . fasta ABC . bam & gt;abc.txt

$ Sam tools mpileup-gSDf genome . fasta ABC . bam & gt;abc.bcf

$ Sam tools mpileup-guSDf genome . fasta ABC . bam | \

?bcftools視圖-cvNg-& gt;abc.vcf

當mpileup不使用-u或-g參數時,它不會生成二進制bcf文件,而是生成壹個文本文件(輸出到標準輸出)。文本文件統計參考序列中每個堿基位點的比對;該文件的每壹行代表參考序列中壹個基站點的比較結果。例如:

腳手架_1?2841 A?11 ?,,,...,....BHIGDGIJ?消防

腳手架_1?2842 C?12 ?,$,,...,....^i. cfgeggcff+

腳手架_1?2843 G?11 ?,,...,.....FDDDDCD?DD+

腳手架_1?2844 G?11 ?,,...,.....法?AAAA<AA+

腳手架_1?2845 G?11 ?,,...,.....f 65666166 *

腳手架_1?2846 A?11 ?,,...,.....(1.1111)11*

腳手架_1?2847 A?11 ?,,+9acggtgaag。+9ACGGTGAAT。+9ACGGTGAAG。+9ACGGTGAAG,+9acggtgaag。+9ACGGTGAAG。+9ACGGTGAAG。+9ACGGTGAAG。+9ACGGTGAAG。+9ACGGTGAAG?%.+....-..)

腳手架_1?2848 N?11 ?agGGGgGGGGG!!$!!!!!!!!

腳手架_1?2849 A?11 ?加元,...,.....!0000000000

腳手架_1?2850 A?10 ?,...,.....?353333333

mpileup生成的結果包含6行:引用序列名稱;位置;參考基數;比較時讀取數字;比較;比較基礎的質量。第五列更復雜,解釋如下:

1'.'代表與參考序列的正鏈匹配。

2 ','代表與參考序列的負鏈匹配。

3‘atcgn’代表正鏈上的錯配。

4“atcgn”表示負鏈上的不匹配。

5' * '代表模糊基數。

“6”表示匹配的堿基是讀取的開始;ascii碼後跟“”減33表示比較質量;這兩個符號修飾下面的堿基,而堿基(。,ATCGatcgNn)表示讀取的第壹個堿基。

7' $ '代表壹次讀取的結束,這個符號修改它之前的堿基。

8正則公式“\+[0-9]+[ACGTNacgtn]+”表示在此位點後插入的堿基;例如,在上面的例子中,在scaffold_1的2847之後插入了9個堿基acggtgaag。指示這很可能是在del中。

9正則式'-[0-9]+[ACGTNacgtn]+'表示此位點後刪除的壹個堿基;

使用bcftools。

Bcftools類似於samtools,用於處理vcf(變體調用格式)文件和bcf(二進制調用格式)文件。前者是文本文件,後者是其二進制文件。

Bcftools很容易使用。主命令是view命令,後面是index和cat等命令。index和cat命令類似於samtools中的命令。這裏,說話者使用view命令進行SNP和Indel調用。該命令的用法和示例如下:

$ bcftools視圖[-AbFGNQSucgv][-D seq dict][-l list loci][-s list sample]

?[-I gapSNPratio][-t mu rate][-P varThres][-P prior]

?[-1n group 1][-d min frac][-U nPerm][-X perm thres]

?[-T trioType]in . BCF[區域]

$ BCF tools view-cvNg ABC . BCF & gt;snp_indel.vcf

生成的結果文件為vcf格式,有10列,即:1引用序列名稱;2瓦裏安蒂所在的最左側位置;3變量的ID(默認不設置,用“.”表示));4等位基因;參考序列的;variant的等位基因(如果有多個等位基因,用',')分隔);6變體/參考質量;應用了7個過濾器;8個變體信息,用分號分隔;基因型字段的9種格式,用冒號分隔(可選);10樣本基因型和每個樣本的信息(可選).

例如:

腳手架_1?2847 .?答?AACGGTGAAG?194 .?因德爾;DP = 11;VDB = 0.0401;af 1 = 1;AC 1 = 2;DP4=0,0,8,3;MQ = 35FQ=-67.5?GQ 1/1:235,33,0:63

腳手架_1?3908 .?g?答?111 .?DP = 13;VDB = 0.0085;af 1 = 1;AC 1 = 2;DP4=0,0,5,7;MQ = 42FQ=-63?GT:PL:GQ 1/1:144,36,0:69

腳手架_1?4500 .?答?g?31.5 .?DP = 8;VDB = 0.0034;af 1 = 1;AC 1 = 2;DP4=0,0,1,3;MQ = 42FQ =-39 GT:PL:GQ 1/1:6412,0:21

腳手架_1?4581 .?TGGNGG?TGG 145。?因德爾;DP = 8;VDB = 0.0308;af 1 = 1;AC 1 = 2;DP4=0,0,0,8;MQ = 42FQ =-58.5 GT:PL:GQ 1/1:186,24,0:45

腳手架_1?4644 .?g?答?195 .?DP = 21;VDB = 0.0198;af 1 = 1;AC 1 = 2;DP4=0,0,10,10;MQ = 42FQ =-87 GT:PL:GQ 1/1:228,60,0:99

腳手架_1?4827 .?NACAAAGA NA?4.42 .?因德爾;DP = 1;af 1 = 1;AC 1 = 2;DP4=0,0,1,0;MQ = 40FQ=-37.5?GT:PL:GQ 0/1:40,3,0:3

腳手架_1?4854 .?答?g?48 ?。?DP = 6;VDB = 0.0085;af 1 = 1;AC 1 = 2;DP4=0,0,2,1;MQ = 41;FQ =-36 GT:PL:GQ 1/1:80,9,0:16

腳手架_1?5120 .?答?g?85 ?。?DP = 8;VDB = 0.0355;af 1 = 1;AC 1 = 2;DP4=0,0,5,3;MQ = 42FQ =-51 GT:PL:GQ 1/1:11824,0:45

第8列顯示了變體的信息描述,這是更重要的。標簽的描述如下:

標簽格式描述

AF1第壹個ALT等位基因的位點等位基因頻率(AF)的雙最大似然估計

DP int原始讀取深度(無質量過濾)

DP4 int[4] #高質量參考正向基準、參考反向基準、替代和替代反向基準

FQ國際共識質量。陽性:樣本基因型不同;否定:否則

覆蓋讀取的MQ int均方根映射質量

PC2 int[2] Phred組1樣本的房顫概率大於(小於)組2

第1組和第2組樣本之間的PCHI2雙後驗加權chi^2 P值

PV4鏈偏差、堿基偏差、mapQ偏差和尾距偏差的雙[4] P值

整數比例PCHI2

RP int #置換產生較小的PCHI2

有和沒有三重/配對限制的基因型可能性的CLR int Phred對數比

沒有三元組約束的UGT弦最可能基因型構型

帶有trio約束的CGT字符串最可能的配置

使用bcftools得到變種調用的結果後。結果需要再次過濾。主要基於比較結果的第八列中的信息。其中DP4行尤為重要,提供了4個數據:1比對結果與正鏈壹致,2比對結果與負鏈壹致,3比對結果在正鏈變體上,4比對結果在負鏈變體上。您可以將(值3+值4)設置為大於某個閾值,這被視為壹個變量。例如:

$ perl -ne 'print $_ if /DP4=(\d+),(\d+),(\ d+)/& amp;& amp($3+$4)>= 10 & amp;& amp($3+$4)/($1+$2+$3+$4)>= 0.8 ' snp _ indel.vcf & gtsnp_indel.final.vcf

  • 上一篇:濰坊緯金外匯是傳銷嗎
  • 下一篇:為什麽蘇聯發動出口石油的競爭?
  • copyright 2024外匯行情大全網