那么在做这些比较的过程当中,目前最常用的,对基因表达量进行相对定量的一个指标,就是RPKM值(Reads Per Kilobase of exon model perMillion mapped reads)

Untitled

比对到某个基因的外显子上的Read数,去除以这次所测到的、全部可以比对到基因组上的Read数是:这个基因所表达出来的mRNA,它所被测到的片段,来和所有被测到的、可以Mapping(比对)到基因组上的片段来进行比较。

“除以这个外显子的长度”:是因为建库过程当中,该RNA用镁离子溶液来处理,然后打断(并逆录)成若干个180-200BP左右的小片段,如果一个基因的长显子越长,那么它所产生的mRNA就越长,那么mRNA越长呐,被打出来的小片段就越多。目的:是修正这个mRNA长度所引起的mRNA的Read数的偏差。通过这种修正呐,能够还原出一个比较真实的、原始的表达拷贝数状态——我们来假设,一个A基因,它的mRNA的长度呐,假设它是1Kb,那么它的1Kb的mRNA可能被打成“5”个,200Bp左右的小片段;那么还有一个B基因,如果这个B基因的mRNA是2Kb长,那么,它同样被打成200Bp左右的小片段呐,它就会产生“10”个小片段。我们来看,A基因是5个小片段,而B基因是整整10个小片段,所以,B基因在测序过程当中,它被测到的概率就会比A基因整整大出去一倍。这就是我们为什么要把刚才第一项比出来的比值呐,然后再除以这个外显子的长度。