使用 DNA 序列的映射来回答生物学问题
许多生物学问题可以转化为 DNA 测序问题。例如,如果你想知道基因的表达水平,你可以:将其 mRNA 复制到互补的 DNA 分子中,对每个产生的 DNA 分子进行测序,将这些序列映射回参考基因组,然后使用重叠的比对计数该基因作为其表达的代表(参见 RNA-seq )。其他示例包括:确定基因组的 3D 结构 ,定位组蛋白标记 ,以及映射 RNA-DNA 相互作用 。可以在此处找到通过巧妙的 DNA 测序方法解决的不是最新的生物学问题列表。
通常情况下,湿实验室的科学家(穿着白大褂和护目镜的人)将设计并进行实验以获得测序的 DNA 样本。然后,生物信息学家(使用计算机和喝咖啡的人)将这些序列 - 编码为 FASTQ 文件 - 并将它们映射到参考基因组,将结果保存为 BAM 文件 。
回到我们的基因表达示例,这就是生物信息学家如何从 FASTQ 文件(使用 Linux 系统)生成 BAM 文件:
STAR --genomeDir path/to/reference/genome --outSAMtype BAM --readFilesIn my_reads.fastq
其中 STAR 是剪接耐受的对准器(对于可能存在于 mRNA 上的外显子 - 内含子连接是必需的)。
PS:获得映射结果后,创意部分开始。在这里,生物信息学家设计了统计测试,以检查数据是否显示出生物学上有意义的模式或由噪声产生的虚假信号。