QTL 聊一聊 QTL 定位的原理

通过“本地化适应是如何发生的”的前两周和“突变影响个体适应性吗？了解了群体中核酸的多样性后，我们就开始定位功能基因。锋利的工具很管用。在我们可以自由选择各种实验设计之前，我们需要了解各种方法的基本原理。先说连锁分析。

1.链分析的基本原理

由于群体中存在多样性，我们希望找到与性状相关的基因。在前面的文章中，我们提到了功能基因作图的方法主要包括QTL作图(包括GWAS)和群体遗传(选择性压力分析)。这里的QTL映射是广义的QTL映射，包括经典的连锁分析和关联分析。这里先介绍一下链条定位的方法和原理。

连锁分析的本质，称为“连锁分析”，是利用功能基因与分子标记之间的连锁和重组来定位功能基因的位置。

比如下图，Q基因型会导致个体变高，Q基因型会导致个体变矮。我们可以看到相邻的Bb位点与Qq位点相连。B总是和Q连锁，导致B基因型的个体总是更高，对应B基因型的个体更矮。然而，远离Qq位点的Ee位点没有这种现象。因为它们彼此相距较远，没有必然的连锁关系(它们倾向于自由重组)，所以我们可以看到E位点对应的既有高的个体，也有矮的个体。

在实际研究中，这些分子标记ABCDE都是已知位置的标记，但我们不知道Qq位点的位置。如果我们通过数学方法发现Bb和Cc位点与性状的身高有关，而其他位点则没有，那么我们就可以确定功能基因Qq位于Bb和Cc之间。

为了创造这样一个基因型分离的人工群体，我们经常需要使用杂交(两个不同亲本杂交)的策略。《Younger》上一篇微信文章《遗传图谱各种图谱群介绍》中介绍了各种图谱群的来源，感兴趣的读者可以再看看。

图1与功能基因的连锁和自由组合

2.最简单的连锁分析方法

如上所述，我们需要找出哪些分子标记与性状相关联，并进一步推断影响性状的功能基因与这种分子标记相关联，从而判断功能基因位于分子标记附近。统计上可以用最简单的方差分析，也可以实现这个推断。

如图2所示，我们可以根据bb基因座基因型将整个群体分为BB基因型群体和Bb基因型群体。如果我们用方差分析证明bb亚群的平均身高显著高于BB，那么Bb基因座与性状有关。同样，我们会发现根据Ee基因座分类的两个亚组的平均身高没有差异。这样我们就可以推断，因为Bb基因座与性状有关，所以决定身高的基因座Qq应该位于Bb附近，从而实现了最初的QTL定位。

图2使用方差分析的单标签分析

3.稍微复杂一点的连锁分析方法

再看图1的示意图，我们能不能把它看成一个线性回归方程组:

身高= u+a * gt _ a+b * gt _ b+c * gt _ c+d * gt _ d+e * gt _ e。

#等式1

其中u为群体均值(即方程的截距)，系数A为一个基因座的遗传效应，GT_A为AA基因座的基因型，可能是aa，Aa，Aa，数学上可以用0，1，2代替。系数a，b，c，d，e都是待解变量。

如果求解这个多元线性方程组，我们会发现A，D，E都是0(效果为0)，而B，C则显著大于0，所以我们可以推断Bb，Cc基因座对身高有贡献。那么，它们为什么对身高有贡献呢？因为它们与功能基因相连，所以我们知道功能基因的初始位置。这是QTL区位的线性回归模型。

4.简单线性回归模型在实践中的应用

在实际情况中，上述方程可能面临自变量数量(标签数量)大于因变量数量(样本数量)的情况，因此无法准确得到该方程的唯一解。因此，多元线性回归方程通常简化为一元线性回归方程组。例如，对于Aa轨迹，我们可以构建如下方程组:

高度= u+A*GT_A+e #方程2

其中e为随机误差效应。然后，在这种情况下，对于五种不同的分子标记，等式1可以分解为等式2，从而逐一求解每个标记/间隔的效果。因为这只是一个简单的线性回归方程，所以求解起来非常简单快捷。

这是区间映射的基本原理，常用于连锁分析。

5.最广泛使用的线性回归模型

最广泛使用的线性回归模型是复合区间映射。单标记分析虽然效率高，但也可能带来误差，例如遗传背景不均匀可能给靶位效应的判断带来误差。

比如下图，个体A和个体b之间有三个QTL位点差异，假设红色基因型比棕色基因型能使个体身高增加10 cm。现在我想计算一下Marker1的效果。如果只考虑单个标记1的效果(使用等式2)，我们计算的最终结果是个体A 30 cm的身高优势来自于标记1的差异，所以标记1的效果被误算为30cm(高估)。

但如果用多元线性回归分析，将Marker2和Marker3整合到方程中，在方程中考虑它们的效应，对Marker1效应的估计会更准确(三个标记效应都是10 cm)。

图3目标QTL和背景QTL

在实践中，被忽略的背景标记效应会给单标记分析模型带来各种假阳性和假阴性，因此必须考虑背景标记效应。

然而，目前的高密度遗传图谱中有数百个标记。如上所述，如果将每个标记效果合并到方程中，则不能通过使用标准方法(方程1)来求解方程组。因此，在经典的复合区间映射定位中，采用了折中的方法，一般步骤如下:

a)使用单标记回归和逐步回归方法，从全基因组中筛选出几个(例如10个)效果最强的标记。

b)在计算某个标记(区间)的效果时，将其他区域效果最强的那些标记整合到方程中，如下面的方程:

高度= u+a * gt _ a+[b * gt _ b+...+k * gt _ k]+e

#等式3

方差3中，有11个未知变量(A~K标记的作用)，只要有足够的个体，这个方程还是可以解的。其中目标标记是a(我们期望计算它们的效果)。B~K是基因组其他区域最有效的标记。虽然我们暂时不关心它们的具体效果，但是把它们引入到方程中，会让我们更准确的估计A的效果。我们称B~K标记为协变，与我们没有直接关系，但对因变量(身高)的影响与自变量(A标记)相同。

所以一些同行公司用区间映射模型进行联动分析其实是错误的。对于数量性状，只有考虑协变量的模型(如复合区间映射)才是合理的方法。

6.其他一些重要的概念

LOD值:p值的概念略有不同。p值是在这个轨迹上没有QTL的概率。LOD=log10(L1/L0)，其中L1是这个轨迹有QTL的概率，L0是这个轨迹没有QTL的概率。如果LOD=3，这意味着QLT在这个位置的概率是无QTL的1000倍。

2-LOD置信区间:QTL定位的结果是染色体上LOD值变化的波形图(如下图)，QTL区域的LOD值会形成一个信号峰。理论上，功能基因位于信号最强的峰值(最大LOD值)附近。但功能基因通常只位于这个区间，不一定在峰值。离峰越远，LOD值越低，功能基因位于该位置的概率越低。

为了便于后续研究中候选基因的筛选，我们通常会设定一个范围来筛选候选基因。一般经验值将使用2-LOD置信区间。这个名词是指当LOD波动曲线从峰值最大值(Y轴)下降2时，对应的是遗传图谱上所跨越的区域(X轴)。2-LOD置信区间大概对应99.8%的置信区间，也就是功能基因有99.8%的概率落入这个区域。

1-LOD置信区间是一个类似的概念，对应的置信区间约为97%。