宮頸癌的判斷方法及系統與流程

文檔序號:18145650發布日期:2019-07-10 11:47

本發明涉及宮頸癌的判斷方法及系統。



背景技術:

宮頸癌是最常見的婦科腫瘤之一,其發病率呈逐年升高的趨勢。在已知的眾多癌癥中,宮頸癌是唯一確定病因的惡性腫瘤,人類乳頭瘤病毒(HPV)高危型持續感染是導致宮頸癌發生的主要原因。宮頸癌是可通過常規手段早期診斷及預防的癌癥。目前宮頸癌診斷的主要方法有高危型HPV檢測和宮頸脫落細胞的細胞學檢查。

對高危型HPV的檢測方法主要有:實時熒光定量PCR法、第二代雜交捕獲法、酶切信號放大法等。

對宮頸脫落細胞的細胞學檢查主要有液基薄層細胞學檢測(Thin-Cytologic Test,TCT),其優點是無創性、對部分宮頸癌能做出較準確的判斷;缺點是靈敏性低,主觀性大,診斷出的不明意義的非典型鱗狀上皮細胞(ASC-US)和非典型腺細胞(AGC)仍較多。

本領域目前尚無依賴于高通量測序方法簡便快速地判斷患宮頸癌的風險的方法,而本發明填補了這一技術空白。



技術實現要素:

染色體不平衡是惡性腫瘤的特征之一,其是指相對于常見的二倍體基因組發生的基因組結構變異,可包括染色體數量的改變,如多倍體或單倍體;也包括染色體局部的改變,如拷貝數增加或拷貝數缺失等。目前尚無利用染色體不平衡來方便快捷地對宮頸癌進行診斷的方法。

本發明人發現,通過高通量測序可方便快捷地判斷某個染色體是否存在染色體不平衡,進而可對宮頸癌進行篩查、診斷或風險分級。

大體上,本發明提供判斷某個染色體是否存在染色體不平衡的方法、存儲有用于執行該方法的指令的計算機可讀介質、包括該計算機可讀介質的計算設備及包括該計算設備的系統,還提供對宮頸癌進行篩查、診斷或風險分級的方法、存儲有用于執行該方法的指令的計算機可讀介質、包括該計算機可讀介質的計算設備及包括該計算設備的系統。本發明還提供用于對宮頸癌進行篩查、診斷或風險分級的一組染色體,及用于檢測該組染色體的染色體不平衡的試劑在制備對宮頸癌進行篩查、診斷或風險分級的診斷劑中的用途,及用于檢測該組染色體的染色體不平衡的裝置在制備對宮頸癌進行篩查、診斷或風險分級的設備中的用途。

一方面,本發明提供判斷來自受試者(例如人)的樣品的第2、3、5、8、11、17和18號染色體中至少1條是否存在染色體不平衡(例如染色體長臂拷貝數與短臂拷貝數的差異是否高于或等于閾值,再如染色體長臂覆蓋度與短臂覆蓋度的差異是否高于或等于閾值)的方法。在上述方法的一個具體實施方式中,例如,可將來自受試者的樣品的第2、3、5、8、11、17和18號染色體中至少1條的染色體結構信息(例如測定染色體不平衡、染色體長臂拷貝數與短臂拷貝數的差異、或染色體長臂覆蓋度與短臂覆蓋度的差異所需的結構信息)與來自健康個體的相應染色體的染色體結構信息進行比較,以確定來自所述個體的樣品中上述染色體是否存在染色體不平衡。

本發明還提供確定染色體不平衡的方法,可包括:測定染色體長臂拷貝數與短臂拷貝數的差異,在染色體長臂拷貝數與短臂拷貝數的差異高于或等于閾值的情況下,判斷為存在染色體不平衡。

本發明還提供確定染色體不平衡的方法,可包括:測定染色體長臂覆蓋度與短臂覆蓋度的差異,在染色體長臂覆蓋度與短臂覆蓋度的差異高于或等于閾值的情況下,判斷為存在染色體不平衡。

在本發明的一個具體實施方式中,可通過以下方式判斷染色體不平衡:

將受試者(例如人)的全基因組數據序列(例如高通量測序技術獲得的全基因組數據序列)比對到同種受試者的參考基因組(例如人的參考基因組Hg19),并例如按照10~1000kb/段(優選50~800kb/段,更優選100~500kb/段,更優選150~300kb/段,最優選200kb/段),平均分成多個段(例如bin);

分別計算第i號染色體長臂覆蓋到的段(例如bin)的讀長(reads)的平均數(covChrip)和染色體短臂覆蓋到的段(例如bin)的讀長(reads)的平均數(covChriq);

根據以下公式,計算R值:

其中p代表長臂,q代表短臂,Chr為染色體(chromosome)的縮寫,i選自2、3、5、8、11、17和18。

在上述方法的另一實施方式中,可進一步基于上述人第i號染色體(Chri)的R值(RChri),根據以下公式2計算人第i號染色體(Chri)的Z分(ZChri):

其中,

μRChri是對應于健康群體的R值的平均值;

σRChri是對應于健康群體的R值的標準偏差。

在上述方法的一個具體實施方式中,所述i選自2、3、5和8,選自2、3、5、8和18,選自3、5和11,或者選自3、5、11、17和18。

在上述方法的一個具體實施方式中,在Z分的絕對值≥3的情況下,判斷為該第i號染色體有染色體不平衡;在Z分的絕對值<3的情況下,判斷為該第i號染色體無染色體不平衡。

在上述方法的一個具體實施方式中,所述方法可包括如下步驟:

(a)從宮頸細胞提取基因組DNA,對該基因組DNA進行片段化,及構建DNA片段文庫;

(b)對所構建的DNA片段文庫進行高通量測序而得到讀長(reads);

(c)將讀長(reads)比對到參考基因組,并例如按照10~1000kb/段(優選50~800kb/段,更優選100~500kb/段,更優選150~300kb/段,最優選200kb/段),平均分成多個段(例如bin);

(d)分別計算第i號染色體長臂覆蓋到的段(例如bin)的讀長(reads)的平均數(covChrip)和染色體短臂覆蓋到的段(例如bin)的讀長(reads)的平均數(covChriq);及

(e)根據以下公式計算人第i號染色體(Chri)的染色體結構信息,即R值(RChri):

其中p代表長臂,q代表短臂,Chr為染色體(chromosome)的縮寫,i選自2、3、5、8、11、17和18;

進一步基于上述人第i號染色體(Chri)的R值(RChri),根據以下公式2計算人第i號染色體(Chri)的Z分(ZChri):

其中,

μRChri是對應于健康群體的R值的平均值;

σRChri是對應于健康群體的R值的標準偏差,

其中所述i選自2、3、5和8,選自2、3、5、8和18,選自3、5和11,或者選自3、5、11、17和18,

其中,在Z分的絕對值≥3的情況下,判斷為該第i號染色體有染色體不平衡;在Z分的絕對值<3的情況下,判斷為該第i號染色體無染色體不平衡。

另一方面,本發明提供對宮頸癌進行篩查、診斷或風險分級的方法,所述方法可包括判斷來自受試者(例如人)的樣品的第2、3、5、8、11、17和18號染色體中至少1條是否存在染色體不平衡(例如染色體長臂拷貝數與短臂拷貝數的差異是否高于或等于閾值,再如染色體長臂覆蓋度與短臂覆蓋度的差異是否高于或等于閾值),例如,將來自受試者的樣品的第2、3、5、8、11、17和18號染色體中至少1條的染色體結構信息(例如測定染色體不平衡、染色體長臂拷貝數與短臂拷貝數的差異、或染色體長臂覆蓋度與短臂覆蓋度的差異所需的結構信息)與來自健康個體的相應染色體的染色體結構信息進行比較,以確定來自所述個體的樣品中上述染色體是否存在染色體不平衡,其中,在染色體不平衡(例如染色體長臂拷貝數與短臂拷貝數的差異高于或等于閾值,再如染色體長臂覆蓋度與短臂覆蓋度的差異高于或等于閾值)的情況下,判斷為受試者患有宮頸癌或者存在患宮頸癌的風險。

在上述對宮頸癌進行篩查、診斷或風險分級的方法的一個具體實施方式中,可通過以下方式判斷染色體不平衡:

將受試者(例如人)的全基因組數據序列(例如高通量測序技術獲得的全基因組數據序列)比對到參考基因組(例如人的參考基因組Hg19),并例如按照10~1000kb/段(優選50~800kb/段,更優選100~500kb/段,更優選150~300kb/段,最優選200kb/段),平均分成多個段(例如bin);

分別計算第i號染色體長臂覆蓋到的段(例如bin)的讀長(reads)的平均數(covChrip)和染色體短臂覆蓋到的段(例如bin)的讀長(reads)的平均數(covChriq);

根據以下公式,計算R值:

其中p代表長臂,q代表短臂,Chr為染色體(chromosome)的縮寫,i選自2、3、5、8、11、17和18。

在上述對宮頸癌進行篩查、診斷或風險分級的方法的另一實施方式中,可進一步基于上述人第i號染色體(Chri)的R值(RChri),根據以下公式2計算人第i號染色體(Chri)的Z分(ZChri):

其中,

μRChri是對應于健康群體(非宮頸疾病(宮頸炎除外)且非其他癌癥患者)的R值的平均值;

σRChri是對應于健康群體(非宮頸疾病(宮頸炎除外)且非其他癌癥患者)的R值的標準偏差,以及

任選地進一步基于上述Z分(ZChri),根據以下公式3計算C分(CScore):

在上述對宮頸癌進行篩查、診斷或風險分級的方法的一個具體實施方式中,其中所述i選自2、3、5和8,選自2、3、5、8和18,選自3、5和11,或者選自3、5、11、17和18。

在上述對宮頸癌進行篩查、診斷或風險分級的方法的一個具體實施方式中,在Z分的絕對值≥3的情況下,判斷為該第i號染色體有染色體不平衡;在Z分的絕對值<3的情況下,判斷為該第i號染色體無染色體不平衡。

在上述對宮頸癌進行篩查、診斷或風險分級的方法的一個具體實施方式中,所述方法可包括如下步驟:

(a)從宮頸細胞提取基因組DNA,對該基因組DNA進行片段化,及構建DNA片段文庫;

(b)對所構建的DNA片段文庫進行高通量測序而得到讀長(reads);

(c)將讀長(reads)比對到參考基因組,并例如按照10~1000kb/段(優選50~800kb/段,更優選100~500kb/段,更優選150~300kb/段,最優選200kb/段),平均分成多個段(例如bin);

(d)分別計算第i號染色體長臂覆蓋到的段(例如bin)的讀長(reads)的平均數(covChrip)和染色體短臂覆蓋到的段(例如bin)的讀長(reads)的平均數(covChriq);及

(e)根據以下公式計算人第i號染色體(Chri)的染色體結構信息,即R值(RChri):

其中,

其中p代表長臂,q代表短臂,Chr為染色體(chromosome)的縮寫,i選自2、3、5、8、11、17和18;

進一步基于上述人第i號染色體(Chri)的R值(RChri),根據以下公式2計算人第i號染色體(Chri)的Z分(ZChri):

其中,

μRChri是對應于健康群體的R值的平均值;

σRChri是對應于健康群體的R值的標準偏差;及

任選地進一步基于上述Z分(ZChri),根據以下公式3計算C分(CScore):

其中所述i選自2、3、5和8,選自2、3、5、8和18,選自3、5和11,或者選自3、5、11、17和18,

其中,在Z分的絕對值≥3的情況下,判斷為該第i號染色體有染色體不平衡;在Z分的絕對值<3的情況下,判斷為該第i號染色體無染色體不平衡。

再一方面,本發明提供計算機可讀介質,其上存儲有指令,其中當所述指令被處理器執行時,使得計算機執行以下操作:

判斷來自受試者(例如人)的樣品的第2、3、5、8、11、17和18號染色體中至少1條是否存在染色體不平衡(例如染色體長臂拷貝數與短臂拷貝數的差異是否高于或等于閾值,再如染色體長臂覆蓋度與短臂覆蓋度的差異是否高于或等于閾值),并任選地基于該判斷結果對宮頸癌進行篩查、診斷或風險分級;

例如,將來自受試者的樣品的第2、3、5、8、11、17和18號染色體中至少1條的染色體結構信息(例如測定染色體不平衡、染色體長臂拷貝數與短臂拷貝數的差異、或染色體長臂覆蓋度與短臂覆蓋度的差異所需的結構信息)與來自健康個體的相應染色體的染色體結構信息進行比較,以確定來自所述個體的樣品中上述染色體是否存在染色體不平衡,其中,在染色體不平衡(例如染色體長臂拷貝數與短臂拷貝數的差異高于或等于閾值,再如染色體長臂覆蓋度與短臂覆蓋度的差異高于或等于閾值)的情況下,判斷為受試者患有宮頸癌或者存在患宮頸癌的風險。

在上述計算機可讀介質中存儲的所述會被處理器執行的指令通過以下方式判斷染色體不平衡:

將受試者(例如人)的全基因組數據序列(例如高通量測序技術獲得的全基因組數據序列)比對到參考基因組(例如人的參考基因組Hg19),并例如按照10~1000kb/段(優選50~800kb/段,更優選100~500kb/段,更優選150~300kb/段,最優選200kb/段),平均分成多個段(例如bin);

分別計算第i號染色體長臂覆蓋到的段(例如bin)的讀長(reads)的平均數(covChrip)和染色體短臂覆蓋到的段(例如bin)的讀長(reads)的平均數(covChriq);

根據以下公式,計算R值:

其中p代表長臂,q代表短臂,Chr為染色體(chromosome)的縮寫,i選自2、3、5、8、11、17和18。

在上述計算機可讀介質的另一實施方式中,可進一步基于上述人第i號染色體(Chri)的R值(RChri),根據以下公式2計算人第i號染色體(Chri)的Z分(ZChri):

其中,

μRChri是對應于健康群體的R值的平均值;

σRChri是對應于健康群體的R值的標準偏差,以及

任選地進一步基于上述Z分(ZChri),根據以下公式3計算C分(CScore):

在上述計算機可讀介質的一個具體實施方式中,所述i選自2、3、5和8,選自2、3、5、8和18,選自3、5和11,或者選自3、5、11、17和18。

在上述計算機可讀介質的一個具體實施方式中,其中在Z分的絕對值≥3的情況下,判斷為該第i號染色體有染色體不平衡;在Z分的絕對值<3的情況下,判斷為該第i號染色體無染色體不平衡;而

當滿足以下條件之一時,判斷為受試者患宮頸癌的風險高:

Z分的絕對值≥3;或者

C分>0;

當滿足以下條件之一時,判斷為受試者患宮頸癌的風險低:

Z分的絕對值<3;或者

C分=0。

再一方面,本發明提供計算設備,其可包括:上述計算機可讀介質及處理器。

再一方面,本發明提供系統,其可包括:

上述計算設備、及

測序裝置,其用于接收來自試驗樣品的核酸以提供來自該樣品的核酸序列信息(例如,通過高通量測序技術獲得的核酸序列信息)。

在上述系統的一個具體實施方式中,所述測序裝置為高通量測序儀。

又一方面,本發明提供用于對宮頸癌進行篩查、診斷或風險分級的一組染色體,該組染色體包含第2、3、5、8、11、17和18號染色體中至少1條。

在上述一組染色體的一個具體實施方式中,所述染色體為第2、3、5和8號染色體的組合,第2、3、5、8和18號染色體的組合,第3、5和11號染色體的組合,或者第3、5、11、17和18號染色體的組合。

又一方面,本發明提供檢測第2、3、5、8、11、17和18號染色體中至少1條的染色體不平衡(優選染色體長臂拷貝數與短臂拷貝數的差異,更優選染色體長臂覆蓋度與短臂覆蓋度的差異)的試劑在制備對宮頸癌進行篩查、診斷或風險分級的診斷劑中的用途。

又一方面,本發明涉及檢測第2、3、5、8、11、17和18號染色體中至少1條的染色體不平衡(優選染色體長臂拷貝數與短臂拷貝數的差異,更優選染色體長臂覆蓋度與短臂覆蓋度的差異)的裝置在制備對宮頸癌進行篩查、診斷或風險分級的設備中的用途。

【發明效果】

本發明通過高通量測序得以方便快捷地判斷某個染色體是否存在染色體不平衡,進而以高靈敏度、特異性和準確度及低漏診率和誤診率對宮頸癌進行篩查、診斷或風險分級。

【具體實施方式】

【定義】

在本發明的情景中,“宮頸癌”可包括任何類型的宮頸癌。本領域常見的宮頸癌類型可包括:鱗癌型(分為III級:I級為高分化鱗癌型,II級為中分化鱗癌型(非角化性大細胞型),III級為低分化鱗癌型(小細胞型))、腺癌型和腺鱗癌型(癌組織中含有腺癌型和鱗癌型兩種類型)等三種類型。在本發明的情景中,宮頸癌還可包括任何個體的宮頸癌。在一個實施方式中,所述個體選自人和非人哺乳動物。

在本發明的情景中,“宮頸細胞”可包括位于宮頸口或宮頸管內壁的任何部位的細胞及從可能發生病變的宮頸的任何部位脫落的細胞。在一個實施方式中,宮頸細胞是通過人工方式從自宮頸口或宮頸管內壁脫落的細胞,也稱為“宮頸脫落細胞”。

在本發明的情景中,“染色體”是指是細胞核中載有遺傳信息的物質,在顯微鏡下呈圓柱狀或桿狀,主要由DNA和蛋白質組成。從著絲粒到染色體兩端之間的部分稱為染色體臂,如果著絲粒不在染色體的中央,則可區分為長臂(p)和短臂(q)。兩臂的長度對于鑒別染色體是重要的。

在本發明的情景中,“染色體不平衡”是指相對于常見的二倍體基因組發生的基因組結構變異,可包括染色體數量的改變,如多倍體或單倍體;也包括染色體局部的改變,如染色體部分片段的擴增、缺失、插入或易位等。狹義的染色體不平衡則指非整倍性。在二倍體中,非整倍體變異有四種主要類型:(1)非整倍性缺體性:丟失一對同源染色體,即細胞的染色體數為2n-2;(2)非整倍性單體性:丟失單條染色體,即細胞的染色體數為2n-1;(3)非整倍性三體性:增加一條額外的染色體,即染色體組中有一條染色體具有三個拷貝。即細胞的染色體數為2n+1;(4)非整倍性四體性:增加一對額外的染色體,使染色體組中有一條染色體具有四個拷貝。即細胞的染色體數為2n+2。

在一個實施方式中,染色體結構信息是反映染色體拷貝數變異的結構信息。

在本發明的情景中,“DNA”即脫氧核糖核酸(Deoxyribonucleic acid)是染色體的主要組成成分,同時也是主要遺傳物質。

在本發明的情景中,“DNA片段文庫”是指樣品DNA片段經末端補齊、在5’端加一個磷酸集團、在3’端加一個腺嘌呤核苷酸(A),再在兩端連接接頭(Adapter)而得到的雙鏈DNA。

在本發明的情景中,“接頭(Adapter)”是指連接到樣品DNA片段兩端的固定序列,其中含有與測序芯片互補的序列部分、測序引物序列及樣本標簽(barcode)等。

在本發明的情景中,“樣本標簽(barcode)”是指在上述接頭(Adapter)內的約5~15bp、優選約6~12bp、更優選約7~10bp、最優選約8bp的用來區分不同樣本的標簽序列。

在本發明的情景中,“高通量測序(High-throughput sequencing)”(又被稱為下一代測序(Next-generation sequencing))是指能一次并行對幾十萬到幾百萬條DNA分子進行序列測定的測序技術。

在本發明的情景中,“讀長(reads)”是指通過高通量測序測得的DNA片段文庫中樣品DNA片段(減去文庫制備階段連接上去的序列后的片段)的序列及其長度。

在本發明的情景中,“序列比對”是指使讀長(reads)通過序列一致性原則對齊到參考基因組(例如人參考基因組)上。

在本發明的情景中,“參考基因組”是可從公共數據庫獲得的與樣品DNA同種生物的全基因組序列。在一個實施方式中,所述參考基因組是人或非人哺乳動物的參考基因組。在一個實施方式中,所述公共數據庫無特別限定。在優選的實施方式中,所述公共數據庫是NCBI的GenBank。

在本發明的情景中,“染色體覆蓋度”是指染色體長/短臂所有段(bin)的讀長(reads)數的平均值。

在本發明的情景中,“宮頸良性疾病個體”是指患宮頸良性疾病的個體,其中所述宮頸良性疾病含宮頸上皮內瘤變、宮頸良性腫瘤、宮頸囊腫等。

在本發明的情景中,“健康群體”是指非宮頸疾病(但宮頸炎除外)且非其他癌癥患者群體。在一個實施方式中,所述健康群體可包括宮頸炎群體。在一個實施方式中,所述群體是人或非人哺乳動物群體。在一個實施方式中,所述非人哺乳動物可包括牛、馬、豬、羊、狗、貓、猴、鼠等。

在本發明的情景中,“靈敏性”是指通過本發明的方法檢測出的陽性樣本占病理性診斷為宮頸癌的樣本數量的百分比。在醫學診斷中,靈敏性可通過如下公式表示,反映正確判斷患者的比率:

靈敏性=真陽性人數/(真陽性人數+假陰性人數)×100%。

簡言之,如果真陽性、假陽性、真陰性和假陰性分別以a、b、c、d來表示,則靈敏性、特異性、漏診率、誤診率和準確度的關系可如下所示。

表1

采用本方法篩查結果為陽性的病例數中,真陽性(a)表示病理診斷為患病(如患宮頸癌),同時本方法結果也為陽性的病例數;假陽性(b)表示病理診斷為無病(如非宮頸癌),同時本方法結果也為陽性的病例數;假陰性(c)表示病理診斷為患病(如患宮頸癌),本方法結果也為陰性的病例數;真陰性(d)表示病理診斷為無病(如非宮頸癌),同時本方法結果也為陰性的病例數。

靈敏性sen=a/(a+c);

特異性sep=d/(b+d);

漏診率=c/(a+c);

誤診率=b/(b+d);

準確度=(a+d)/(a+b+c+d)

如本領域技術人員所知曉,靈敏性和特異性的值越高越好;漏診率和誤診率值越低越好。

在本發明的情景中,“特異性”是指接受本方法檢測的受檢樣本得出陰性檢測結果的樣本占病理檢測診斷為非宮頸癌的樣本的百分比。在醫學診斷中,特異性可通過如下公式表示,反映正確判斷非患者的比率:

特異性=真陰性人數/(真陰性人數+假陽性人數)×100%。

在本發明的情景中,“漏診率”又稱假陰性率,是指在受檢群體中進行某疾病(如宮頸癌)的篩檢或診斷時,實際患病(如患宮頸癌)的受試者,而按本診斷方法及標準被定為非患者的百分率。在醫學診斷中,漏診率可通過如下公式表示:

漏診率=假陰性人數/(真陽性人數+假陰性人數)×100%。

在本發明的情景中,“誤診率”又稱假陽性率,是指在受檢群體中進行某疾病(如宮頸癌)的篩檢或診斷時,實際沒患病(如宮頸癌)的受試者,而按本診斷方法及標準被定為患者的百分率。在醫學診斷中,誤診率可通過如下公式表示:

誤診率=假陽性人數/(真陰性人數+假陽性人數)×100%。

在本發明的情景中,“約”表示偏差不超過所述特定數值或范圍的正負10%。

在本發明的情景中,除非另外明確定義,單數形式“一個”、“一種”以及“所述”包括復數形式的指代物。類似地,除非另外明確定義,詞語“或”旨在包括“和”。

【本發明的一個判斷流程】

在本發明的一個實施方式中,判斷某個染色體有染色體不平衡的與否及對宮頸癌進行篩查、診斷或風險分級的流程可包括:

(A)宮頸脫落細胞的采集;

(B)DNA提取、片段化及文庫構建,也即從采集到的宮頸脫落細胞提取基因組DNA,對該基因組DNA進行片段化,及構建DNA片段文庫;

(C)高通量測序,也即對所構建的DNA片段文庫進行高通量測序;

(D)序列比對,也即將經高通量測序測得的樣品DNA片段的序列(有效讀長(reads))比對到人參考基因組,并例如按照10~1000kb/段(優選50~800kb/段,更優選100~500kb/段,更優選150~300kb/段,最優選200kb/段),平均分成多個段(例如bin),分別計算第i號染色體長臂覆蓋到的段(例如bin)的讀長(reads)的平均數(covChrip)和染色體短臂覆蓋到的段(例如bin)的讀長(reads)的平均數(covChriq);及

(E)數據分析,也即基于第i號染色體長臂覆蓋到的段(例如bin)的讀長(reads)的平均數(covChrip)和染色體短臂覆蓋到的段(例如bin)的讀長(reads)的平均數(covChriq)的根據算法的運算值來判斷所述染色體是否存在染色體不平衡、及對宮頸癌進行篩查、診斷或風險分級。

接下來,依次說明上述(A)~(E)的過程。

【A.宮頸脫落細胞的采集】

在本發明中,可通過本領域常用的方法采集受試者的宮頸脫落細胞。在一個實施方式中,采集宮頸脫落細胞的方法可包括使用宮頸采樣器刷下子宮頸內壁及宮頸口細胞,并將宮頸采樣器刷浸入細胞保存液中,而使粘附在宮頸采樣器刷的刷頭上的宮頸脫落細胞游離到細胞保存液中而形成細胞混合液。通過對所述細胞混合液實施常規離心來分離得到其中的宮頸脫落細胞。

在本發明中,宮頸采樣器的型號和樣式無特別限定,只要能采集所需量的宮頸脫落細胞即可。在一個實施方式中,可采用任何可商購的宮頸采樣器。在一個實施方式中,可采用Hologic公司的ThinPrep一次性宮頸采樣器。

在本發明中,細胞保存液的組成無特別限定,只要能臨時保存宮頸脫落細胞即可。在一個實施方式中,可采用任何可商購的宮頸脫落細胞用細胞保存液,也可根據常規方法配制所述宮頸脫落細胞用細胞保存液。在一個實施方式中,可采用Hologic公司的ThinPrep細胞保存液作為宮頸脫落細胞的細胞保存液。

在本發明中,對宮頸脫落細胞混合液進行離心的力度和次數不特別限定,只要能實現宮頸脫落細胞的分離即可。在一個實施方式中,以1200~2000g、更優選1400~1800g、最優選1600g的離心力對宮頸脫落細胞混合液進行1~5次、優選2次的離心。

【B.DNA提取、片段化及文庫構建】

在本發明中,可采用任何本領域常規方法從宮頸脫落細胞提取基因組DNA。

在本發明中,可采用任何本領域常規方法對基因組DNA進行片段化及構建DNA片段文庫。在優選的實施方式中,采用任何可商購的試劑盒對基因組DNA進行片段化及構建DNA片段文庫。在一個實施方式中,采用Kapa公司的HyperPlus試劑盒對基因組DNA進行片段化及構建DNA片段文庫。在一個實施方式中,利用試劑盒對基因組DNA進行片段化及構建DNA片段文庫的過程可包括:

(i)對基因組DNA實施片段化(Fragmentation),由此得到小于800bp、優選100~600bp、更優選、100~500bp、更優選100~400bp、更優選100~300bp、更優選120~200bp、更優選150~180bp的DNA片段;

(ii)對得到的DNA片段實施末端修飾:

●將粘末端修復成平末端(End Repair),

●在經如上修復的DNA片段的5’端加一個磷酸集團,及

●在經如上修復的DNA片段的3’端加一個腺嘌呤核苷酸(A)(A-tailing);

(iii)在經如上修飾的DNA片段的末端連接接頭(Adapter)和樣本標簽(barcode),其中接頭(Adapter)的尺寸是100~200bp、優選100~150bp、更優選120bp;

(iv)片段大小選擇(Fragment Selection):對如上連接產物實施瓊脂糖凝膠電泳,選取片段大小為優選200~800bp、更優選200~700bp、更優選200~600bp、更優選200~500bp、更優選220~350bp、更優選280~320bp的條帶進行切膠回收,利用任何可商購的試劑盒回收正確連接接頭和樣本標簽的DNA片段(即DNA片段文庫);及(v)文庫擴增(Library Amplification):通過聚合酶鏈式反應(PCR)對如上正確連接接頭和樣本標簽的DNA片段進行擴增。

【C.高通量測序】

在本發明中,只要能實現對DNA片段文庫的高通量測序,對所采用的測序方法及儀器無特別限制。在一個實施方式中,采用可商購的測序儀對DNA片段文庫進行高通量測序。在一個實施方式中,可采用Illumina公司的測序儀、Apply Biosystems(ABI)公司的測序儀、Roche公司的測序儀、Helicos公司的測序儀、或Complete Genomics公司的測序儀對DNA片段文庫進行高通量測序。在優選的實施方式中,采用Illumina公司的測序儀對DNA片段文庫進行高通量測序。

在本發明中,在測序完成后,從測得的序列減去接頭(Adapter)和樣本標簽(barcode),并且去除噪音(如低質量區域)而得到樣品DNA片段的序列,即有效讀長(reads)。

【D.序列比對】

在本發明中,將有效讀長(reads)比對到人參考基因組的手段無特別限制,可采用任何本領域常規手段進行該序列比對。在一個實施方式中,可采用BWA-MEM軟件(http://bio-bwa.sourceforge.net)進行所述序列比對。

在本發明中,可將序列比對結果以每段(bin)任何合適的大小寫入任何合適的文件格式。在一個實施方式中,將序列比對結果以每段10~1000kb、50~500kb、優選100~300kb、更優選200kb的大小寫入多個例如*.bin(或*.bam)格式的文件。

在一個實施方式中,從所保存的諸多序列比對結果文件(例如,上述*.bin(或*.bam)文件)中選取人第i號染色體(Chri)的指定位置所覆蓋的多個序列比對結果文件(例如,上述*.bin(或*.bam)文件),并計算所選取的序列比對結果文件(例如,上述*.bin(或*.bam)文件)中比對到人參考基因組上的有效讀長(reads)的個數的平均數(covChri)。在一個實施方式中,所選取的人第i號染色體(Chri)的指定位置是人第i號染色體(Chri)的長臂和短臂,比對到人參考基因組的第i號染色體(Chri)的長臂上的有效讀長(reads)的個數的平均數用covChrip表示,比對到人參考基因組的第i號染色體(Chri)的短臂上的有效讀長(reads)的個數的平均數用covChriq表示。在一個實施方式中,i是2、3、5、8、11、17和18中的至少1個、至少2個、至少3個、至少4個、至少5個、至少6個或全部。在一個實施方式中,i選自2、3、5和8,選自2、3、5、8和18,選自3、5和11,或者選自3、5、11、17和18。在本發明中,計算比對到人參考基因組上的有效讀長(reads)的個數的平均數的手段無特別限制。

【E.數據分析】

在一個實施方式中,基于所述比對到人參考基因組的第i號染色體的指定位置上的讀長(reads)的個數的平均數根據下文說明的例示算法的運算值判斷所述染色體是否存在染色體不平衡、及對宮頸癌進行篩查、診斷或風險分級。在一個實施方式中,所述人第i號染色體(Chri)的指定位置是人第i號染色體(Chri)的長臂和短臂,比對到人參考基因組的第i號染色體(Chri)的長臂上的有效讀長(reads)的個數的平均數用covChrip表示,比對到人參考基因組的第i號染色體(Chri)的短臂上的有效讀長(reads)的個數的平均數用covChriq表示。在一個實施方式中,i是2、3、5、8、11、17和18中的至少1個、至少2個、至少3個、至少4個、至少5個、至少6個或全部。在一個實施方式中,i選自2、3、5和8,選自2、3、5、8和18,選自3、5和11,或者選自3、5、11、17和18。

(1)例示算法

在一個實施方式中,根據以下公式計算人第i號染色體(Chri)的R值(RChri):

其中p代表長臂,q代表短臂,Chr為染色體(chromosome)的縮寫,i選自2、3、5、8、11、17和18。

在一個實施方式中,基于上述人第i號染色體(Chri)的R值(RChri),根據以下公式2計算人第i號染色體(Chri)的Z分(ZChri):

其中,

μRChri是對應于健康群體(非宮頸疾病(宮頸炎除外)且非其他癌癥患者)的R值的平均值;

σRChri是對應于健康群體(非宮頸疾病(宮頸炎除外)且非其他癌癥患者)的R值的標準偏差。

在一個實施方式的另一個實施方式中,可進一步基于上述Z分(ZChri),根據以下公式3計算C分(CScore):

在一個實施方式中,i是2、3、5、8、11、17和18中的至少1個、至少2個、至少3個、至少4個、至少5個、至少6個或全部。在一個實施方式中,i選自2、3、5和8,選自2、3、5、8和18,選自3、5和11,或者選自3、5、11、17和18。

在本發明的情景中,有時也將上述“R值”、“Z分”和/或“C分”稱為“染色體平衡態分值”。在本發明的情景中,有時也將上述“C分”稱為“癌癥評分”。

(2)判斷標準

在一個實施方式中,根據上述例示算法,在Z分的絕對值≥3的情況下,判斷為該第i號染色體有染色體不平衡;在Z分的絕對值<3的情況下,判斷為該第i號染色體無染色體不平衡。

在一個實施方式中,根據上述例示算法,

當滿足以下條件之一時,判斷為受試者患宮頸癌的風險高:

Z分的絕對值≥3;或者

C分>0;

當滿足以下條件之一時,判斷為受試者患宮頸癌的風險低:

Z分的絕對值<3;或者

C分=0。

【對于本發明的方法的進一步說明】

在一個實施方式中,也可將本發明的方法與其他判斷某個染色體是否存在染色體不平衡的方法相組合。在一個實施方式中,也可將本發明的對宮頸癌進行篩查、診斷或風險分級的方法與其他診斷宮頸癌的方法組合。在一個實施方式中,所述其他診斷宮頸癌的方法可包括高危型HPV檢測和宮頸脫落細胞的細胞學檢查。在一個實施方式中,所述對高危型HPV的檢測方法可包括:形態學觀察法、免疫組化法、點雜交法、吸印原位雜交法、PCR/RFLP法、PCR/Southern法等。在一個實施方式中,所述對宮頸脫落細胞的細胞學檢查可包括薄層液基細胞學檢測(Thin-Cytologic Test,TCT)。

【實施例】

接下來,通過實施例進一步說明本發明,但本發明不限于這些實施例。

【實施例1:宮頸脫落細胞的采集】

在第1輪研究中,共有研究對象107名,其中包括:通過組織病理學方法被診斷為宮頸癌的患者40名,被診斷為宮頸良性疾病(含宮頸上皮內瘤變、宮頸良性腫瘤、宮頸囊腫等)的個體41名,作為對照的健康個體(非宮頸疾病(宮頸炎除外)且非其他癌癥個體)26名。

在第2輪研究中,共有研究對象167名,其中包括:通過組織病理學方法被診斷為宮頸癌的患者44名,被診斷為宮頸良性疾病(含宮頸上皮內瘤變、宮頸良性腫瘤、宮頸囊腫等)的個體69名,作為對照的健康個體(非宮頸疾病(宮頸炎除外)且非其他癌癥個體)54名。

在第3輪研究中,共有研究對象167名,其中包括:通過組織病理學方法被診斷為宮頸癌的患者42名,被診斷為宮頸良性疾病(含宮頸上皮內瘤變、宮頸良性腫瘤、宮頸囊腫等)的個體68名,作為對照的健康個體(非宮頸疾病(宮頸炎除外)且非其他癌癥個體)57名。

利用ThinPrep一次性宮頸采樣器(Hologic公司)的采樣刷在上述研究對象的子宮頸內壁順時針刷10圈,隨后將該采樣刷的刷頭浸入ThinPrep細胞保存液(Hologic公司)中,而使粘附在刷頭上的宮頸內壁脫落組織游離到細胞保存液中而形成組織混合液。通過對該組織混合液實施2次于1600g的離心來分離得到其中的宮頸脫落細胞。

【實施例2:DNA提取、片段化及文庫構建】

采用DNA提取試劑盒(Qiagen公司),根據該試劑盒自帶的操作流程,從如上采集到的宮頸脫落細胞提取基因組DNA。

使用HyperPlus試劑盒(Kapa公司),根據該試劑盒自帶的操作流程,對如上提取到的DNA進行片段化及文庫構建,具體過程包括:

(i)對基因組DNA實施片段化(Fragmentation),得到150~180bp的DNA片段;

(ii)對得到的DNA片段實施末端修飾:

●將粘末端修復成平末端(End Repair),

●在經如上修復的DNA片段的5’端加一個磷酸集團,及

●在經如上修復的DNA片段的3’端加一個腺嘌呤核苷酸(A)(A-tailing);

(iii)在經如上修飾的DNA片段的末端連接接頭(Adapter)和樣本標簽(barcode);

(iv)片段大小選擇(Fragment Selection):對如上連接產物實施瓊脂糖凝膠電泳,選取片段大小為280~320bp條帶(其中,樣品DNA片段的尺寸是150~180bp,接頭和樣本標簽的尺寸是120bp)進行切膠回收,利用QIAquick膠回收試劑盒(QIAGEN,28706)來回收正確連接接頭和樣本標簽的DNA片段(即DNA片段文庫);及

(v)文庫擴增(Library Amplification):通過聚合酶鏈式反應(PCR)對如上正確連接接頭和樣本標簽的DNA片段進行擴增。

【實施例3:高通量測序】

使用Illumina測序儀,對于在實施例2中得到的經擴增的DNA片段文庫,自該DNA片段文庫的一端或兩端開始進行測序,從測得的序列減去接頭(Adapter)和樣本標簽(barcode),并且去除噪音(如低質量區域)而得到樣品DNA片段的序列,即有效讀長(reads)。

【實施例4:序列比對】

(1)有效讀長(reads)與人參考基因組的比對

使用BWA-MEM軟件(http://bio-bwa.sourceforge.net),將實施例3中得到的有效讀長(reads)比對到人參考基因組,并將該比對結果以每段200kb的大小分別寫入多個*.bin(或*.bam)格式的文件中。

(2)對比對到人參考基因組的讀長(reads)的個數的計算

從(1)中得到諸多*.bin(或*.bam)文件中選取人第i號染色體(Chri)的長臂和短臂所覆蓋的多個*.bin(或*.bam)文件,并分別計算第i號染色體長臂覆蓋到的段(例如bin)的讀長(reads)的平均數(covChrip)和染色體短臂覆蓋到的段(例如bin)的讀長(reads)的平均數(covChriq)。

【實施例5:數據分析】

(1)算法

本實施例中所用的算法如下所示。

具體而言,根據以下公式計算人第i號染色體(Chri)的R值(RChri):

其中p代表長臂,q代表短臂,Chr為染色體(chromosome)的縮寫,其中

i選自2、3、5、8、11、17和18。

進一步基于上述人第i號染色體(Chri)的R值(RChri),根據以下公式2計算人第i號染色體(Chri)的Z分(ZChri):

其中,

μRChri是對應于26例健康群體(對照)的R值的平均值;

σRChri是對應于26例健康群體(對照)的R值的標準偏差,

其中

i選自2、3、5、8、11、17和18。

進一步基于上述Z分(ZChri),根據以下公式3計算C分(CScore):

其中

i選自2、3、5和8,選自2、3、5、8和18,選自3、5和11,或者選自3、5、11、17和18。

(2)判斷標準

在Z分的絕對值≥3的情況下,判斷為該第i號染色體有染色體不平衡;在Z分的絕對值<3的情況下,判斷為該第i號染色體無染色體不平衡。

當滿足以下條件之一時,判斷為受試者患宮頸癌的風險高:

Z分的絕對值≥3;或者

C分>0;

當滿足以下條件之一時,判斷為受試者患宮頸癌的風險低:

Z分的絕對值<3;或者

C分=0。

(3)計算結果

如在實施例1中所述,在第1輪研究中,共有研究對象107名,其中包括:通過組織病理學方法被診斷為宮頸癌的患者40名,被診斷為宮頸良性疾病(含宮頸上皮內瘤變、宮頸良性腫瘤、宮頸囊腫等)的個體41名(在下表2中用陰影表示),作為對照的健康個體(非宮頸疾病(宮頸炎除外)且非其他癌癥個體)26名。針對上述107名研究對象,通過本發明的方法檢測的結果如下表2所示。

表2:當i是2、3、5和8,或者是2、3、5、8和18時的從各樣品計算得出的Z分和C分、以及靈敏性、特異性、漏診率、誤診率和準確度

如在實施例1中所述,在第2輪研究中,共有研究對象167名,其中包括:通過組織病理學方法被診斷為宮頸癌的患者44名,被診斷為宮頸良性疾病(含宮頸上皮內瘤變、宮頸良性腫瘤、宮頸囊腫等)的個體69名(在下表3中用陰影表示),作為對照的健康個體(非宮頸疾病(宮頸炎除外)且非其他癌癥個體)54名。針對上述167名研究對象,通過本發明的方法檢測的結果如下表3所示。

表3:當i是2、3、5和8,或者是2、3、5、8和18時的從各樣品計算得出的Z分和C分、以及靈敏性、特異性、漏診率、誤診率和準確度

如在實施例1中所述,在第3輪研究中,共有研究對象167名,其中包括:通過組織病理學方法被診斷為宮頸癌的患者42名,被診斷為宮頸良性疾病(含宮頸上皮內瘤變、宮頸良性腫瘤、宮頸囊腫等)的個體68名(在下表4中用陰影表示),作為對照的健康個體(非宮頸疾病(宮頸炎除外)且非其他癌癥個體)57名。針對上述167名研究對象,通過本發明的方法檢測的結果如下表4所示。

表4:當i是3、5和11,或者是3、5、11、17和18時的從各樣品計算得出的Z分和C分、以及靈敏性、特異性、漏診率、誤診率和準確度

【結論】

通過計算從受試者的宮頸脫落細胞提取的選自2、3、5和8號染色體的一個或多個、選自2、3、5、8和18號染色體的一個或多個染色體、選自3、5和11號染色體的一個或多個、或者選自3、5、11、17和18號染色體的一個或多個染色體的DNA的R值,并基于該R值進一步算出Z分和C分,可基于所述Z分和C分簡便快捷地判斷受試者的某個染色體有染色體不平衡、進而以高靈敏度、特異性和準確度及低漏診率和誤診率對宮頸癌進行篩查、診斷或風險分級。

盡管本發明的具體實施方式已經得到詳細的描述,但本領域技術人員將理解:根據已經公開的所有教導,可對細節進行各種修改和變動,并且這些改變均在本發明的保護范圍之內。本發明的全部范圍由所附權利要求及其任何等同物給出。

再多了解一些
當前第1頁1 2 3 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
做爱视频