蛋白質的合成在生物的生理調控中扮演著相當重要的角色,從過去的研究中我們已經知道蛋白質的合成是從去氧核醣核酸先轉錄成核醣核酸,最後再轉譯成蛋白質。轉譯和轉錄的過程會受到許多因子的調控。轉錄因子就是指能夠結合在某基因上游特定核苷酸序列上的蛋白質,轉錄因子對於轉錄的活化有決定性的作用。所以轉錄因子結合點對於基因調控是一個重要的訊息。 對於了解基因轉錄的調控,轉錄因子結合點是一個相當重要的資訊。事實上,互補去氧核醣核酸微陣列晶片互交是一個用來辨認基因序列上轉錄因子結合點的常用工具。但是互補去氧核醣核酸微陣列晶片互交的解析度大約只有一千到兩千個鹼基左右。在這個情況下利用電腦程式從互補去氧核醣核酸微陣列晶片互交的實驗結果來找到實際的轉錄因子結合點位置,是一個相當可行的做法。 我們的目標是在轉錄因子結合點的實際長度未知的情況下,從去氧核醣核酸序列中找到實際的轉錄因子結合點位置。為了達到這個目標,我們設計了一個電腦程式。我們的做法是以互補去氧核醣核酸微陣列晶片互交的結果來找出可能性高的序列,再使用二項式分布模型從中找到許多可能的片段。最後我們利用兩個排序的分數來找到最有可能的片段。最後我們會將我們的結果跟其他程式做比較來驗證程式的可靠性。
To know the regulation of gene transcription, transcription factor binding sites (motifs) are helpful information. In fact, cDNA microarray hybridization (ChIP array) has became a popular tool for recognizing motif from gene sequences. However the ChIp array can only map the probable sequence within 1-2 kilobases resolution. Our goal is to find out the motif binding site without the information of motif length. To reach this goal we design a computational program, base on the discriminator and binomial model to find the most possible patterns. And we compare our performance to the program called constraint-less Cosmo [1]. From the simulation results, we can prove that our program is better than Cosmo.