Image-Based Novel View Synthesis

摘要 近年來,我們可以在許多電影或者是電視轉播上可以看到很多種類的特效。其中有一項就是利用視角的變化所造成的特殊效果。不過,大部分的影片都是利用快速的相機切換來達成這樣的效果,這是一個很高成本的工作。在本篇論文中,我們提出了一個以影像為基礎新景合成的方法,可以利用電腦視覺的方法來達到這樣的效果。我們提出的方法主要是利用視角的變形(View Morphing)和三焦張量的轉換(Trifocal Tensor Transfer)來達成視角合成的特殊效果。因此我們可以只利用兩台相機來達成多台相機的效果。首先,我們先利用角點偵測(Harris Corner Detector)找出影像當中的特殊點。接著再利用正規劃的相關運算(Normalized Cross Correlation) 先去找到初步的對應點,不過這些對應點必定會存在一些錯誤的對應點。因此,我們再使用一致隨機取樣(Random Sample Consensus)去將這些錯誤的對應點從初步的對應點中挑出來。一致隨機取樣所使用的模型為基礎矩陣(Fundamental matrix)並利用極點限制來判斷此對應點是否為有效的對應點。我們就可以利用正規劃直接線性轉換(Normalized Direct Linear Transformation)來算出所利用的多視角幾何的參數。 為了簡化尋找密集對應點的問題,我們假設我們所拍攝的場景可以切成好幾個的平面。所以,就可利用單應矩陣(Homography matrix) 來找出密集的對應點。再利用視角的變形和三焦張量的轉換來製造新視角的影像。我們使用的方法只利用簡單的幾何關係而且是以影像為基礎,所以我們並不需要強烈的相機校正和三維空間的模型就可以達成視角的合成。


Abstract In this thesis, we present a novel view synthesis approach which encapsulates view morphing and trifocal transfer. We can achieve the effect of having many virtual cameras, but in practice we only have two real ones. First, we use Harris corner detector to detect feature points. Then apply the normalized cross correlation and random sample consensus (RANSAC) to extract correspondences and make use of normalized direct linear transformation to solve the parameters of the multiple-view geometry. For simplifying the problem of finding dense correspondences, we assume that the scene is piecewise planar. Thus, we can make use of the homography matrices to determine the dense correspondences between the two images. The method we use does not need the strong calibration and the complex model.


