本篇論文提出一個視線估算的系統,該系統可以在不同的使用者和不同的頭部姿勢下,根據人眼影像去估算出目前人所看到的位置。此一研究有助於開發有別於觸控或體感的人機互動控制模式。 在我們的系統中,為了達到不同受測者皆可使用的特性,我們採用了包含多種頭部姿勢資訊以及多個受測者的UT dataset來學習出各種不同頭部移動的情形。另外,我們建立3D臉部模型來作頭部姿勢的估算來得到轉動的3D資訊,藉此達到全程採用單一相機的基於影像學習視線估測,以擴充應用的廣泛性及一般性。 對於視線估測這類回歸問題,我們引入近年來流行的深度學習架構來解決問題。然而,大部分的視線估測演算法都是在固定頭部姿勢下對於瞳孔在不同位置來判斷人所看的地方,這樣的研究並不適用於一般看電視的情境,比如移動的物體或是人在不同位置,人的視線都會隨著頭部轉動而移動。因此為了解決頭部移動所導致眼睛形狀不同的問題,我們針對區域性的頭部姿勢來訓練不同的深度網路來估算目光位置。 透過實驗,我們證明了如此的方法可以有效的解決在不同頭部姿勢下視線估測的問題,且在訓練時間和表現結果都有所提升。
In this thesis, we propose a new gaze estimation algorithm that estimates where a user looks from the eye images. The proposed gaze estimation algorithm is based on using multiple convolutional neural networks (CNN) to learn the regression networks for estimating gaze angles from eye images. The proposed algorithm can provide accurate gaze estimation for users with different head poses, since it explicitly uses the head pose information in the proposed gaze estimation framework. To achieve person independent system, we train the deep CNN regression networks with UT Multiview dataset, which contains a large number of subjects with large head pose variations. On the other hand, we estimate the head pose from the 2D face image and a generic 3D face model. It is the reason that the proposed algorithm can be widely used for appearance-based gaze estimation in practice. Our experimental results show that the proposed gaze estimation system improves the accuracy of appearance-based gaze estimation under head pose variations compared to the previous methods.