透過您的圖書館登入
IP:18.222.37.169

臺灣大學資訊網路與多媒體研究所學位論文

國立臺灣大學,正常發行

選擇卷期


已選擇0筆
  • 學位論文

L1正規化的分類器被廣泛應用于獲取稀疏模型,但是其二階不可導特性對優化過程帶來了很大的挑戰。本文中,消除非約束性優化方法的使用限制,通過平滑近似L1的方法使其二階可微,從而可以使用常見的牛頓法解決。進一步探討該方法的應用空間,我們將之與L1和L2正規化問題的最佳化方法做了詳細的對比實驗,結果證實平滑化近似法繼承了L1和L2的某些特性,但應用前景依然不容樂觀。

若您是本文的作者,可授權文章由華藝線上圖書館中協助推廣。
  • 學位論文

近年來,卷積神經網路在人臉表示法的學習中有非常傑出的表現與成果,但大部分的研究專注於利用大量的資料學習人臉表示法而非同時利用人臉最具有語意的特徵如性別、年齡與膚色等來更佳化人臉表示法。在這篇論文中,我們提出使用多工學習的卷積神經網路來加強人臉辨識與特徵偵測。更精確的說,我們專注於同時學習人臉表示法與特徵偵測,並同時解決這兩種問題。在實驗中,使用大量的人臉圖片伴隨身分、性別、年齡等標籤,用設計出的多工卷積神經網路架構學習模型,接著使用LFW以即Adience兩個數據集來評估所學的結果,並且和傳統的局部二值模式(LBP)以即單一學習模型作比較,發現多工學習對於人臉辨識和特徵偵測有所幫助。

  • 學位論文

近年來,以Instagram為首的照片分享社群平台越來越受用戶喜愛,也因此越來越多的影像濾鏡隨之增加。然而,以Instagram為例,就有超過30個濾鏡供使用者選擇,導致使用者需要花更多時間一一看過濾淨效果、對於濾鏡的選擇也更為困難。因此,我們希望能透過圖像場景分類的幫助,提供使用者一個濾鏡推薦系統。此系統能夠自動辨識影像中之內容,進而推薦五個最適合此場景的濾鏡給使用者,不僅幫助使用者節省濾鏡選擇的時間,也讓其能擁有更佳的用戶體驗。此外,我們也提供了一個新的方法去實作出濾鏡中的暗角效果。一般的暗角效果常常預設照片的重點就在正中央,但我們結合圖像顯著性檢測取得照片中真正的重要部分,並套用修改過的暗角效果去凸顯此重點,幫助觀看者更能在第一眼就能清楚看到照片重點。

  • 學位論文

近年來水下感測網路漸漸被廣泛討論及研究,各種應用也隨之而生。水下感測網路利用的是聲波,因為水是高頻的濾波器,如果利用電磁波傳遞,訊號會衰減的很快。對於不同的水下感測網路的應用需求也會不同,必須考量的條件也不同,例如長時間水下監控的應用或是即時的通訊應用,必須考量電源的使用效率或是縮短傳輸延遲。但是由於陸地上感測網路與水下感測網路的傳輸介質不同,水下感測網路對於對於電源使用效率或是縮短傳輸延遲的路由設計,不能以陸地上感測網路的環境所設計的路由設計,直接套用在水下感測網路。 機率式路由[1] 的概念已經被廣為應用,在無線感測網路中增進資料傳輸效率也已被普遍認同。機率式路由利用無線網路廣播的特性,從相鄰節點中找出一個較好的節點進行封包傳送。在本篇論文中我們結合機率式路由的概念,針對長時間的水下監控應用和即時水下通訊應用,提出了分別適用這兩個應用的路由演算法。首先,我們針對即時水下通訊應用提出延遲容忍之水下機率式路由協定,稱為UWOR。點對點間的延遲是影響水下即時通訊應用重要的因素之一,UWOR 在滿足給定之點對點容忍延遲條件下,去最大化在期限內所收到的封包數量,同時UWOR 也考慮點對點封包傳輸時所消耗的電源。最後,我們針對長時間水下監控應用提出非同步睡眠-喚醒排程之水下機率式路由協定,稱為UWASSOR。UWASSOR 的目標是要讓水下長時間間監控的應用延長其網路運作時間。UWASSOR 同時考慮睡眠-喚醒排程與機率式路由,其中睡眠-喚醒排程可以減少電源的消耗,因為當節點在沒有傳輸或是接收資料時進入睡眠模式可以減少電源的消耗,最後我們藉由實驗驗證睡眠-喚醒排程與機率式路由可達到延長網路運作時間的目標。

  • 學位論文

近年來,虛擬實境(VR) 成為時下最迷人的技術, 尤其是沈浸式虛擬實境更是成為眾所矚目的焦點。而要生成這樣的沈浸式虛擬實境的內容,通常必須在現實的場景中利用360 度全景拍攝的方式來產生。儘管現在已經有許多拍攝裝置可以使用,但若是在高畫質的狀態下,由於運算量非常龐大,要即時地拍攝360 度全景影像並以高畫質顯示仍是非常有挑戰性的。在此我們提出了名為中央窩影像串接法的框架,定義了如何決定影像中的各個部份需要以多高的畫質去處理的方法。在這框架中主要可以分為兩個部份,其一是以人眼視覺的理論基礎去定義的敏銳程度映射函數,其二是基於影像內容對人類視覺的顯著程度來定義的顯著程度映射函數。我們的方法可以以多臺相機拍攝的內容作為輸入,即時地串接成高畫質的全景影片並串流到客戶端的裝置上。速度方面,我們使用了圖形處理器來平行化演算法已達到即時運算的層級。畫質方面,我們做了使用者經驗調查來證明我們產生出的全景影像的畫質並不因為加速而有顯著的下降。我們最終實做了我們的系統於Google Cardboard 上,並在速度上相較於原方法有六倍以上的提昇。

  • 學位論文

音訊浮水印是一種把短網址或是版權等其他資訊嵌入至音訊資料中的一種技術,由於是屬於破壞性嵌入,所以在音質上的品質需要有一定的強健性,也就是噪音不能太過明顯。為了維持原音訊的音質,被嵌入的資料在透過喇叭等播放器播出時是不能被人耳聽覺所感知到的,因此本篇論文會依照人耳聽覺遮蔽效應來使得人耳不易察覺此噪音的發生位置。再來本篇論文是利用離散餘弦轉換以及展頻調變的方法,將浮水印嵌入到音樂訊號之中,但是容易受到與喇叭之間的距離,以及麥克風的擺放方式影響到浮水印的還原成功率。為了增加浮水印的還原成功率,在嘗試過加入錯誤更正碼以及投票後,在本實驗提出一個新的方法來還原浮水印,此方法與字碼表的關聯度(correlation)有關。在實驗中我們將會觀察有無此方法對辨識率的影響,以及經過MP3壓縮之後有無此方法上辨識率的差別,最後的實驗結果說明此方法確實有助於浮水印還原成功的機率。

  • 學位論文

Android作業系統多年來的發展對行動裝置帶來跨時代的影響力,且擁有全世界近八成的市佔率。Android是世界上最大的開源程式碼系統之一,各家手機廠都能夠對其修改並擁有自己客製化的版本,其多樣性或許帶來了一些問題與麻煩,但也帶來了各種可能性。在此篇論文中,我們介紹一種建立在Android虛擬機器上的函式攔截機制,能夠在不修改任何原始APK的前提下,動態改變APP的行為,且完全不影響系統效能與穩定性。透過此種機制能夠更加強化Android系統的靈活性,並做到現今Android系統尚無法做到的各種應用,造就一個更加強大靈活的行動裝置作業系統。

  • 學位論文

隨著立體電影與立體遊戲的普及與流行,愈來愈多的研究被發表 了出來。甚至有一段時間,立體(S-3D)研究相當的熱門,在電腦視 覺、電腦圖學、視覺心理學或其它領域,都看得到不少的研究被提出 來。很多的研究解決了不同面向的問題,包括像是立體顯示(硬體居 多)的技術、立體影像的後製處理與方法、人因工程與人體視知覺的 實驗設計、或甚至是更加基本而重要的立體度量衡...等。這些研究, 有的提供了不同但有啟發性的獨到觀點、有的就一些舊有的問題提出 了改善的解法、有的甚至開啟了一些可供未來持續發展下去的研究方 向。然而,卻很少研究的觀點始於創作者的一方。更精確一點來說, 很少研究是從那些製作出立體電影、立體特效或是立體遊戲的工作室 的觀點出發的。 對於一個執行創意發想的電影製作團隊來說,去了解戲院觀眾的 感受,是非常重要但同時很困難的一件事。如果把立體感受這部分加 進來,那就更加的困難了。雖然困難,但卻是無比的重要。也就是說, 這是一個怎麼把觀眾的感受給帶進製作團隊工作流程中的一個困難挑 戰。而且,在整個製作立體電影的過程中,有很多專業人事的投入與 合作,他們各自有不同的專業與背景,包括像是導演、製作人、技術 總監、立體攝影師、動畫師、技術人員、協調行政人員...等。這樣的 團隊組成,造成的結果就是:大量的溝通與討論。因此,在整個電影 製作的過程中,製定出一套能有效溝通,或甚至可以拿來當作度量衡 的立體單位(或術語),十足的重要。 這一篇研究論文提出了一個度量衡單位,geometric perceived depth percentage (GPDP),它可以用來量化觀眾的感受到的立體程度,而且 並不需要到最後一刻的渲染(rendering)時才有辦法得知。根據立體 場景裏頭的物體遠近以及立體攝影機的參數設定,GPDP 除了可以量 化出立體感受,它同時還能把立體投影環境(螢幕的大小,以及觀眾 與螢幕之間的距離)也一並考慮了進來。也因此,GPDP 提供了一個 有效而簡易的立體度量單位,它可以用來量化或甚至是預先得知觀眾 感受到的立體效果。同時,它也可以做為一個一致的溝通述語。 藉由 GPDP 的應用,我們開發了一個被實際拿來使用的立體預覽工 具。透過這個工具,立體攝影師可以直接預測觀眾的立體感受,而不 ii需要任何特殊的立體設備或是立體投影環境。這個工具的組成,涵蓋 了立體舒適空間(comfort volume)、立體著色系統(shading schemes)、 立體指標(depth perception markers)、以及立體直方圖(histogram)... 等。這些資訊以不同的型式呈現出來,供立體攝影師使用,協助他們 在調整立體參數時更有效而到位。這工具可以非常容易地實作,並且 整合進現代的動畫製作流程或是渲染流程裏頭。我們分別實作整合進 了 Autodesk Maya [1] 以及 Pixar’s RenderMan [2]。這整套系統與工具, 被實際使用在很多的商業立體專案裏頭,貢獻良多。 有時候,我們可能得必須在後製的階段,直接調整立體效果,尤其 是當時間或資訊不足,或甚至是我們根本沒有原始 3D 場景,無法重製 的狀況下。另外,有時候即使我們使用了基於 GPDP 的工具來製作立 體電影,最終的結果還是有可能因為別的因素而結果不佳。這個情況 下,基於影像變形與裁切(image warping and cropping)的演算法,亦 在本研究中提出。五個基本原則被提出,它們將各自扮演著 1) 要嘛就 是消除立體不適感;2) 要嘛就是加強立體感受的功能。 最後,由於 GPDP 是一個用來把觀眾所感受到的立體效果給量化並 帶進製作團隊的一個機制與工具,是以,我們也設計並且執行了一些 使用者研究。研究的結果顯示 GPDP 是一個對於製作者來說,非常適 合的立體效果指標。另一方面,本篇研究所開發出來的工具,也的確 能有效的改善並且加進立體攝影機參數的調整等工具。

  • 學位論文

本論文提出一個新型圓頂狀頭戴式顯示器系統 — Dome+,使用了9個面板拼接而成之顯示器,提供215度超廣水平視野來產生沉浸式的虛擬實境體驗。藉由計算不同使用者之頂點距離與視覺調節力,讓近視與沒近視之使用者皆不需戴眼鏡即可使用Dome+系統,同時也消除一般使用於頭戴式顯示器中透鏡散射所產生的色差問題。此研究也提出幾種原型應用,及利用統計方法威爾克森符號等級檢定,評估雙眼立體視覺顯示器與非立體視覺的大視野彎曲顯示器在虛擬實境體驗中的沉浸程度,得到了即使沉浸傾向低的使用者也能在Dome+系統之超大角度視野下產生自然三維效果(Natural 3D effect),感受到立體感且更加身歷其境。本篇論文提出的超大角度視野頭戴式顯示器系統,在虛擬實境中提供了一個新方式來達到更加的沉浸式經驗。

  • 學位論文

近年來,由於因車禍而造成死亡或受傷的比例仍是居高不下。智慧車輛的發展正在逐步加速,其中的議題牽涉廣闊,包含了定位系統、節能輔助、車輛防撞甚或自動駕駛等服務。車輛防撞是目前安全系統相當重視的區塊,同時也是自動駕駛系統必備之技術(Advance Driver Assistance System, ADAS)。車輛防撞系統仰賴不同的偵測器進行環境感知的偵測,其中以影像擷取單位對於道路狀況與信號號誌進行辨識是重要的信息來源。以影像進行障礙物偵測的發展已經有一段時日,但在傳統的方法上,其效果仍有無法突破之空間。為了突破此限制達到更精準的偵測效果對於近兩年開始流行的深度學習(Deep Learning),對於大量的資料中擁有更強學習力的方法便被引入,以便能在影像擷取系統中找尋更為豐富的資訊。 本論文即是針對影像採用卷積神經網路,用以將深度學習實現於影像偵測之中,藉由卷積神經網路擁有學習大量資料中統計規律的特性,對我們最密切關注的四種偵測類別行人、汽車、腳踏車騎士以及摩托車騎士學習個別之特徵描述。並且藉由此論文提出之深層凸型非負矩陣拆解,對於不同類別之物體訓練多層之基底和係數矩陣,來提升卷積神經網路之偵測效果。 為了驗證本論文的方法,我們會在同為行車道路場景的KITTI資料集進行實驗以及知名的行人資料集INRIA,效果分別能達到79%和91%AP。此外,我們也有自行拍攝校園以及市區之行車道路場景,效果能達到95%以上Recall/Precision。