有鑑於科技進步,大量的多媒體訊息可以透過電腦、筆記型電腦、智慧型手機等設備,讓使用者方便接收這些資訊,其中多媒體之中的影片,雖然使用者可以輕易接收該資訊,但是使用者今天若是在搭乘大眾交通工具、飛機或其他狀況出現時,可能無法在有限的時間內將一部一到兩小時長度的影片看完,並且也無法在短時間內掌握影片的劇情內容,所以影片摘要的需求就顯得格外重要。 在本篇研究中,我們提出一種新型的動態型影片摘要方法,不同於過去傳統的做法,首先我們的方法會結合影片的劇本對輸入影片的每個場景進行分類,並觀察每個場景對應的類別是否有出現吸引人或重要的事件,再來系統會建立以場景對應的角色組合為單位的社群網路,透過這個社群網路觀察影片場景之間的鋪陳及先後出現的因果關係。因此透過這兩個階段處理所產生的事件偵測結果以及場景之間的前後結構關係,將這兩者的資訊輸入至我們建立的機器學習模型,並且也輸入了這個場景的視覺特性,再藉由此模型萃取出內容語意重要且在時間上有連貫結構關係的場景,針對這些場景會在它們之中進一步選出一組最具代表性的場景作為影片摘要,我們在此將這個步驟視為一個解最佳化的數學問題,藉此我們以解最佳化的演算法產生最終理想的影片摘要。