Problem
電腦視覺領域長期忽略對影片「時間流動」的感知與控制,缺乏能辨識播放速度異常或精確操縱時間節奏的模型,難以細膩地處理動作中的時間細節。
Method
利用影片原生的多模態線索與時序結構進行自我監督學習,訓練模型偵測速度變化並估算播放速度。研究團隊進一步從網路影片中自動篩選出大規模慢動作資料集,並開發具備時間控制能力的生成模型與超解析度技術。
Results
成功建立了全球最大的慢動作影片資料庫。開發的模型不僅能依據指定速度生成流暢動作,還能將低影格率的模糊影片,轉換為具備精細時序細節的高影格率(High-FPS)序列。
Significance
這項研究證明時間是可被操縱與感知的維度,為可控式影片生成、影像偽造偵測,以及建構理解現實世界動態演變的「世界模型」奠定了重要技術基礎。