Google Clips 摄影机+AI=自动判断有趣的录影时机

最近几年人工智慧技术大幅成长,许多应用也如雨后春笋冒出,能自动判断录影时机的 Google Clips 摄影机,就是在人工智慧与机械学习的协助下,让演算法辨识镜头下的人、微笑、宠物、日落、地标等景色,但演算法如何进一步判断摄影时机,仍是个艰困的挑战。

透过真人评分

Google Clips 是款不需额外操作,就能自动判断录影时机的摄影机,设计理念有三大要点,首先开发团队希望所有运算能在 Clips 完成,并保有长效电池续航力与降低摄影延迟,优点是不需上传任何资料到伺服器,不但更能保障使用者隐私,也能在没有网路连线的环境使用。

再者开发团队规划以拍摄短片为主,而非静态照片,不但有助于记录欢乐时光的氛围,也能透过较长的影片弥补单张照片不易抓到完美时机的缺陷。最后,Clips 只专注透过内容的趣味性判断录影的起迄时间,并不考虑构图、光线、色调等摄影技巧。

接下来的问题,就是如何训练 Clips 演算法,让它知道怎样的场景有趣。如同一般机械学习,开发团队着手建立数千部不同主题影片构成的资料库,并让摄影与影片剪辑专家评定影片优劣,让演算法能以此衡量影片趣味的素材为何。然而这样又会产生新的问题,那就是我们该如何将影片有系统、平顺地 0~100 分中评分。

为了解决这个问题,开发团队準备了第二套资料库,他们将影片切割为许多片段,随机挑选 2 片段,询问受测者(人类)比较喜欢哪段。让受测者以「2 选 1」评定,比直接为影片定分数容易许多,且受测者给予的答案也相当接近,当分析 1,000 支影片切出的 5,000 万片段「2 选 1」数据后,就能透过计算方式得到整部影片(而非片段)的分数(对,数字没错。靠人类分析 5,000 万笔片段是相当累人的工作)。

Google Clips 摄影机+AI=自动判断有趣的录影时机

Google Clips 摄影机+AI=自动判断有趣的录影时机

Google Clips 摄影机+AI=自动判断有趣的录影时机

将资料库交给类神经网路

有了评分的资料后,接下来开发团队要定义「影片有趣的原因」,于是他们假设影片中如人物、动物、树木等景物可能是吸引人的元素,并从 Google 图像资料库超过 27,000 笔不同的标籤挑选数百种重要的标籤,用于辨识影片中的景物。

再使用伺服器级的电脑训练后,开发团队为运算效能有限的装置,打造了较小巧的 MobileNet Image Content Model 演算法模型,并挑选更关键的标籤,以利将运算能力集中于刀口。

训练的最后一步,就是将 Image Content Model 演算法模型计算出的数据,与人类评定的分数互相比较,如此一来演算法就知道哪些特徵是人类觉得有趣的部分。如此一来操作过程中,即便画面景物从未出现于训练资料,但系统仍可以判断哪些是人类觉得有趣的部分,进而自行判断最佳拍摄时机。

Google Clips 摄影机+AI=自动判断有趣的录影时机

开发团队也提到,由于 Clips 并不像自驾车那类装置有移动能力,需要使用者放于特定位置或配戴在身上,因此「乔角度」就需依赖使用者的人肉智慧。