圖像識別、智能助手、虛擬人、文生視頻……技術的發展和創新讓人們進一步向智能時代邁進。然而,目前運用人工智能(AI)技術呈現的圖像畫面大多是二維效果,在空間、時間和細節方面仍有較大上升空間。
如何為AI裝一雙“慧眼”,讓畫面更清、更細、更自然?
近日,《中國科學報》記者從中國科學院深圳先進技術研究院(以下簡稱深圳先進院)了解到,該院集成技術研究所(以下簡稱集成所)機器視覺研究中心研究員宋展團隊自主研發出多視角4D高精度人臉三維成像系統。相較傳統的3D人臉掃描技術,該系統在精度、分辨率和速度上均實現大幅提升,可應用領域包括但不限于人臉識別、醫療診斷、影視特效等。
人臉掃描更快、更清、更細
據介紹,研究團隊開發的多視角4D人臉掃描系統,由3個不同近紅外波段的結構光相機構成,底層算法采用團隊提出的高頻條紋位移編碼三維重建方法,可以實現1080P(1920×1080像素)分辨率下超過100幀每秒的三維掃描速度,基于GPU的高并行三維重建算法可實現高達300赫茲的實時重建速度,且深度成像誤差小于0.05毫米。
“每個深度相機都由一個近紅外結構光投影光柵和一個工業相機組成。深度相機每重建一次,投影儀都要向被測物體投射一組預設高頻條紋圖案,并用相機拍下它們在被測物體上產生變形的圖案。最終,根據相機拍到的變形圖案分析得到深度信息,即3D信息。深度相機實現連續掃描,增加了時間軸信息,由此得到4D信息?!鄙钲谙冗M院集成所在讀碩士生吳迪解釋說。
此外,為實現多角度更為完整的三維人臉動態成像,該系統采用3種不同波段的近紅外光作為光源,既能避免人臉產生炫目,又能避免3套設備投影儀投射的圖案相互干擾,大大改善了成像完整性。
“近紅外光對人眼友好,但對皮膚具有一定的穿透性,使得投射的高頻光柵圖案模糊,降低了三維重建精度?!彼握贡硎?。對此,研究團隊采用了創新的圖像增強算法,結合高魯棒性的條紋編解碼算法突破,提高了解碼投射圖案的相位計算精度,從而提高了三維重建精度。與此同時,研究團隊還要考慮算法的實時性和并行性,為3D動態模型獲取、頭部姿態估計和面部表情遷移等基礎工作的研究提供高精度數據支持。
支撐AI生成更高質量三維數據
宋展介紹,該系統在多個領域應用前景廣闊。例如,在新型顯示技術領域,有望為全息投影、空氣成像等新型顯示技術以及AR顯示終端,提供三維數據采集設備;在影視領域,可實時捕捉演員的高精度面部表情,結合表情遷移技術,實現從真人的表情到卡通形象的表情遷移;在游戲領域,可捕捉用戶面部信息,結合視線追蹤技術,實現人機交互;在醫療領域,可幫助提供患者面部表情信息,助力醫療診斷等;在人形機器人領域,可為機器人提供更加精確、敏銳的4D視覺感知方法,讓其從只能干粗活變成干更多精細活。
AI技術的發展,很大程度上依賴于數據驅動。
“二維平面上生成的圖像或視頻往往難以呈現真實世界的三維結構,未來,AI技術生成的視頻將逐漸從二維向三維發展。想要生成更高質量的三維視頻,離不開三維數據的支撐?!彼握拐f。
該系統可以為“3D+AI”研究提供真實、精細的高質量三維數據,解決目前該研究領域高精度三維數據不足的問題,為AI模型生成更高質量的視頻提供實時、高精度、高分辨率的數據支撐。
據了解,目前,研究團隊已將該技術運用于電影特效、特種加工、面部3D診療、動態3D視覺引導裝配等方面,并取得了良好的效果。
未來,研究團隊將進一步加強底層算法研究,提高編碼效率成像速度,降低硬件成本,研制模塊化高時空分辨率4D成像器件,并將其應用于工業和信息通信等更多領域,為新質生產力發展提供銳利的視覺成像技術支撐。(記者 刁雯蕙)
《中國科學報》 (2024-05-08第3版領域)