高精度辨識人體行為AI - 富士通
發布時間 : 2021-04-06

隨著近年AI技術進步,深度學習使影像辨識人類行為變的可行,得以應用於確認工廠操作程序和檢測公共場所異常行為等情況。一般來說,AI在影像辨識人類行為時,會採用手腕、肘、肩膀等關節位置變化的特徵值,來辨識出站立、坐下等簡單的動作。
富士通用深度學習從多個連動關節的複雜動作中,開發出能準確從影像中辨識人體行為AI,如:從箱子取出物品等,因開箱作業等複雜行為,會連動手腕、肘、肩膀等關節動作,此技術將關節作為節點,以人體構造為基礎將相鄰節點串聯形成圖像,以圖形卷積網路(Graph Convolutional Networks)為基礎開發出新型態AI模型。該模型以關節隨時間變化的移動數據來學習,設定相鄰關節合適權重,能有效辨識行為,過往技術僅取得個別關節的特徵值,該AI模型則取得所有連動的關節特徵值,來實現對複雜行為高準確度的辨識。
該技術於2021年1月,在行為辨識領域上,與骨架數據的世界標準進行比較,在公開資料集中(Kinetics-Skeleton dataset),站立、坐著等簡單的行為與過往技術正確辨識率相近(與2018年香港中文大學發表之技術辨識率比較);而在開箱作業、投擲物品等複雜動作,整體正確辨識率大幅提升7%,成為該辨識領域中,世界辨識正確率最高。
富士通研究所預計未來將此技術附加到行為辨識AI「Actlyzer」中(能辨識約100種動作,並達到平均90%以上精確度),達到能短時間建構複雜動作高辨識度之模型,2021年以實用化為目標,應用至多種領域之現場改善和社會安全的課題解決。
參考資料:世界最高精度を達成!人の複雑な行動を、連動する各関節の位置や接続関係から高精度に認識できるAI技術を開発