近日,歐洲電腦視覺大會2020 - 魯棒視覺挑戰賽 - 目標檢測比賽正式公布競賽結果。慧科訊業AI實驗室(Wisers AI)在此次比賽中脫穎而出,憑藉先進的人工智能技術取得了亞軍的好成績。魯棒視覺挑戰賽2020 ( Robust Vision Challenge,簡稱RVC) 是2020年電腦視覺界頂級學術會議ECCV( the European Conference on Computer
Vision )下屬的一個學術交流會(ECCV Workshop: Robust Vision Challenge 2020),作爲業內知名學術會議,此次大會吸引了谷歌、英特爾、蘋果等知名企業的合作與 參與。
此次RVC挑戰的目標檢測比賽,整合了三個各具特色且差異較大的評測集,其中Google主辦的開放圖像競賽(Open Image Competition) 在2020年選擇加入RVC,成爲該比賽的評測項目之一。除此之外RVC還選取了目標識別(object detection) 領域常用的COCO(Common Object in Context)數據集,以及針對戶外高清街景的MVD(Mapillary Vista Dataset )數據集作爲其餘兩項評測項目。參賽者需要在RVC官方提供的整合數據標注空間提出一個統一的目標識別AI算法模型並提交到全部三個評測項目中獲得最後的綜合打分。對於多個評測集的適配則成爲了這次比賽最大的挑戰。通常情况下,各個數據集上的標簽會因爲語義重叠而發生混淆,如果直接訓練模型,那結果一定會大打折扣。同時由於各數據集普遍存在的數據不平衡性,在整合多個數據集的時候這一問題顯得更爲嚴重。最後由於此次比賽選擇了差異較大的評測集,數據特性的差異性(分辨率,場景)也成爲了一個非常棘手的問題。
對於以上難點,慧科訊業AI團隊基於多年在圖像識別模型擴展以及通用化方面的經驗提出了標簽融合等一系列的解决方法,最終取得了滿意的評測結果。其中標簽融合(label merge)能够將相似度較大的標簽進行合並,在後處理的時候再通過反向映射恢復原來的標簽。從而在根本上杜絕了標簽混淆對訓練的影響。
而對於解决數據不平衡性問題,團隊將自然語言處理中的TF-IDF(詞頻-逆文本頻率指數,term frequency–inverse document frequency)技術引入到圖像識別,首先提出了基於TF-IDF方法的離綫數據抽樣(offline data sampling) 來對所有的訓練數據依據其訓練中的重要性進行篩選。在此基礎上,團隊使用了軟平衡抽樣(soft-balanced sampling)技術 對訓練數據進行分類感知抽樣(class-aware sampling), 並通過一個綜合型訓練規劃器(hybrid training scheduler)將不同的抽樣方法加以統一,從而保證了每個樣本類別的最佳使用率。 通過使用這些方法,最終在很大程度上緩和了數據不平衡帶來的影響。
本次競賽的數據特性存在大量差異性。在三個數據集中,MVD採用了大量的來自手機或相機的高分辨率街景圖,而另外兩個數據集則大多是由網絡上爬取的圖片構成的。所以在完整數據集中,圖片的分辨率,識別框的大小,比例相差都非常大。爲了應對這個問題,慧科訊業AI 團隊採用了較深的網絡架構並賦以全面的訓練圖像增强手段(如random crop隨機切割, multi-scale augmentation多級增强 和 test-time augmentation在綫增强等 ),最後再加上對特殊樣本的專家模型(expert model), 很好地解决了數據差異性帶來的問題。
慧科訊業人工智能實驗室成立於2014年,經過多年的發展,憑藉扎實的數據實力和前沿的人工智能自然語言理解技術爲行業智能數據服務和AI解决方案的拓展與開發打下了堅實的基礎。AI將持續研發各種新的算法和工具技術解决方案,以解决更多文本理解,電腦視覺,多模態數據挖掘和多維相關分析等基本技術挑戰,也將繼續深入探索人工智能和大數據的結合應用,不斷拓展AI應用的邊界,完善AI功能,力爭幫助更多行業、更多領域的企業實現智能數字化轉型,擁抱AI時代的到來。