隨著科技的發展,人工智能已成為我們生活中不可或缺的一部分。而深度學習作為人工智能的一種重要技術手段,正日益受到重視和廣泛應用。與此同時,人工智能的應用也正在不斷地拓展,例如像ChatGPT這樣的自然語言處理技術,能夠讓人機交互更加智能化。在中國,有著眾多的深度學習專家,他們為人工智能的發展做出了杰出的貢獻。其中,周毅敏作為國內杰出的深度學習專家,一直致力于推動深度學習技術的發展和應用。在本篇報道中,我們將采訪周毅敏博士,了解他對深度學習的看法,以及他在這一領域中的成就和經驗。
周毅敏博士畢業于同濟大學應用計算機科學與技術,研究方向包括機器學習、人工智能、深度學習以及圖像處理和自然語言處理等領域。他曾在多家知名公司和大學從事深度學習和人工智能方面的工作,擁有豐富的實踐經驗和技術能力。周毅敏博士目前在世界一流的芯片公司擔任深度學習工程師,研究著深度學習最前沿的圖像技術。回顧過去十多年,周毅敏博士發表了多篇高水平的論文,在機器學習和人工智能領域取得了顯著的成就。
自2010年致力于研究深度學習賦能計算機專業藝術家的審美和思維模式,周毅敏提出行業領先的圖像美學評分方法。
美學是一個主觀的概念,具有很強的個體差異性和文化差異性。美學評價涉及到多個因素,包括構圖、色彩、紋理、對比度等,這些因素之間相互影響,同時也受到主題和情感等因素的影響。不同的人對于同一幅圖像可能會有不同的美學評價。因此,如何將主觀的美學感受量化和計算,建立合適的美學評價模型是一個難點和挑戰。
周毅敏研究的圖像美感質量評估是“計算美學”研究的重點方向。從深度卷積神經網絡DCNN(Deep Convolutional Neural Network)出發,基于GoogLeNet模型周毅敏優化了圖像分類識別效率和能力,提出具有深度和寬度卷積神經網絡的照片美學分類器,可以更好地描述圖像的美學信息,取得了更好的美感分類效果,是行業領先的圖像美學評估方法。該方法在世界最流行的圖像數據集DPChallinge.com實驗中,正確分類精度接近90%,高達87.10%。實驗結果顯著優于當時已有技術,與人類的視覺感知和審美判斷已經基本一致。
周毅敏使用卷積神經網絡對圖像進行分類,過程中采用了帶有補丁的圖像作為訓練標簽,并通過微調網絡對其進行訓練。經過第一卷積層濾波后,得到特征圖,隨后通過最大池化層對特征圖進行降維處理。接下來,經過彼此連接的第二和第三卷積層進行進一步過濾,然后進入了九個初始模塊,控制計算復雜性來避免算法失控。隨著初始模塊和更深的逐層卷積結構,該方法顯著提高了識別率。此外,周毅敏還添加了兩個輔助分類器以提高精度,并在在深度神經網絡中的最后一層使用了雙向多類別分類器softmax來進行分類。最終,softmax將圖像分類為“高審美價值”或“低審美價值”,實現了使用卷積神經網絡對圖像進行分類的目標。
周毅敏在模型訓練方面還采用了雙線性插值圖像縮放技術將來自數據庫的輸入圖像縮小到256×256,并從每個圖像獲取中間、四角、翻轉等10處圖像特征信息,形成圖像特征訓練數據集用于訓練模型,以提高模型的準確性和魯棒性(Robustness)。
2018年前后在Penn State University息科學與技術學院人工智能研究實驗室,周毅敏率先開創了一種利用知識圖譜改進圖像字幕的全新理論,具有行業前瞻性和較高的研究潛力。
在計算機科學人工智能領域中,System1與System2廣為人知。System1可以描述為自動化系統,可以快速地完成簡單的任務,并能夠自主適應變化。例如,自動駕駛汽車中的一些基本控制系統可能被歸類為System1。System2可以描述為更為復雜的計算機系統,需要進行更加深入的計算和思考,例如圖像識別、自然語言處理等任務。將人工智能從System1推進到System2意味著更加深入的計算和思考,需要更多的資源和時間。
由于計算機對于圖像的理解是基于像素級別的信息,因此如何將圖像的高層次語義信息融入人工智能System2依然是一個行業難點。簡單來說,從一張照片可能包含了某種情感、故事情節等高層次信息,如何從圖像中自動提取這些信息是一個巨大挑戰。周毅敏率先提出了使用知識圖譜關聯背景信息,輔助計算機聯想能力進行美學評價的圖像字幕方法。
知識圖譜已經廣泛應用于信息檢索、問題解答等領域,被證明與背景知識結合的方法是有用的。周毅敏創新結合知識圖譜提出增強型神經圖像字幕系統(CNetNIC)采用神經圖像字幕(NIC)方法,通過訓練卷積神經網絡(CNN)進行圖像處理,得到圖像編碼為固定長度的向量空間表示或嵌入,并使用向量空間嵌入來指定遞歸神經網絡(RNN)的初始狀態。再訓練遞歸神經網絡(RNN)先使用對象識別模塊訓練生成圖像特征的向量空間嵌入,以圖像作為輸入,生成與場景中的對象相對應的一組術語作為輸出。?再使用外部知識圖譜ConceptNet常識知識庫,通過圖譜獲取常識關系邊緣連接的自然語言單詞和短語,用于推斷與聯想由對象識別模塊在場景中發現的對象的單詞直接或間接相關的兩組術語。最后,利用術語的向量空間嵌入以及圖像特征來指定基于LSTM的遞歸神經網絡(RNN)的初始狀態,以產生輸入圖像的字幕。
實驗結果表明,周毅敏設計的CNetNIC圖像字幕系統的BLEU、METEOR、ROUGEL性能指標優于當時最先進的圖像字幕系統。結合知識圖譜關聯提取背景信息后,改進的圖像字幕處理技術方法顯著優于現有不使用知識圖譜的技術方法。并且與知識庫相結合的ConceptNet使得其生成的圖像字幕更加接近于人類思維的字幕描述。
由于知識圖譜信息數據量和計算機算力的局限性,計算機聯想還不能擁有與人類一樣或者優于人類思維范圍和效率的想象力。但是隨著科技的發展,這類瓶頸一定會隨著軟件和硬件的提升而優化。
現役公司北美總部團隊半年一籌莫展,周毅敏三個月從0到1取得突破,獨立推進深度學習框架搭建,挑戰行業頭部Apex框架技術。
Apex是全球知名半導體公司開發的,當下全球最流行的開源軟件庫,能夠實現增加運算速度、減少顯存的占用的同時不降低性能。然而,該框架技術采取了硬件綁定銷售的商業模式,使用Apex必須相應地配置該半導體公司的硬件系統,形成了壟斷壁壘。
為打破市場的壟斷競爭優勢,周毅敏所在的公司立項開發符合公司自身半導體硬件的深度學習框架。但是項目在啟動初期便遇到了眾多難題,首先,針對CUDA PTX(一種GPU匯編語言)中實現FMHA的操作邏輯的復雜度超越了項目團隊的想象。其次,公司自身圖形處理器(GPU)架構的匯編語言與CUDA PTX完全不一樣。最后,處理大量內聯組件和支持波前多線程矩陣乘法(MFMA)操作也存在技術實現難題。
這些問題涉及到深度學習框架的底層編程,需要開發人員對硬件架構和底層指令的理解非常深入,并且需要掌握不同的編程技術才能進行深度學習框架的開發。因此,困難重重使得公司北美團隊歷時半年都沒能夠推進項目前進半步。
既然CUDA PTX導致了那么多問題,那么就從這里入手。周毅敏創新提出拋開CUDA PTX匯編,使用公司GPU匯編純實現FMHA。周毅敏一人集中精力研究公司GPU底層匯編邏輯,利用GPU在匯編層面的優勢減少同步次數,利用內聯匯編減少編譯器生成的冗余代碼,這兩項內容都是十分耗時。周毅敏通過重新編寫匯編指令來最大程度地利用硬件性能,以實現FMHA調用底層硬件的時候解除對原本CUDA PTX匯編語言的依賴,是該公司移植內聯匯編的第一人。
周毅敏的解決方案大大提高了訓練基準模型的速度,從而保障公司GPU產品與市場上的同類產品保持競爭力,并擴大其適用性。現在,由周毅敏與編譯器團隊一同繼續進行該項目的研發,以實現項目最終的完成和落地,預期超越行業領先的深度學習框架。未來,該項目的成功將為公司在深度學習領域的發展奠定堅實的基礎,提高公司在該領域的聲譽和市場地位。隨著深度學習在各個行業的應用不斷擴大,該項目的成功還將為公司帶來更多的商業機會和潛在客戶。
周毅敏將繼續努力奮斗在深度學習的最前線,推進項目的研發和落地,并不斷尋求創新和優化的機會,以滿足不斷變化的市場需求和客戶需求。同時,他們也將積極探索和研究其他新技術和新算法,以保持在行業內的領先地位,并為公司的未來發展打下更堅實的基礎。
相關稿件