第14章 萬事俱備
章節報錯
“媽,今年我就不回去了,順利的話明年年初回去看望你們。”
“我不是在外面瞎玩,休學也不是退學,您二位別緊張哈,我知道我在做什麼。”
“也不用給我打錢,我也不是在創業,只是這段時間需要集中精力解決一些問題。就今年底,您放心,就今年底。如果不成功,您說什麼我都聽您的。”
“好,好嘞,記得叫老爸多出去運動,你們注意身體哈!”
“回,回去。過年的時候一定回去。”
掛了電話,孟繁岐靠在牆上,長長地嘆了一口氣。
這些事情實在跟父母解釋不清楚,若不是因為擔心付院長會出手相助,他原本是不打算去辦休學的。
現在父母瞭解到如今的情況,肯定是憂心忡忡。最近幾次通話,不管自己怎麼說,父母總是沒法放下心來。
孟繁岐只能靠著年底的期限安撫他們一下,承諾只要今年不能取得傑出的成果,就什麼都聽他們的。
看著房間裡幸災樂禍在調參的唐璜,孟繁岐沒好氣道,“笑什麼笑。”
唐璜瞬間做出一個嚴肅認真的表情,但不論怎麼看都帶著三分陰陽怪氣的感覺,讓人很是不爽。
------------------------
這天的遲些時候,孟繁岐收到了阿里克斯的回覆,看了眼時間點,阿里克斯應該是一起床就回復了郵件,可以說是相當勤奮了。
這個時間點已近臨近今年賽事快要開始的時刻,不過阿里克斯本人其實沒有計劃繼續組隊參與本次的賽事。
只是哥雖然不在江湖,江湖卻到處都是哥的傳說。
13年的微軟研究院隊伍,新加坡國立大學隊伍,和賈揚清領銜的Decaf,UC伯克利等隊伍,都深受阿里克斯去年思想的影響。
根據阿里克斯介紹的辦法,孟繁岐很快除錯完成,順利將批歸一化,Adam最佳化器等操作從自己實驗的環境遷移到cuda-convnet框架上,做了一些調整和適配。
沒過過久,便已經在CIFAR-10上執行了起來。
接下來便是本次參賽的最核心競爭力,殘差網路在這個框架上的實現。
“今年的IMAGENET挑戰賽其實沒有什麼太多的新想法,大家基本上都是以復現阿里克斯的演算法為主。”
孟繁岐當然不準備和其他隊伍一樣,基於阿里克斯的框架去重新實現阿里克斯去年的參賽演算法,早期的許多演算法在引數量和計算量上都有很大的冗餘。
“谷歌的GoogleNet和牛津的VGGNet原本要明年才能研究出來,不過我今年參賽之後,這兩個AI歷史上的重要網路恐怕就要胎死腹中了吧?”
別說是現在了,截止到14年末,多餘的設計仍舊大量存在與谷歌和牛津大學的演算法當中。
直到15年,那個男人以殘差網路ResNet奪冠ImageNet-2015,鑄就了深度學習時代的AI模型的神格。
殘差思想是孟繁岐此時此刻的最佳選擇,一方面它會成為深度學習時代的里程碑,因為它的核心思想,就是如何把深度網路做得更加‘深’。
另一方面,它的實現和結構簡潔,拋棄了大量人類看來很有道理和價值,但實際上其實用處不大的設計。
將簡潔好用的結構反覆重複,這也大大地降低了孟繁岐所需要的開發工程量。
AlexNet是八層的結構,各自有一些獨立的設計,在此時,8層已經是革命性的深度網路了。
更深的網路特別難以訓練,因此原本直到14年,谷歌和牛津才分別把這個深度推進到22層和19層。
而ResNet的思想,徹底從根本上解決了網路變深就沒法順利訓練的問題。它讓50,100,150,甚至1000層網路的訓練成為可能。
“從去年的8,到今年的100+層,甚至1000層也可以訓練。在2013年的視角來看,這一劑猛藥應該夠勁了。”
不僅是深度上取得了開創性的突破,ResNet的效能也同樣驚人。它是第一個Top-5錯誤率低於人類能力的結構,單模型達到了4.6%左右。
如果綜合幾個不同方式訓練的ResNet,平均他們的輸出再去預測的話,其TOP-5錯誤率甚至低至3.7%。
“其實在IMAGENET上做得太準了反而是一件怪事。”考慮到後世的研究中,該資料集中的標籤其實有不小的比例是錯誤的,越貼近百分之百的準確率反而越有一些荒誕的感覺。
ResNet的Res指residual,正經點說是殘差,說得明白一些是一種短路或者是跳躍連結。
再說的淺顯一點,假設原本的操作為f(x),ResNet就是把計算過程從f(x)改為f(x)+x。
這也是孟繁岐最早與付院長討論的內容之一。
這種不帶任何引數的支路連結,直接把操作前的內容加到操作後的內容上,是深度網路突然能夠在上千層的深度下收斂的秘密所在。
在此之後的幾乎所有AI文章,都很難繞得開這個思路。愷明本人單就這一篇文章,就在六七年的時間內收穫了十五六萬的文章引用。
不得不說這是一個天文數字。要知道即便是NatureCellScience三大世界級頂刊常客,著名華國美國雙料科學院士抽出一個來,至今為止所有文章的總引用數量加在一起五萬多都算是多的了。
當然了,單以論文被引用的次數來評價文章的水平和作者的水平是有失偏頗的。
很多基本學科曲高和寡,看得人少寫得人也少。引用自然就上不去。
但就AI這個實用性實驗性比較強的學科來說,內部去對比的話,引用的多少含金量還是相當之高的。
大家只會用程式碼投票,有價值的東西會一直迭代下去。有利於自己模型在任務上效能提升的技術,則會被一直引用下去。
學術界一直有這樣的說法,搞理論的和搞實驗的兩邊相互看不起。這倒也不是無中生有。
愷明憑藉幾篇代表作奠定自己歷史地位後,就總有個別人喜歡說什麼“ResNet的思想早就有人提過了”,“幾十年前的東西不算什麼新東西”,“這篇文章也就是流量大罷了,和流量明星是一樣的”。
酸味都要溢位螢幕了。
孟繁岐不是沒讀過一些理論類的文章,但他個人覺得新時代的AI,P話誰都會說,程式碼寫出來才是本事。你說幾十年前就有的東西,怎麼不寫一個ResNet突破人類水準呢?
ResNet的核心程式碼難寫嗎?不難的。
基於阿里克斯的框架,只需幾個小時的時間,他就可以基本復現出ResNet論文中的所有結構。
弱小和無知不是生存的障礙,傲慢才是。