淺談深度學(xué)習(xí)的基本概念和方法
本文旨在提供直觀簡(jiǎn)明的深度學(xué)習(xí)引導(dǎo),涵蓋深度學(xué)習(xí)的基本概念,而不涉及很多數(shù)學(xué)和理論細(xì)節(jié)。當(dāng)然如果要做更深入的研究,數(shù)學(xué)肯定是必不可少的,但是本系列主要還是用圖片和類比等方式,幫助初學(xué)者快速建立大局觀。
核心概念
機(jī)器學(xué)習(xí)(Machine Learning)
在機(jī)器學(xué)習(xí)中,我們(1)讀取數(shù)據(jù),(2)訓(xùn)練模型,(3)使用模型對(duì)新數(shù)據(jù)做預(yù)測(cè)。訓(xùn)練可以看作是當(dāng)模型拿到新數(shù)據(jù)的時(shí)候、逐步學(xué)習(xí)一個(gè)的過程。在每一步,模型做出預(yù)測(cè)并且得到準(zhǔn)確度的反饋。反饋的形式即是某種衡量標(biāo)準(zhǔn)(比如與正確解的距離)下的誤差,再被用于修正預(yù)測(cè)誤差。
學(xué)習(xí)是一個(gè)在參數(shù)空間里循環(huán)往復(fù)的過程:當(dāng)你調(diào)整參數(shù)改正一次預(yù)測(cè),但是模型卻可能把原先對(duì)的又搞錯(cuò)了。需要很多次的迭代,模型才能具有良好的預(yù)測(cè)能力,這一“預(yù)測(cè)-修正”的過程一直持續(xù)到模型再無改良空間。
特征工程(Feature Engineering)
特征工程從數(shù)據(jù)中提取有用的模式,使之更容易被機(jī)器學(xué)習(xí)模型進(jìn)行分類。比如,把一堆綠色或藍(lán)色的像素區(qū)域作為標(biāo)準(zhǔn),來判斷照片上是陸生動(dòng)物還是水生動(dòng)物。這一特征對(duì)于機(jī)器學(xué)習(xí)模型十分有效,因?yàn)槠湎拗屏诵枰紤]的類別數(shù)量。
在多數(shù)預(yù)測(cè)任務(wù)中,特征工程是取得好結(jié)果的必備技能。然而,因?yàn)椴煌臄?shù)據(jù)集有著不同的特征工程方法,所以很難得出普遍規(guī)律,只有一些大概的經(jīng)驗(yàn),這使得特征工程更是一門藝術(shù)而非科學(xué)。一個(gè)數(shù)據(jù)集里極其關(guān)鍵的特征,到了另一個(gè)數(shù)據(jù)集里可能沒有卵用(比如下一個(gè)數(shù)據(jù)集里全是植物)。正因?yàn)樘卣鞴こ踢@么難,才會(huì)有科學(xué)家去研發(fā)自動(dòng)提取特征的算法。
很多任務(wù)已經(jīng)可以自動(dòng)化(比如物體識(shí)別、語(yǔ)音識(shí)別),特征工程還是復(fù)雜任務(wù)中最有效的技術(shù)(比如Kaggle機(jī)器學(xué)習(xí)競(jìng)賽中的大多數(shù)任務(wù))。
特征學(xué)習(xí)(Feature Learning)
特征學(xué)習(xí)算法尋找同類之間的共有模式,并自動(dòng)提取用以分類或回歸。特征學(xué)習(xí)就是由算法自動(dòng)完成的特征工程。在深度學(xué)習(xí)中,卷積層就極其擅長(zhǎng)尋找圖片中的特征,并映射到下一層,形成非線性特征的層級(jí)結(jié)構(gòu),復(fù)雜度逐漸提升(例如:圓圈,邊緣 -> 鼻子,眼睛,臉頰)。最后一層使用所有生成的特征來進(jìn)行分類或回歸(卷積網(wǎng)絡(luò)的最后一層,本質(zhì)上就是多項(xiàng)式邏輯回歸)。
深度學(xué)習(xí)算法學(xué)得的層級(jí)特征
圖1:深度學(xué)習(xí)算法學(xué)得的層級(jí)特征。
每個(gè)特征都相當(dāng)于一個(gè)濾波器,
用特征(比如鼻子)去過濾輸入圖片。
如果這個(gè)特征找到了,相應(yīng)的單元就會(huì)產(chǎn)生高激勵(lì),
在之后的分類階段中,就是此類別存在的高指標(biāo)。
圖1顯示了深度學(xué)習(xí)算法生成的特征,很難得的是,這些特征意義都很明確,因?yàn)榇蠖鄶?shù)特征往往不知所云,特別是循環(huán)神經(jīng)網(wǎng)絡(luò)、LSTM或特別深的深度卷積網(wǎng)絡(luò)。
深度學(xué)習(xí)(Deep Learning)
在層級(jí)特征學(xué)習(xí)中,我們提取出了好幾層的非線性特征,并傳遞給分類器,分類器整合所有特征做出預(yù)測(cè)。我們有意堆疊這些深層的非線性特征,因?yàn)閷訑?shù)少了,學(xué)不出復(fù)雜特征。數(shù)學(xué)上可以證明,單層神經(jīng)網(wǎng)絡(luò)所能學(xué)習(xí)的最好特征,就是圓圈和邊緣,因?yàn)樗鼈儼藛蝹€(gè)非線性變換所能承載的最多信息。為了生成信息量更大的特征,我們不能直接操作這些輸入,而要對(duì)第一批特征(邊緣和圓圈)繼續(xù)進(jìn)行變換,以得到更復(fù)雜的特征。
研究顯示,人腦有著相同的工作機(jī)理:視錐細(xì)胞接受信息的第一層神經(jīng),對(duì)邊緣和圓圈更加敏感,而更深處的大腦皮層則對(duì)更加復(fù)雜的結(jié)構(gòu)敏感,比如人臉。
層級(jí)特征學(xué)習(xí)誕生在深度學(xué)習(xí)之前,其結(jié)構(gòu)面臨很多嚴(yán)重問題,比如梯度消失——梯度在很深的層級(jí)處變得太小,以致于不能提供什么學(xué)習(xí)信息了。這使得層級(jí)結(jié)構(gòu)反而表現(xiàn)不如一些傳統(tǒng)機(jī)器學(xué)習(xí)算法(比如支持向量機(jī))。
為解決梯度消失問題,以便我們能夠訓(xùn)練幾十層的非線性層及特征,很多新的方法和策略應(yīng)運(yùn)而生,“深度學(xué)習(xí)”這個(gè)詞就來自于此。在2010年代早期,研究發(fā)現(xiàn)在GPU的幫助下,激勵(lì)函數(shù)擁有足以訓(xùn)練出深層結(jié)構(gòu)的梯度流,從此深度學(xué)習(xí)開始了穩(wěn)步發(fā)展。
深度學(xué)習(xí)并非總是與深度非線性層級(jí)特征綁定,有時(shí)也與序列數(shù)據(jù)中的長(zhǎng)期非線性時(shí)間依賴相關(guān)。對(duì)于序列數(shù)據(jù),多數(shù)其他算法只有最后10個(gè)時(shí)間步的記憶,而LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)(1997年由Sepp Hochreiter和Jürgen Schmidhuber發(fā)明),使網(wǎng)絡(luò)能夠追溯上百個(gè)時(shí)間步之前的活動(dòng)以做出正確預(yù)測(cè)。盡管LSTM曾被雪藏將近10年,但自從2013年與卷積網(wǎng)絡(luò)結(jié)合以來,其應(yīng)用飛速成長(zhǎng)。
中國(guó)· 上海

關(guān)鍵詞
辦公室:上海市浦東新區(qū)郭守敬路351號(hào)
CopyRight?2009-2019 上海谷谷網(wǎng)絡(luò)科技有限公司 All Rights Reserved. 滬ICP備11022482號(hào)-8
- top
- 在線咨詢
-
添加微信咨詢