公元七世紀(jì),在車遲國(guó)國(guó)家氣象局組織的一次求雨活動(dòng)中,虎力、鹿力、羊力三位大仙成功地祈下甘霖,于水火中救了黎民。老國(guó)王雖然不明就里,卻從此尊他們?yōu)閲?guó)師,奉道教為圭臬。
本世紀(jì),算法工程師們的境遇也差不多:早些年,信奉糙快猛主義的大佬們覺得他們飽食終日、無所用心,沒工作只好在學(xué)校混博士,靠數(shù)據(jù)上的障眼法裝神弄鬼??墒牵S著去年 AlphaGo 大破李世石,大佬們?cè)谛牡缀俺?ldquo;我操”的同時(shí),慌不擇路地把各種搞劫持、送外賣的生意包裝成人工智能,并紛紛請(qǐng)來幾位懂算法的國(guó)師加持。雖然他們對(duì)國(guó)師們所做的事智商上并不理解,卻虔誠(chéng)地希望他們快點(diǎn)兒求下雨來。
于是,算法工程師的身價(jià)也水漲船高了。各門派工程師不論過去練的是 java、php 還是 excel,都放棄了最好語(yǔ)言的爭(zhēng)論,抄起了深度學(xué)習(xí),發(fā)誓重新修煉成算法工程師。前些天,還有人在知乎上問我:20 萬(wàn)、50 萬(wàn)、100 萬(wàn)的算法工程師,到底有什么區(qū)別?
這樣充滿銅臭味兒的問題,讓我十分欣慰。雖說在北京,20 萬(wàn)已經(jīng)基本不可能招到靠譜兒的算法工程師了,還是姑且用上面的數(shù)字做個(gè)參照,談?wù)勊惴üこ處煹娜齻€(gè)層次吧。(這里說的算法,并不是計(jì)算機(jī)系本科課程《算法與數(shù)據(jù)結(jié)構(gòu)》里那個(gè)算法。那門課里講的,是排序、查找這類"確定性算法";而這里我們說的,是用統(tǒng)計(jì)方法對(duì)數(shù)據(jù)進(jìn)行建模的"概率性算法"。)下文中會(huì)提到一些算法和模型,但不過是為了舉例說明概念,無需深究,有興趣鉆研的朋友可以自己查閱資料。
第一層次"Operating":會(huì)使用工具
這個(gè)層次的工程師,對(duì)常用的模型比較熟悉,來了數(shù)據(jù)以后,好歹能挑個(gè)合適的跑一下。
達(dá)到這個(gè)層次,其實(shí)門檻不高。早些年,您只要掌握了什么叫 LDA、哪叫 SVM,再玩過幾次 libnear、mahout 等開源工具,就可以拿到數(shù)據(jù)后跑個(gè)結(jié)果出來。到了深度學(xué)習(xí)時(shí)代,這件事兒似乎就更簡(jiǎn)單了:管它什么問題,不都是拿神經(jīng)網(wǎng)絡(luò)往上堆嘛!最近,經(jīng)常會(huì)遇到一些工程師,成功地跑通了 Tensorflow 的 demo 后,興高采烈地歡呼:我學(xué)會(huì)深度學(xué)習(xí)了,我明天就統(tǒng)治人類了!
這事要真這么簡(jiǎn)單,我是茄子。任憑你十八般開源工具用的再熟,也不可能搞出個(gè)戰(zhàn)勝柯潔的機(jī)器人來。這里要給大家狠狠澆上一盆冷水:進(jìn)入這個(gè)領(lǐng)域的人,都要先了解一個(gè)“沒有免費(fèi)的午餐定理”,這個(gè)定理的數(shù)學(xué)表達(dá)過于晦澀,我們把它翻譯成并不太準(zhǔn)確的文藝語(yǔ)言:
如果有兩個(gè)模型搞一次多回合的比武,每個(gè)回合用的數(shù)據(jù)集不同,而且數(shù)據(jù)集沒什么偏向性,那么最后的結(jié)果,十有八九是雙方打平。
管你是普通模型、文藝模型還是 2B 模型,誰(shuí)也別瞧不起誰(shuí)。考慮一種極端情況:有一個(gè)參賽模型是“隨機(jī)猜測(cè)”,也就是無根據(jù)地胡亂給個(gè)答案,結(jié)果如何呢?對(duì),還是打平!所以,請(qǐng)?jiān)僖膊灰獑?ldquo;聚類用什么算法效果好”這樣的傻問題了。
這就很尷尬了!因?yàn)檎莆樟艘欢涯P筒⑶視?huì)跑,其實(shí)并沒有什么卵用。當(dāng)然,實(shí)際問題的數(shù)據(jù)分布,總是有一定特點(diǎn)的,比方說人臉識(shí)別,圖中間怎么說都得有個(gè)大圓餅。因此,問“人臉識(shí)別用什么模型好”這樣的問題,就有意義了。而算法工程師的真正價(jià)值,就是洞察問題的數(shù)據(jù)先驗(yàn)特點(diǎn),把他們表達(dá)在模型中,而這個(gè),就需要下一個(gè)層次的能力了。
會(huì)使用工具,在算法工程師中僅僅是入門水平,靠這兩把刷子解決問題,就好比殺過兩只雞就想做腹腔手術(shù)一樣,不靠譜兒程度相當(dāng)高。如果不是在薪酬膨脹嚴(yán)重的互聯(lián)網(wǎng)界,我覺得 20 萬(wàn)是個(gè)比較合理的價(jià)格。
第二層次"Optimization":能改造模型
這個(gè)層次的工程師,能夠根據(jù)具體問題的數(shù)據(jù)特點(diǎn)對(duì)模型進(jìn)行改造,并采用相應(yīng)合適的最優(yōu)化算法,以追求最好的效果。
不論前人的模型怎么美妙,都是基于當(dāng)時(shí)觀察到的數(shù)據(jù)先驗(yàn)特點(diǎn)設(shè)計(jì)的。比如說 LDA,就是在語(yǔ)料質(zhì)量不高的情況下,在 PLSA 基礎(chǔ)上引入貝葉斯估計(jì),以獲得更加穩(wěn)健的主題。雖說用 LDA 不會(huì)大錯(cuò),但是要在你的具體問題上跑出最好的效果,根據(jù)數(shù)據(jù)特點(diǎn)做模型上的精準(zhǔn)改造,是不可避免的。
互聯(lián)網(wǎng)數(shù)據(jù)這一現(xiàn)象更加明顯,因?yàn)闆]有哪兩家公司擁有的數(shù)據(jù)是相似的。百度的點(diǎn)擊率模型,有數(shù)十億的特征,大規(guī)模的定制計(jì)算集群,獨(dú)特的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),你能抄么?抄過來也沒用。用教科書上的模型不變應(yīng)萬(wàn)變,結(jié)果只能是刻舟求劍。
改造模型的能力,就不是用幾個(gè)開源工具那么簡(jiǎn)單了,這需要有兩方面的素養(yǎng):
一、深入了解機(jī)器學(xué)習(xí)的原理和組件。機(jī)器學(xué)習(xí)領(lǐng)域,有很多看似不那么直接有用的基礎(chǔ)原理和組件。比方說,正則化怎么做?什么時(shí)候應(yīng)該選擇什么樣的基本分布?(如下表) 貝葉斯先驗(yàn)該怎么設(shè)??jī)蓚€(gè)概率分布的距離怎么算?當(dāng)你看到前輩高人把這些材料烹調(diào)在一起,變成 LDA、CNN 這些成品菜肴端上來的時(shí)候,也要想想如果自己下廚,是否了解食材,會(huì)不會(huì)選擇和搭配。僅僅會(huì)吃幾個(gè)菜,說出什么味道,離好廚師差的還遠(yuǎn)著呢。
二、熟練掌握最優(yōu)化方法。機(jī)器學(xué)習(xí)從業(yè)者不懂最優(yōu)化,相當(dāng)于武術(shù)家只會(huì)耍套路。這就跟雷公太極和閆芳大師一樣,實(shí)戰(zhàn)起來一定是鼻青臉腫。管你設(shè)計(jì)了一個(gè)多牛逼的模型,如果無法在有限的計(jì)算資源下找出最優(yōu)解,那么不過是個(gè)花瓶罷了。
最優(yōu)化,是機(jī)器學(xué)習(xí)最、最、最重要的基礎(chǔ)。你要知道,在目標(biāo)函數(shù)及其導(dǎo)數(shù)的各種情形下,應(yīng)該如何選擇優(yōu)化方法;各種方法的時(shí)間空間復(fù)雜度、收斂性如何;還要知道怎樣構(gòu)造目標(biāo)函數(shù),才便于用凸優(yōu)化或其他框架來求解。而這些方面的訓(xùn)練,要比機(jī)器學(xué)習(xí)的模型還要扎實(shí)才行。
拿大家以為"以不變應(yīng)萬(wàn)變"的深度學(xué)習(xí)舉個(gè)例子。用神經(jīng)網(wǎng)絡(luò)處理語(yǔ)音識(shí)別、自然語(yǔ)言處理這種時(shí)間序列數(shù)據(jù)的建模,RNN(見上圖)是個(gè)自然的選擇。不過在實(shí)踐中,大家發(fā)現(xiàn)由于“梯度消失”現(xiàn)象的存在,RNN 很難對(duì)長(zhǎng)程的上下文依賴建模。而在自然語(yǔ)言中,例如決定下面的 be 動(dòng)詞是“is”還是“are”這樣的問題,有可能往前翻好多詞才能找到起決定作用的主語(yǔ)。怎么辦呢?天才的J. Schmidhuber 設(shè)計(jì)了帶有門結(jié)構(gòu)的 LSTM 模型(見下圖),讓數(shù)據(jù)自行決定哪些信息要保留,那些要忘掉。如此以來,自然語(yǔ)言的建模效果,就大大提高了。大家初看下面兩張 RNN 與 LSTM 的結(jié)構(gòu)對(duì)比,面對(duì)憑空多出來的幾個(gè)門結(jié)構(gòu)可能一頭霧水,唯有洞徹其中的方法論,并且有扎實(shí)的機(jī)器學(xué)習(xí)和最優(yōu)化基礎(chǔ),才能逐漸理解和學(xué)習(xí)這種思路。
當(dāng)然,LSTM 這個(gè)模型是神來之筆,我等對(duì)此可望不可及。不過,在這個(gè)例子里展現(xiàn)出來的關(guān)鍵能力:根據(jù)問題特點(diǎn)調(diào)整模型,并解決優(yōu)化上的障礙,是一名合格的算法工程師應(yīng)該追求的能力。年薪 50 萬(wàn)能找到這樣的人,是物有所值的。
第三層次"Objective":擅定義問題
這個(gè)層次的工程師(哦,似乎叫工程師不太合適了),扔給他一個(gè)新的實(shí)際問題,可以給出量化的目標(biāo)函數(shù)。
當(dāng)年,福特公司請(qǐng)人檢修電機(jī),斯坦門茨在電機(jī)外殼畫了一條線,讓工作人員在此處打開電機(jī)迅速排除了故障。結(jié)賬時(shí),斯坦門茨要 1 萬(wàn)美元,還開了個(gè)清單:畫一條線,1 美元;知道在哪兒畫線,9999 美元。
同樣的道理,在算法領(lǐng)域,最難的也是知道在哪里畫線,這就是對(duì)一個(gè)新問題構(gòu)建目標(biāo)函數(shù)的過程。而有明確的量化目標(biāo)函數(shù),正是科學(xué)方法區(qū)別于玄學(xué)方法、神學(xué)方法的重要標(biāo)志。
目標(biāo)函數(shù),有時(shí)能用一個(gè)解析形式(Analytical form)寫出來,有時(shí)則不能。比方說網(wǎng)頁(yè)搜索這個(gè)問題,有兩種目標(biāo)函數(shù):一種是 nDCG,這是一個(gè)在標(biāo)注好的數(shù)據(jù)集上可以明確計(jì)算出來的指標(biāo);另一種則是人工看 badcase 的比例,顯然這個(gè)沒法用公式計(jì)算,但是其結(jié)果也是定量的,也可以作為目標(biāo)函數(shù)。
定義目標(biāo)函數(shù),初聽起來并沒有那么困難,不就是制定個(gè) KPI 么?其實(shí)不然,要做好這件事,在意識(shí)和技術(shù)上都有很高的門檻。
一、要建立“萬(wàn)般皆下品、唯有目標(biāo)高”的意識(shí)。一個(gè)團(tuán)隊(duì)也好、一個(gè)項(xiàng)目也好,只要確立了正確的、可衡量的目標(biāo),那么達(dá)到這個(gè)目標(biāo)就只是時(shí)間和成本的問題。假設(shè) nDCG 是搜索的正確目標(biāo)函數(shù),那么微軟也好、Yahoo!也好,遲早也能追上 Google,遺憾的是,nDCG 這個(gè)目標(biāo)是有點(diǎn)兒?jiǎn)栴}的,所以后來這兩家被越拉越遠(yuǎn)。
所謂“本立而道生”:一個(gè)項(xiàng)目開始時(shí),總是應(yīng)該先做兩件事:一是討論定義清楚量化的目標(biāo)函數(shù);二是搭建一個(gè)能夠?qū)δ繕?biāo)函數(shù)做線上A/B測(cè)試的實(shí)驗(yàn)框架。而收集什么數(shù)據(jù)、采用什么模型,倒都在其次了。
二、能夠構(gòu)造準(zhǔn)確(信)、可解(達(dá))、優(yōu)雅(雅)的目標(biāo)函數(shù)。目標(biāo)函數(shù)要盡可能反應(yīng)實(shí)際業(yè)務(wù)目標(biāo),同時(shí)又有可行的優(yōu)化方法。一般來說,優(yōu)化目標(biāo)與評(píng)測(cè)目標(biāo)是有所不同的。比如說在語(yǔ)音識(shí)別中,評(píng)測(cè)目標(biāo)是“詞錯(cuò)誤率”,但這個(gè)不可導(dǎo)所以沒法直接優(yōu)化;因此,我們還要找一個(gè)“代理目標(biāo)”,比如似然值或者后驗(yàn)概率,用于求解模型參數(shù)。評(píng)測(cè)目標(biāo)的定義往往比較直覺,但是要把它轉(zhuǎn)化成一個(gè)高度相關(guān),又便于求解的優(yōu)化目標(biāo),是需要相當(dāng)?shù)慕?jīng)驗(yàn)與功力的。在語(yǔ)音建模里,即便是計(jì)算似然值,也需要涉及 Baum-Welch 等比較復(fù)雜的算法,要定義清楚不是簡(jiǎn)單的事兒。
優(yōu)雅,是個(gè)更高層次的要求;可是在遇到重大問題時(shí),優(yōu)雅卻往往是不二法門。因?yàn)?,往往只有漂亮的框架才更接近問題的本質(zhì)。關(guān)于這點(diǎn),必須要提一下近年來最讓人醍醐灌頂?shù)拇笞?mdash;—生成對(duì)抗網(wǎng)絡(luò)(GAN)。
GAN 要解決的,是讓機(jī)器根據(jù)數(shù)據(jù)學(xué)會(huì)畫畫、寫文章等創(chuàng)作性問題。機(jī)器畫畫的目標(biāo)函數(shù)怎么定?聽起來是一頭霧水。我們?cè)缒曜鲱愃频恼Z(yǔ)音合成問題時(shí),也沒什么好辦法,只能找人一句句聽來打分。令人拍案叫絕的是,Ian GoodFellow 在定義這個(gè)問題時(shí),采取了下圖的巧妙框架:
既然靠人打分費(fèi)時(shí)費(fèi)力,又不客觀,那就干脆讓機(jī)器打分把!好在讓機(jī)器認(rèn)一幅特定語(yǔ)義的圖畫,比如說人臉,在深度學(xué)習(xí)中已經(jīng)基本解決了。好,假設(shè)我們已經(jīng)有一個(gè)能打分的機(jī)器D,現(xiàn)在要訓(xùn)練一個(gè)能畫畫的機(jī)器G,那就讓G不斷地畫,D不斷地打分,什么時(shí)候G的作品在D那里得分高了,就算是學(xué)成了。同時(shí),D在此過程中也因?yàn)榇罅拷佑|仿品而提升了鑒賞能力,可以把G訓(xùn)練得更好。有了這樣定性的思考還不夠,這樣一個(gè)巧妙設(shè)計(jì)的二人零和博弈過程,還可以表示成下面的數(shù)學(xué)問題:
這樣一個(gè)目標(biāo),優(yōu)雅得象個(gè)哲學(xué)問題,卻又實(shí)實(shí)在在可以追尋。當(dāng)我看到這個(gè)式子時(shí),頓時(shí)覺得教會(huì)機(jī)器畫畫是個(gè)不太遠(yuǎn)的時(shí)間問題了。如果你也能對(duì)這樣的問題描述感到心曠神怡,就能體會(huì)為什么這才是最難的一步。
一個(gè)團(tuán)隊(duì)的定海神針,就是能把問題轉(zhuǎn)化成目標(biāo)函數(shù)的那個(gè)人——哪怕他連開源工具都不會(huì)用。100 萬(wàn)找到這樣的人,可真是撿了個(gè)大便宜。
在機(jī)器學(xué)習(xí)領(lǐng)域,算法工程師腳下的進(jìn)階之路是清晰的:當(dāng)你掌握了工具、會(huì)改造模型,進(jìn)而可以駕馭新問題的建模,就能成長(zhǎng)為最優(yōu)秀的人才。沿著這條路踏踏實(shí)實(shí)走下去,100 萬(wàn)并不是什么問題。什么?您說還有 300 萬(wàn)的呢?這個(gè)不用眼熱,人家只不過把你寫代碼的時(shí)間都用來跳槽了而已。
來自: mp.weixin.qq.com
關(guān)鍵詞: 廣州網(wǎng)站制作、廣州網(wǎng)站制作公司、廣州網(wǎng)站建設(shè)、廣州網(wǎng)站建設(shè)公司、廣州網(wǎng)站設(shè)計(jì)、廣州網(wǎng)站設(shè)計(jì)公司、廣州做網(wǎng)站、廣州做網(wǎng)站公司、廣州品牌網(wǎng)站制作、廣州品牌網(wǎng)站制作公司,廣州微網(wǎng)站制作、廣州微網(wǎng)站制作公司、番禺網(wǎng)站建設(shè)、番禺網(wǎng)站制作