亚洲精品中字中出无码,呱呱爆料网每日爆料,精品影院,《人奶魔劫》完整版,成全视频在线观看免费观看

crm系統

免費試用400-821-5041


機器學習的七個最佳實踐

時(shi)間: 2020-03-15來源: Salesforce知識

機器學習

Netflix著(zhu)名的(de)算法挑戰賽,向預測(ce)用戶對電影評分的(de)較佳算法頒發了100萬美元的(de)獎金(jin)。但是(shi)您知道獲勝算法從未實現到(dao)功能模(mo)型中嗎?

 

Netflix報道(dao)說,該算法取得的(de)(de)成果似乎并不能(neng)證明將其引入生產環(huan)境(jing)所需的(de)(de)工(gong)(gong)程工(gong)(gong)作是合理的(de)(de)。這是機器學習的(de)(de)一大問題。

 

在您的公司,您可以創建任何人都見過的非常優雅的機器學習模型,即使您從不部署和操作它也沒有關系。但這并非易事,這就是為什么我們向您展示機器學習的七個最佳實踐的原因。

 

本文內容整理(li)于對近期參(can)與數(shu)據和(he)分析峰會的數(shu)據挖掘和(he)分析產(chan)品管理(li)總(zong)監Charlie Berger的采(cai)訪。

 

將模型付諸實踐的時間可能比您想象的要長。TDWI的一份報告發現,28%的受訪者花了三到五個月的時間才將他們的模型投入使用。幾乎有15%的人需要超過9個月的時間。

機器學習

那么(me),您如何做才能開始更快(kuai)地部署機(ji)器(qi)學習呢?在這(zhe)里列出了(le)我們的建議(yi):

 

1.別忘了開(kai)始行動(dong)

在以(yi)下(xia)幾點(dian)(dian)中,我(wo)們將(jiang)為您提供一系列(lie)不同(tong)的(de)方法,以(yi)確保以(yi)更佳方式使用您的(de)機器學習模型。但是我(wo)們從(cong)更重要的(de)一點(dian)(dian)開(kai)始。

 

事實是(shi),在機器學習的這個(ge)階段,許(xu)(xu)多人根本就沒有(you)開(kai)始(shi)。發(fa)生這種情況的原因有(you)很多。技術很復雜,也許(xu)(xu)買不(bu)到,或者人們(men)只(zhi)是(shi)難以把每件事都做好。所以這是(shi)Charlie的建議:“即(ji)使您知道不(bu)得不(bu)每月重建一次模型,也要開(kai)始(shi)使用。因為你從中學到的東西是(shi)無價的。”

 

2.從業(ye)務問題(ti)陳(chen)述(shu)開始,建(jian)立(li)正確的成(cheng)功指標(biao)

從業務問題入手是(shi)常見(jian)的機器學(xue)習更佳實踐。但(dan)它(ta)之所以(yi)常見(jian),恰恰是(shi)因為它(ta)是(shi)如(ru)此重要,但(dan)許多人(ren)卻不把它(ta)放在(zai)首位。

 

想一想這(zhe)(zhe)句話:“如果我有(you)一個小(xiao)時來(lai)解決一個問(wen)題,我會花(hua)55分鐘思考這(zhe)(zhe)個問(wen)題,5分鐘思考解決方(fang)案(an)。”

 

現在,請確保將其應用(yong)到機器學(xue)習場景中。下面,我們列出了定義(yi)不明確的問題(ti)陳述(shu)以及以更(geng)具體(ti)的方式(shi)(shi)定義(yi)問題(ti)的方式(shi)(shi)示例。

機器學習

想(xiang)想(xiang)你對(dui)盈利能力的(de)(de)定義是(shi)什么。例如,我們(men)近期與一家全國(guo)性的(de)(de)快餐連鎖店進行了洽談,他們(men)希望增加軟飲料的(de)(de)銷量(liang)。在這種情況下,我們(men)必須仔細考慮定義交(jiao)易的(de)(de)含義。該交(jiao)易是(shi)單人餐,還是(shi)一家人的(de)(de)六人餐?這很重要,因為它會影響您顯示結(jie)果的(de)(de)方(fang)式。您必須考慮如何(he)解決該問題并將(jiang)其付諸實施。

 

除了(le)建立成功(gong)指(zhi)標之外(wai),您(nin)還(huan)需要建立正確的指(zhi)標。指(zhi)標將幫助您(nin)建立進(jin)度,但是改進(jin)指(zhi)標真的能(neng)改善終端用(yong)戶體驗嗎?例如(ru),您(nin)的傳統(tong)度量(liang)指(zhi)標可(ke)能(neng)包含精度和(he)平方誤差。但是,如(ru)果您(nin)試圖創建一(yi)個衡量(liang)航(hang)空(kong)公司價(jia)格優化(hua)的模(mo)型,那么您(nin)的每次購買成本(ben)和(he)總體購買成本(ben)沒有增加就沒關系。

 

3.不要移動數(shu)據–移動算法
預(yu)測建模(mo)(mo)的致命弱點(dian)是這(zhe)是一(yi)個兩步過程。首先,您通常基于樣本數(shu)據構建模(mo)(mo)型(xing)(xing),這(zhe)些數(shu)據的數(shu)量從(cong)數(shu)百到(dao)數(shu)百萬不等。然后,一(yi)旦建立了預(yu)測模(mo)(mo)型(xing)(xing),數(shu)據科學家就必(bi)須應用它。然而,這(zhe)些數(shu)據中的大(da)部分都駐(zhu)留在某個數(shu)據庫中。

 

假設您要獲(huo)得(de)美(mei)國所(suo)有人的數(shu)(shu)據。美(mei)國有3億6千萬(wan)人口,這些數(shu)(shu)據存放在(zai)哪里?可能在(zai)某(mou)個地方的數(shu)(shu)據庫中。

 

您的預測模型位于何處?

通常(chang)的(de)(de)情況是人(ren)們會把他(ta)們所有的(de)(de)數(shu)(shu)(shu)據(ju)(ju)從數(shu)(shu)(shu)據(ju)(ju)庫(ku)中取出來,這(zhe)樣(yang)他(ta)們就可以用(yong)他(ta)們的(de)(de)模型來運行(xing)方(fang)程。然后,他(ta)們必須將結(jie)果重(zhong)新導(dao)入數(shu)(shu)(shu)據(ju)(ju)庫(ku)以進行(xing)預測。這(zhe)個過(guo)程需要花費(fei)數(shu)(shu)(shu)小(xiao)時,甚至數(shu)(shu)(shu)天的(de)(de)時間,從而(er)降低(di)了您所構(gou)建的(de)(de)模型的(de)(de)效(xiao)率(lv)。

 

但(dan)是,從(cong)數(shu)(shu)(shu)據(ju)庫中(zhong)擴展(zhan)方程(cheng)具有顯著(zhu)的優勢。通過數(shu)(shu)(shu)據(ju)庫內(nei)核運行方程(cheng)式需要花費幾(ji)秒鐘,而導(dao)出數(shu)(shu)(shu)據(ju)需要花費數(shu)(shu)(shu)小時。然后(hou),數(shu)(shu)(shu)據(ju)庫也可以(yi)完成(cheng)所有數(shu)(shu)(shu)學運算并在數(shu)(shu)(shu)據(ju)庫中(zhong)構(gou)建它。對(dui)于數(shu)(shu)(shu)據(ju)科學家和(he)數(shu)(shu)(shu)據(ju)庫管理員來(lai)說(shuo),這意味著(zhu)一個(ge)世界。

 

通過將數(shu)(shu)據(ju)保(bao)留在數(shu)(shu)據(ju)庫和Hadoop或對象存儲中(zhong),您可(ke)以在數(shu)(shu)據(ju)庫中(zhong)構建模型(xing)和評分(fen),并(bing)使用(yong)具有數(shu)(shu)據(ju)并(bing)行(xing)調用(yong)的R包。這樣,您就可(ke)以消(xiao)除數(shu)(shu)據(ju)重復并(bing)分(fen)離(li)分(fen)析服務器(不(bu)移動數(shu)(shu)據(ju)),并(bing)且(qie)可(ke)以在數(shu)(shu)小時內(nei)對模型(xing)進行(xing)評分(fen),嵌(qian)入數(shu)(shu)據(ju)準備,構建模型(xing)和準備數(shu)(shu)據(ju)。

 

4.整合正確的數據
正如James Taylor和Neil Raden在Smart Enough System一(yi)書中所寫(xie),對您擁有(you)的所有(you)東西進(jin)行分(fen)類并確(que)(que)定(ding)哪些數據是重要的是處理問題(ti)的錯誤方(fang)法。正確(que)(que)的方(fang)法是從解(jie)決方(fang)案(an)開始,明確(que)(que)定(ding)義問題(ti),并繪(hui)制出構(gou)成(cheng)調查和模型(xing)所需的數據。

 

然(ran)后,是(shi)時(shi)候與其他(ta)團隊合作了。

 

機器學習

這是您可能開(kai)始陷入困境的地方。因此,我們將參考第1點,即“別忘了(le)真正(zheng)開(kai)始行動。”同時,整合正(zheng)確的數據(ju)對您的成功非常重要。

 

為使您找出(chu)用于填充調查和模型(xing)的正確數據,您需(xu)要(yao)與(yu)業務領(ling)域,信息(xi)技術(shu)和數據分(fen)析(xi)師(shi)這三個主要(yao)領(ling)域的人員進行交談。


業務領域-這些都是了解業務的人:
• 市場營銷和銷售
• 客戶服務
• 運營


信息技術-有權訪問數據的人:
• 數據庫管理員


數據分析師-了解業務的人:
•  統計員
•  數據挖掘者
•  數據科學家


您需要積極參與。沒有它,您將收到類似的評論:
• 這些線索都不好
• 數據過時了
• 該模型不夠精確
• 您為什么不使用這些數據?

 

5.創建新(xin)的派生變量(liang)
您可能會想(xiang),我(wo)已(yi)經掌(zhang)握了所(suo)有(you)這些數據。我(wo)還(huan)需(xu)要什么?

 

但是創建新的派生(sheng)變量可以幫助您獲得更多有(you)見地的信息。例如,您可能正在嘗試預測(ce)第二天報(bao)紙和雜(za)志的銷量。以下(xia)是你已經知道的信息:

• 實體店或售貨亭
• 賣彩票?
• 本次抽獎金額

 

當然,您可以根據該信息做出猜測。但是,如(ru)果您能夠首先比較當前(qian)彩票(piao)獎(jiang)賞金額與典型獎(jiang)賞金額,然后(hou)將(jiang)該派生變(bian)量與您已經擁有(you)的變(bian)量進行(xing)比較,您將(jiang)得到一個更準(zhun)確的答案。

 

6.在(zai)發布(bu)之前考慮問題并進行測(ce)試
理想情況下,一開(kai)始您(nin)應(ying)該能夠(gou)使用(yong)兩個(ge)或多(duo)個(ge)模型進行A / B測試。你(ni)(ni)(ni)不僅知道(dao)(dao)你(ni)(ni)(ni)怎么做是(shi)對的(de),而且當你(ni)(ni)(ni)知道(dao)(dao)你(ni)(ni)(ni)做的(de)是(shi)對的(de)時候(hou),你(ni)(ni)(ni)會更有(you)信心。

 

但是,除了(le)進(jin)行全面測試之(zhi)外,當(dang)事(shi)情出(chu)錯(cuo)時,你也應該有一(yi)個適當(dang)的計劃。例如,您(nin)的指標(biao)開始下(xia)降。有幾件事(shi)會涉及到這一(yi)點。您(nin)將需(xu)要某種形式的警(jing)報(bao),以確(que)保可以盡快調(diao)查此(ci)事(shi)。當(dang)副總裁進(jin)入您(nin)的辦公室(shi)想知道發生了(le)什(shen)么時,您(nin)將不(bu)得(de)不(bu)向可能沒有工程背景的人解(jie)釋發生了(le)什(shen)么。

 

當然(ran),在發布之(zhi)(zhi)前,您(nin)需要計劃一(yi)些(xie)問題(ti)。遵守法(fa)規(gui)是其中之(zhi)(zhi)一(yi)。例如,假設你申請汽車貸款卻被拒絕了。根據(ju)GDPR的新規(gui)定,您(nin)有權知道原因。當然(ran),機(ji)器(qi)學習的問題(ti)之(zhi)(zhi)一(yi)是它(ta)看(kan)起(qi)來像一(yi)個黑(hei)匣子(zi),甚至工程師/數據(ju)科學家也無法(fa)說(shuo)出為什么做(zuo)出某(mou)些(xie)決定。但是,某(mou)些(xie)公(gong)司將通過(guo)確保您(nin)的算法(fa)能提(ti)供(gong)預(yu)測細節來為您(nin)提(ti)供(gong)幫助。

 

7.在企業范圍內部署和自動化
部(bu)署后,不要局限于數(shu)據(ju)分析師或數(shu)據(ju)科學家(jia)。

 

我們的意思(si)是(shi),始(shi)終要(yao)(yao)(yao)思(si)考如何(he)在(zai)(zai)整個企業中(zhong)發(fa)布預測和可(ke)(ke)(ke)行的見解。重要(yao)(yao)(yao)的是(shi)了解數據在(zai)(zai)哪(na)里以及何(he)時可(ke)(ke)(ke)用,才使(shi)數據有價(jia)值;而(er)不是(shi)它存在(zai)(zai)的事(shi)實。您不想成為坐在(zai)(zai)象牙(ya)塔中(zhong)的人,發(fa)布一(yi)些零(ling)星(xing)的見解。您想要(yao)(yao)(yao)無處不在(zai)(zai),每個人都需要(yao)(yao)(yao)更(geng)多的見解-簡而(er)言(yan)之,你想要(yao)(yao)(yao)確保自己是(shi)不可(ke)(ke)(ke)或缺的,是(shi)極其(qi)有價(jia)值的。

 

鑒于我們所有(you)人(ren)都只有(you)這(zhe)么多時間,因(yin)此如果可以自動化的話(hua),這(zhe)是較(jiao)簡(jian)單(dan)的,創建(jian)儀(yi)表板。將(jiang)這(zhe)些見(jian)解納入(ru)企業應(ying)用程(cheng)序。看看您是否可以成為客戶接觸點的一部分,就(jiu)像一臺自動提款機能(neng)識別出客戶定期在每個(ge)周五晚上提取100美(mei)元,在每個(ge)發(fa)薪日(ri)之后提取500美(mei)元。

 

結論
這是機器學習更佳實踐的核心要素(su)。你需(xu)要良好(hao)的數據,否則將(jiang)(jiang)一事無成。您需(xu)要將(jiang)(jiang)其放在數據庫或對(dui)象存儲(chu)之類(lei)的地方。您需(xu)要深入了解數據以及知道如何處理數據,無論(lun)是創建新的派(pai)生(sheng)變量還是使用(yong)(yong)它們的正(zheng)確算法。然后,您需(xu)要實際使用(yong)(yong)它們從中獲得深入的見(jian)解,通(tong)過信息傳播它們。

 

其中較困(kun)難的部(bu)分(fen)是(shi)啟動(dong)您(nin)的機器學習(xi)項目。我們希望通過這(zhe)篇(pian)文章可以幫助您(nin)邁向成功。

 

編譯自:7 Machine Learning Best Practices 作者: Sherry Tiao (ORACLE)