破解機器學習的誤區——常見機器學習神話究竟從何而來?

破解機器學習的誤區——常見機器學習神話究竟從何而來?

CDA資料分析師 出品

Forrester Research最近釋出了一份名為“ 粉碎機器學習的七個神話”的報告。在其中,作者警告說:“不幸的是,一些對機器學習專案做出重要決策的企業領導者,普遍存在機器學習的誤解。”

當高管和經理談論AI以及機器學習時,他們有時會犯一些事實錯誤,顯示出他們真正的知識水平。

卡爾森說:“當產品負責人說諸如“我們正在使用強化學習,因為我們將使用者反饋納入趨勢模型中”時,這可能不是一件好事。“我曾經和其他分析師一起參加過座談會,聽到的聲音是,‘無監督的學習中,您不再需要人工參與或培訓’,而您正在等什麼呢?”

ABI首席分析師 Lian Jye Su表示,根據他的經驗,大多數高管圍繞機器學習的基本知識和“垃圾進,垃圾出”的原則有一些想法,但是他們中的大多數人都認為機器學習模型是黑匣子,而機器學習需要大量資料。

“我認為這主要是由於卷積神經網路的普遍存在,它需要大量資料,並且在更多數量的卷積層上可以更好地工作,而且我相信,一旦其他機器學習演算法變得越來越流行,這種看法就會慢慢消失,Lian Jye Su說。

一個問題是教育。決策者究竟應該在哪裡學習有關機器學習的真相?儘管Forrester的Carlsson認為兩者之間的交集不見了,但從業人員和企業級別的選擇仍然很多。

破解機器學習的誤區——常見機器學習神話究竟從何而來?

▲福斯特(Frester)凱爾·卡爾森(Kjell Carlsson)

“我認為我們需要做最多工作和最大幫助的地方是幫助業務方面的人們充分了解該技術,從而知道這實際上有什麼用?我可以將其應用於哪些型別的問題?” 卡爾森說。

以下是導致常見誤解的一些因素。

術語不是很容易理解

問題的一部分是術語本身。人們有時將人工智慧解釋為像人一樣思考的機器,而將機器學習解釋為像人一樣學習的機器。

ABI Research的Su說:“資料科學家並不是最擅長的術語。” “我認為我們應該部分歸咎於分析師,因為我們經常用大膽的話來介紹新技術。”

不切實際的期望

人們普遍誤以為AI是一門強大的東西,這導致人們相信AI可以做任何事情。替代地,當不同的技術適合於不同型別的用例時,有時將深度學習解釋為比其他形式的機器學習“更好”。

Forrester的Carlsson說,僅僅從您想要的東西開始,例如用虛擬座席替換呼叫中心中的每個人,並不是很有幫助。他們以增強的方式建立起來,以幫助呼叫中心中的某人。

ABI Research的Su表示,不切實際的期望是炒作接管理性思考的一種情況。根據他的經驗,高管們對期望不可能或不可能實現的想法越來越少。

破解機器學習的誤區——常見機器學習神話究竟從何而來?

▲蘇連傑(Alian Research)

無法理解機器學習的機率性質

傳統上,軟體是確定性地構建的,這意味著給定的輸入應導致給定的輸出。基於規則的AI也是如此。另一方面,機器學習有一定的誤差。

Forrester的Carlsson說:“在機器學習世界中,您極有可能永遠無法預測要預測的事物,因為訊號不在您擁有的資料中。”

ABI Research的Su表示反對使用機器學習的論點之一是結果的機率性質。它從來沒有像工業機器視覺中使用的常規基於規則的AI那樣清晰。

忽略重要細節

一家發動機製造商希望預測何時需要更換零件。該公司擁有大量有關發動機和發動機故障的資料,但是所有資料都是實驗室資料。現場沒有執行發動機感測器。因此,該模型實際上無法按預期部署。Forrester的Carlsson說:“在組織中,實際上沒有人監督資料工程方面(機器學習方面)的所有不同事務。”

在技術能力和這些能力的ROI之間可能會丟失一些常識。例如,已經建立了一些模型,可以為銷售人員推薦良好的客戶。問題是銷售人員已經知道了這些帳戶。

無法理解機器學習“成功”的含義

外行對機器學習和AI的期望往往超出實際。儘管100%的精度看似合理,但在一些情況下,可以花大量時間和金錢再提高1%的精度。

上下文很重要。

例如,當某人的生命或自由受到威脅時,準確度水平會有所不同,而某個百分比的人口可能會因某些事情而受到輕微冒犯。

“圍繞量化問題,有一種完整的思路,根據AI任務的性質,可以合理地降低AI模型的精度,這是一個折衷方案,但前提是這需要在AI上進行部署。邊緣裝置”,ABI Research的Su說。“畢竟,我們的人通常不那麼準確。話雖如此,某些應用程式,例如物件分類,缺陷檢查和裝配線上的質量保證,確實有要求重複性的嚴格要求,而這正是傳統的基於規則的AI所在的地方。

可能是首選。

弗雷斯特(Forrester)的卡爾森(Carlsson)說,每個人都可以建立一個模型,該模型幾乎可以產生99。99%的準確性。預測恐怖主義就是一個例子。這種情況很少發生,因此如果該模型始終都沒有預測到恐怖主義,那麼它將是一個非常準確的模型。

未能輕易獲勝

科幻小說和廣告使人們相信,有些情況下,他們應該在AI和機器學習方面做得非凡。

Carlsson說:“當您說機器學習或AI時,人們會自動認為他們應該去模仿人類的行為,而這往往會錯過這項技術的巨大潛力。” “機器學習技術確實擅長大規模處理資料,並進行我們人類真正可怕的大規模分析。”

破解機器學習的誤區——常見機器學習神話究竟從何而來?

要記住的7個技巧

1。瞭解機器學習的功能和侷限性,並在某種程度上了解適合不同技術的用例。這樣,您不太可能說出技術上不準確的內容。

2。一種機器學習技術並不適合所有情況。分類(例如識別貓和狗的圖片)不同於在資料中查詢以前未發現的訊號。

3。機器學習不是“一勞永逸”技術的集合。生產中的模型傾向於“漂移”,這意味著它們變得不太準確。機器學習模型必須進行調整和重新訓練,以保持其準確性。

Forrester的Carlsson表示:“在軟體開發中,人們對迭代的必要性有這種理解。” “當涉及到依賴機器學習模型的應用程式時,它們必須進行更多的迭代,因為您要迭代資料,實際業務和您串聯使用的方法。因為我們不知道您擁有哪些資料,或者您不知道該資料可以支援哪些業務場景,所以它確實固定在專案開始時。”

4。機器學習的準確性與實際資料有關。除了考慮與潛在錯誤相關的風險外,還應瞭解隨著時間推移可能發生的變化。

Carlsson說:“ 50。1%的計算機視覺模型很棒。或者您可以說60%或70%的精度比我們以前做的要好得多。”

5。上下文至關重要。無論上下文如何,人工智慧和機器學習都無法獲得相同的結果。上下文確定了更好或更差的技術以及給定情況下可接受或不可接受的置信度。

上下文還與解決某個問題所需的資料以及偏差是可接受的還是不可接受的有關。例如,歧視通常被認為是一件壞事,但是為什麼銀行不會只向任何人貸款數百萬美元,這是可以理解的。

Su說:“在很多情況下,機器學習絕對不利於識別隱藏在資料中的過去偏差。在其他情況下,資料質量很重要,例如畫素數,清晰的註釋和乾淨的資料集。” 。

另一方面,如果資料錯誤,則最乾淨的資料將無濟於事。

“人們以為機器學習,甚至AI都將在資料不存在且行不通的情況下以某種方式做出神奇的事情。相反,人們假設只要我們擁有大量資料, Forrester的Carlsson說,我們將能夠做一些神奇的事情,而這通常都不成立。“在正確的事情上擁有不良質量的資料實際上可以比在錯誤的事情上擁有大量資料更好。”

6。瞭解機器學習是硬體和軟體的結合。具體來說,ABI Research的Su說,軟體功能將僅與硬體可以交付或旨在交付的能力一樣好。

7。傳統的基於規則的AI可能會與基於機器學習的AI並存相當長的一段時間。蘇說,某些任務將繼續需要確定性的決策,而不是機率性的決策。

破解機器學習的誤區——常見機器學習神話究竟從何而來?