物聯(lián)傳媒 旗下網(wǎng)站
登錄 注冊

商業(yè)化人工智能APP面臨的四大挑戰(zhàn)

作者:機器之心
來源:百度百家
日期:2015-12-14 14:17:19
摘要:人工智能(AI)的血統(tǒng)可以回溯到許多偉大的計算機理論家:圖靈,以及Babbage——計算機器的發(fā)明者。我們?nèi)缃裨趥惗厮吹降念I(lǐng)先的團隊,例如正致力于機器學(xué)習(xí)的DeepMind,正是從計算機科學(xué)到實踐和商業(yè)應(yīng)用的運動浪潮的一部分。

  人工智能(AI)的血統(tǒng)可以回溯到許多偉大的計算機理論家:圖靈,以及Babbage——計算機器的發(fā)明者。我們?nèi)缃裨趥惗厮吹降念I(lǐng)先的團隊,例如正致力于機器學(xué)習(xí)的DeepMind,正是從計算機科學(xué)到實踐和商業(yè)應(yīng)用的運動浪潮的一部分。

  不僅僅是去年收購DeepMind的谷歌,還是擁有50人AI實驗室的Facebook,都看到了這樣的潛力。在最近的大潮中,幾乎有六分之一的YC公司正在試行機器學(xué)習(xí),而IBM則為Watson——風(fēng)險估測超級計算機——的成功押下了數(shù)億美元。

  有上千個公司正在利用基礎(chǔ)設(shè)施來操控或洞察大數(shù)據(jù)。他們正基于對可編程數(shù)字化數(shù)據(jù)的分析來進行預(yù)測、推薦或執(zhí)行任務(wù)。

  我想在此來共享一些嘗試建立商業(yè)AI應(yīng)用的創(chuàng)業(yè)者們需要面對的挑戰(zhàn),以及一些公司是如何試著克服這些挑戰(zhàn)的。選擇、完善與結(jié)合他們的算法僅僅是成功創(chuàng)業(yè)者們深思熟慮的策略中的一小部分。其他重要的因素還包括:

  為特殊數(shù)據(jù)建立私有連接可以為基礎(chǔ)數(shù)據(jù)訓(xùn)練集建立基本。

  對直覺的產(chǎn)生有著清晰的認知,以及可以從數(shù)據(jù)中收集意義或估測需要人工分類數(shù)據(jù)的捆綁軟件。

  如果可能,建立一個數(shù)據(jù)模型,適應(yīng)新出現(xiàn)的數(shù)據(jù)源。

  一個訓(xùn)練有素的團隊可以寫出或改寫公用算法,為了目標(biāo)選擇正確的算法,并結(jié)合算法優(yōu)化結(jié)果。

  幾年前,任何類型的數(shù)據(jù)分析都會被貼上“數(shù)據(jù)科學(xué)”的標(biāo)簽。今天,AI也作為一個標(biāo)簽廣為采用,有些時候甚至文不對題。因此,首先要考慮什么可以被叫做AI。

  現(xiàn)在的商業(yè)化應(yīng)用是AI“狹窄”或“虛弱”形式。這意味著機器只專于某一個方面,并不能像人類(最常見的AI)一樣類比推廣。狹窄的AI是基于最熟悉的技術(shù),并第一次用于商業(yè)化。而真正的AI可以很快地成為一個為人了解的數(shù)據(jù)科學(xué)技術(shù)。

  一個很接近的方法便是“深度學(xué)習(xí)”,數(shù)據(jù)輸入在此并不被預(yù)先描述。反之,模式首先了解數(shù)據(jù)(以及數(shù)據(jù)結(jié)構(gòu)),然后,利用多層非線性反饋,學(xué)習(xí)數(shù)據(jù)的重要特性,甚至自我修改。

  這種技術(shù)已經(jīng)出現(xiàn)了20多年,但它的數(shù)據(jù)集中模式需要相應(yīng)計算能力的廣泛接入,后者到最近才得以實現(xiàn)。倫敦的創(chuàng)業(yè)團隊Improbable是利用大型計算能力與深度學(xué)習(xí)來模擬復(fù)雜環(huán)境——從開源游戲世界到真正城市——最令人激動的實例。

  但許多我們遇見的企業(yè)仍然想要將機械學(xué)習(xí)(ML)結(jié)合到他們的技術(shù)中。對于這些企業(yè)的大部分來說,當(dāng)我們挖掘表面之下的時候,ML并不是一個產(chǎn)品真正重要的部分。在很多的例子中,它只是一個讓項目看起來非常高端的導(dǎo)向牌。在另外一些情況下,即使它是真的,那也只是一個入場籌碼,并不會為競爭者提供技術(shù)上的阻礙。但它也有好的一面,它可以讓企業(yè)為客戶提供與日俱增的精確度與有效率的服務(wù)。

  例如,一些企業(yè)會使用商業(yè)代碼,后者由許多大量的開源資料庫。一個有趣的開源項目,提供分布式流與批量數(shù)據(jù)處理的Apache Flink聯(lián)合了許多公開ML算法的資料庫,將數(shù)據(jù)集的規(guī)模擴大。

  亞馬遜在四月發(fā)布了一個機械學(xué)習(xí)的服務(wù),像MetaMind一樣的企業(yè)計劃將AI作為服務(wù)提供給開發(fā)者,這是已經(jīng)人滿為患的預(yù)測分析的市場的擴展。因此現(xiàn)實是,大部分的著名算法與AI學(xué)習(xí)技術(shù)將會很快地商品化。

  由此,公司利用狹窄的AI制作產(chǎn)品需要謹而慎之,仔細思考該如何建立并提升他們的產(chǎn)品或者服務(wù)。

  護城河:訓(xùn)練數(shù)據(jù)

  訓(xùn)練數(shù)據(jù)是建立狹窄AI基本的產(chǎn)品的核心。企業(yè)需要找到結(jié)構(gòu)數(shù)據(jù)源來幫助建立可能的最佳模型。這種情況下,最佳意味著數(shù)據(jù)集足夠大以用來學(xué)習(xí),并且足夠多樣以幫助大量客戶,而不是僅僅一個客戶,而機器可以利用結(jié)果來緊密地提升自己的處理以及決策。

  機器學(xué)習(xí)理論提出,有了無限的數(shù)據(jù),我們可以擁有所有的算法來生產(chǎn)相似質(zhì)量的結(jié)果。因此如果企業(yè)對特殊數(shù)據(jù)有了私人接入口,他們會堅持商品化,并通過持續(xù)學(xué)習(xí)如何基于終端客戶的互動來提升算法,以此加強自己的領(lǐng)先位置。最著名的例子就是谷歌利用點擊流數(shù)據(jù)作為私人訓(xùn)練數(shù)據(jù)源,進化搜索排序結(jié)果。

  當(dāng)我們以前這樣嘗試的時候,公司們有時候會將收益增長與價值創(chuàng)造相混淆。選擇基于簡單可得的數(shù)據(jù)集來短期收益的項目就不可能會獲得一個不同的,有價值的應(yīng)用。

  舉例來說,Digital Genius是倫敦與紐約的一個企業(yè),研究自動化客戶服務(wù)對話。創(chuàng)始人在早些年自力更生,雖然這樣的方式令人欽佩,但初始的技術(shù)與商業(yè)選擇卻是不可擴展的。它的第一代技術(shù)版本非常靈活,但需要高度定制。另外,它最開始的需求是市場服務(wù)中的低價值的應(yīng)用,這樣的結(jié)合并不能吸引那時的風(fēng)投者。

  然而,公司仍然找到了它的方向。這個團隊首先為了不同文本的AI應(yīng)用,創(chuàng)造了一個可以重復(fù)利用的平臺,并從工具箱開始。其次,它找到了自動化文本交流中高價值的核心。重要的是,算法基于(和其他數(shù)據(jù)庫一起)對大量實時呼叫中心文本的分析,因此可以獲得可復(fù)制的產(chǎn)品,并作為大型生意的基本。

  從數(shù)據(jù)集中獲取洞察與意義的技術(shù)驅(qū)動處理

  獲取有用的數(shù)據(jù)集是唯一的開始:系統(tǒng)需要從數(shù)據(jù)中采集元數(shù)據(jù),并以其作為輸入來提升機器的準(zhǔn)確度。

  我們發(fā)現(xiàn)最好的AI為主的企業(yè)們以提升算法的生產(chǎn)力、精煉能力和準(zhǔn)確度。它需要大量迭代與時間——還有數(shù)據(jù)——來做到。

  舉例來說,Unbabel是里斯本與洛杉磯的企業(yè),以增強翻譯為核心任務(wù)。它必須要創(chuàng)造一個可延展的方法為譯者來注釋、修改并否決機器的翻譯。這種Unbabel的翻譯者所使用的工作流軟件可以評估翻譯的準(zhǔn)確度,并且令人震驚的細致。不是簡單的是/否/也許的判斷,而是15到20個估測準(zhǔn)確的方法可以為譯者使用,提供了許多替代品。準(zhǔn)確度還包括了品牌對于Unbabel商業(yè)客戶的適合度。機器會利用這些反饋來自我進化。

  這是個智能化且有效執(zhí)行的模型提升的方法。它解決了質(zhì)量與規(guī)模的難題,而不僅僅是效率,并承認這個機器還在進步之中,并不能滿足翻譯任務(wù)的徹底自動化。

  訓(xùn)練數(shù)據(jù)與機器準(zhǔn)確度的迭代組合數(shù)據(jù)許多企業(yè)進行研發(fā)的核心。

  如何讓它總是有效?

  很對陣對于AI應(yīng)用的評論讓創(chuàng)造它們聽起來很簡單易懂,但實際上只有AI自身是不夠的。和許多眼花繚亂的軟件一起,企業(yè)們在利用AI時需要多個平臺上競爭,并讓產(chǎn)品和服務(wù)更易上手。

  即使選擇了正確的算法,識別了有用的數(shù)據(jù)集,有了能夠提升的處理方法,規(guī)模機械學(xué)習(xí)(ML)也足夠堅實,企業(yè)們還是經(jīng)常只處于起點的位置。許多挑戰(zhàn)(并且常常是值得風(fēng)險投資基金資助的)需要在不同前沿方向的創(chuàng)新。即使是對于那些方向十分狹窄的企業(yè)們,工程上的挑戰(zhàn)也依舊是多維度的。

  IT公司Moogsoft就是個很好的例子(透露下,我就是一個天使投資人)。Phil Tee是Moog的創(chuàng)始人與執(zhí)行總裁,他已經(jīng)創(chuàng)立過五次公司,作為Micromuse的創(chuàng)始首席技術(shù)官主管網(wǎng)絡(luò)運營。他的目標(biāo)是解決如何處理上百萬不同事件數(shù)據(jù)點,并讓IT運作通過全棧來評估。

  他意識到他需要建立一種機器,沒有模型,并讓運行中的新數(shù)據(jù)源有效。這需要技術(shù)印章來建立相關(guān)的算法,共同來處理未標(biāo)記的數(shù)據(jù)。Phil繼而進一步通過預(yù)測錯誤來打破附加地——同時在規(guī)模上實時調(diào)整機器的處理工作。

  團隊還需要對企業(yè)利用案例有所理解,讓軟件在處理與故障排除、為受到影響的機構(gòu)提供透明化。這樣的結(jié)合不是一件小事。

  AI許多讓我們感到興奮的潛在應(yīng)用——例如自動生成代碼、QA或優(yōu)化平臺、金融供應(yīng)鏈中的自動風(fēng)險與借貸決策、自動化法律文件與合約分析、或自動化視覺評價如健康檢查或保險條約調(diào)整——許多都屬于企業(yè)管理的范疇之內(nèi),以及無法直接解決的工程挑戰(zhàn)。

  如何組建正確的團隊?

  組建正確的團隊是一個挑戰(zhàn)。從世界上最優(yōu)秀的計算機語言學(xué)、機械學(xué)習(xí)與數(shù)據(jù)科學(xué)專業(yè)畢業(yè)的研究生都無法滿足要求。谷歌與Facebook以引起爭議的撒網(wǎng)式方法挑選雇員,并同時提供給他們大量的資源來解釋廣義或狹窄AI的難題。這些雇員的薪水是小型企業(yè)難以提供的,后者不得不轉(zhuǎn)而向全球范圍招攬領(lǐng)域內(nèi)最佳的隊員。

  最重要的是,企業(yè)必須給雇員們最刺激的問題,這樣才能吸引世界水平的團隊。至少,像我們所展示的,有價值的問題很有可能就是困難的問題。僅僅是足夠的薪水還不足以滿足這些最杰出的人。一旦ML團隊組建完成,如同Moog一樣,還需要更廣泛的技能來讓機器成為一個具有商業(yè)利益的產(chǎn)品。

  AI,預(yù)測分析與數(shù)據(jù)科學(xué)所驅(qū)動的企業(yè)會在規(guī)模上逐漸增長,并愈發(fā)重要。而引導(dǎo)它們的建立也并不是一蹴而就的事情。

  如果你正在這個領(lǐng)域內(nèi)一個有著遠大志向的項目里工作,意識到它的獨一無二,具有專有的訓(xùn)練數(shù)據(jù),擁有了可以資本化數(shù)據(jù)所得視角的產(chǎn)品與商業(yè)模式,并且還有一個強大的團隊來通往市場,請和我聯(lián)系,我們想了解更多。

人物訪談