導(dǎo)讀:身處被廣泛熱議的人工智能時(shí)代, 人們普遍意識到,AI技術(shù)確實(shí)已經(jīng)成為“無往不利”的神器一枚,不但日常生活不斷提升的便利性要TA趕來幫忙,就連日漸被熱議的企業(yè)數(shù)字化轉(zhuǎn)型也少不了TA的杰出貢獻(xiàn),TA呢?早就成為開發(fā)者群體以及企業(yè)們爭相“追趕并擁抱”的對象!
身處被廣泛熱議的人工智能時(shí)代, 人們普遍意識到,AI技術(shù)確實(shí)已經(jīng)成為“無往不利”的神器一枚,不但日常生活不斷提升的便利性要TA趕來幫忙,就連日漸被熱議的企業(yè)數(shù)字化轉(zhuǎn)型也少不了TA的杰出貢獻(xiàn),TA呢?早就成為開發(fā)者群體以及企業(yè)們爭相“追趕并擁抱”的對象!
身處被廣泛熱議的人工智能時(shí)代, 人們普遍意識到,AI技術(shù)確實(shí)已經(jīng)成為“無往不利”的神器一枚,不但日常生活不斷提升的便利性要TA趕來幫忙,就連日漸被熱議的企業(yè)數(shù)字化轉(zhuǎn)型也少不了TA的杰出貢獻(xiàn),TA呢?早就成為開發(fā)者群體以及企業(yè)們爭相“追趕并擁抱”的對象!
如此背景下,怎樣在“認(rèn)知、算法、數(shù)據(jù)”三重作用下,降低AI落地的門檻?
如何幫助企業(yè)降低研發(fā)成本、加速方案迭代并完美實(shí)現(xiàn)AI 產(chǎn)品化?
或許這些統(tǒng)統(tǒng)都可以歸結(jié)為“云知道”
這不,就在前不久剛剛結(jié)束的UCan下午茶深圳站活動中,多位技術(shù)大咖針對以上問題進(jìn)行了深入探討,涉及AI 與公有云平臺、云計(jì)算助力AI快速完成底層架構(gòu)搭建等諸多關(guān)于“云+AI”的技術(shù)方向,干貨滿滿。
沙龍現(xiàn)場座無虛席
現(xiàn)場超百位開發(fā)者熱情參與了交流與互動,尤其對AI平臺、UCloud安全屋產(chǎn)品、NLP 技術(shù)以及AutoML等十分關(guān)注。此外,這些探討也將為云計(jì)算與AI相關(guān)領(lǐng)域的從業(yè)者們提供借鑒與新思路,并十分值得廣大開發(fā)者們認(rèn)真學(xué)習(xí)與總結(jié)!
AI公有云平臺實(shí)踐
如今AI技術(shù)在適應(yīng)不同場景時(shí)所呈現(xiàn)的算法形式多種多樣,為了實(shí)現(xiàn)更多場景的兼容性,高效的平臺建設(shè)對廣大開發(fā)者來說必不可少。
UCloud LabU深度學(xué)習(xí)開發(fā)工程師范融在“AI公有云平臺實(shí)踐”的主題分享中表示,在整個(gè)研發(fā)周期中,面對源于AI 的諸多問題,無論是企業(yè)還是開發(fā)者自然都要選擇可以兼容更多深度學(xué)習(xí)算法以及框架,并保證存儲、網(wǎng)絡(luò)性能優(yōu)勢解決方案。
可見,一個(gè)優(yōu)質(zhì)的平臺恰好可以達(dá)到靈活的橫向擴(kuò)展能力以及對業(yè)務(wù)規(guī)模的支持,另外在彈性、容災(zāi)簡單方便的代碼遷移等方面更是表現(xiàn)出色,如此看來AI平臺建設(shè)的重大意義需要被廣泛認(rèn)同。
此外,范融在演講中還詳細(xì)介紹了UCloud關(guān)于AI 基礎(chǔ)平臺架構(gòu)的很多技術(shù)干貨。
“聚焦整個(gè)AI 平臺架構(gòu),中間占位比較多的部分主要承擔(dān)了錯誤處理、負(fù)載均衡等功能。底層部分我們兼容了CPU 算力加速的設(shè)置,在存儲方面設(shè)計(jì)了一個(gè)統(tǒng)一的接入層,可以達(dá)到怎樣的效果?無論以何種形式的存儲進(jìn)入該平臺,對于開發(fā)者們的訪問都會像本地訪問一樣簡單快捷。”她進(jìn)一步說。
據(jù)了解,為了方便用戶更好使用平臺功能,網(wǎng)絡(luò)上開發(fā)了兩種交互界面,例如對于希望采用自動化完成與本地流程接入的用戶,可以使用docker支持,方便完成遠(yuǎn)程自動連接。
需要強(qiáng)調(diào)的是,在基礎(chǔ)架構(gòu)中,為了可以提供兼容性更好的運(yùn)行環(huán)境,UCloud平臺采用了封裝、預(yù)裝、自由、可重用、兼容性等多種技術(shù)方式。
“所謂的封裝性,就是在運(yùn)行具體任務(wù)時(shí),并不用擔(dān)心會對自身的安裝環(huán)境產(chǎn)生干擾;預(yù)裝呢?顧名思義,就是我們針對用戶經(jīng)常使用的深度學(xué)習(xí)框架以及科學(xué)計(jì)算包做了預(yù)裝,這樣在本地使用的話直接下載就可以,非常方便;另外一點(diǎn)就是自由,雖然已經(jīng)安裝了大部分科技計(jì)算包的用戶可以做到開箱自用,但不排除有的用戶涉及到的領(lǐng)域比較冷門,這樣一來完全可以依照需要自行下載,正常運(yùn)行相關(guān)安裝包完全沒有問題;還有一點(diǎn)是可重用,這在開源鏡像數(shù)據(jù)庫領(lǐng)域表現(xiàn)明顯,可以做到為開發(fā)者們大量節(jié)省時(shí)間等?!狈度谘a(bǔ)充道。
當(dāng)然整體架構(gòu)在靈活接入數(shù)據(jù)源、彈性資源調(diào)節(jié)等方面也有顯著優(yōu)勢。
通常在本地進(jìn)行計(jì)算時(shí),絕大多數(shù)人會配置外掛盤,將所有的訓(xùn)練數(shù)據(jù)存儲在磁盤上。但對于云上的數(shù)據(jù)呢?肯定是優(yōu)先放在云存儲中,這個(gè)過程中是否需要云存儲修改程序,將本地存儲轉(zhuǎn)化為遠(yuǎn)端?
對此,范融解釋道,平臺會將遠(yuǎn)端的存儲鏈接數(shù)據(jù)接入層,這樣就像訪問自己的文件一樣。數(shù)據(jù)接入層除了達(dá)到緩存的目的之外,還可以做到諸如帶寬的數(shù)據(jù)控制、訪問數(shù)據(jù)的權(quán)限控制等,以便可以做到每個(gè)用戶訪問的都是屬于自己的數(shù)據(jù),不會出現(xiàn)誤訪問的情況,有效保證數(shù)據(jù)安全。在數(shù)據(jù)源的靈活接入方面,UCloud未來還會不斷擴(kuò)展數(shù)據(jù)類型,以及增加云盤等不同的訪問形式。
如今都選擇使用云上資源而不是本地資源,主要由于本地資源擴(kuò)容比較麻煩,還伴隨一定的成本支出,但是云上又如何做到彈性擴(kuò)容呢?
范融對開發(fā)者們說:“從部署架構(gòu)的角度考慮,每一個(gè)AI的訓(xùn)練集群我們都會根據(jù)SET來管理,用戶不管啟動訓(xùn)練還是任務(wù)推理,都可以選擇適合自己算力的類型?!?/p>
這個(gè)設(shè)置的好處在于用戶使用實(shí)際訓(xùn)練任務(wù)時(shí),可以根據(jù)自己的訓(xùn)練任務(wù)需求來尋求不同的資源,達(dá)成資源的合理分配;另外一點(diǎn),由于整體集群是平臺運(yùn)營的,不管訓(xùn)練任務(wù)還是推理任務(wù)都會產(chǎn)生自動檢測,肯定不會影響業(yè)務(wù)的繼續(xù)開展。
架構(gòu)的事兒講完了,關(guān)于利用AI 平臺加速訓(xùn)練又是怎樣的呢?
以圖像分類算法為例,CIfar數(shù)據(jù)集的優(yōu)勢在于統(tǒng)一了32×32的標(biāo)準(zhǔn)大小。
范融強(qiáng)調(diào),圖像分類用到的算法是最簡單的CNN,有兩個(gè)重要的算子。一個(gè)就是卷積算子,卷積計(jì)算的作用其實(shí)就是把圖像中特征的部分掃描出來,一般來說會用一個(gè)卷積核。
可以看到,卷積核是3×3的,這樣一個(gè)3×3的卷積核代表一個(gè)特征,是一條曲線或者一條直線。在這個(gè)過程進(jìn)行一個(gè)掃描,做計(jì)算,就會形成一個(gè)新圖形,這樣的計(jì)算掃描部分是將符合卷積核相符數(shù)值的結(jié)果放到第一層。
但會意識到一個(gè)缺點(diǎn),每次卷積之后會有一個(gè)邊緣被掃描掉,所以如果在原圖上加一個(gè)邊框的話就避免了這樣的問題。
除了比較重要的卷積算法之外,另一個(gè)就是池化計(jì)算。
“當(dāng)我們用很多卷積核做計(jì)算的時(shí)候,就會發(fā)現(xiàn)原來一圖片會變成多張圖片,數(shù)據(jù)量會非常龐大,而且十分耗費(fèi)算力。試想一下,是否可以將卷積出來的數(shù)據(jù)做一個(gè)綜合整理呢?綜合的方法一般有平均或者取最大值的算法,通過池化這個(gè)數(shù)據(jù)就會帶來縮小的效果然后進(jìn)入下一個(gè)環(huán)節(jié)?!彼f。
每次卷積之后,一次卷積后會完成激活,激活之后再進(jìn)行池化計(jì)算,會把特征做連接,最后做分類處理。
據(jù)了解,范融所在的團(tuán)隊(duì)目前已經(jīng)推出AI在線服務(wù)、AI訓(xùn)練服務(wù)兩個(gè)產(chǎn)品。其中AI在線服務(wù)PaaS平臺在2016-2017年可信云大會上獲得了AI行業(yè)云服務(wù)獎;AI訓(xùn)練服務(wù)全程支持了2017年AI Challenger大賽的順利開展,在該領(lǐng)域表現(xiàn)十分出色。
云計(jì)算助力人工智能快速搭建底層資源
“盡管AI 很火爆,但對于AI系統(tǒng)建設(shè),大家并不是太清晰。從我們自身出發(fā),通常著重考慮三個(gè)方面:首先是兼容性,這一點(diǎn)在圖像類以及語音類表現(xiàn)突出,AI 算法與其兼容主要包括切合性;另外會十分注重平臺擴(kuò)展性,因?yàn)檫@涉及到訓(xùn)練數(shù)據(jù)成倍增長的情況;此外就是分布式化的特點(diǎn),實(shí)踐證明如果采用線下單機(jī)模式會十分影響效率?!?UCloud互聯(lián)網(wǎng)事業(yè)部解決方案架構(gòu)師徐強(qiáng)表示。
如果說AI系統(tǒng)建設(shè)是第一步的話,那確保AI“踏實(shí)”落地究竟有哪些高效地解決思路呢?
他認(rèn)為,從UCloud自身出發(fā),首先會涉及到一個(gè)數(shù)據(jù)共享的平臺。
再高深的算法都需要大量數(shù)據(jù)的支持,怎樣獲取數(shù)據(jù)實(shí)在是個(gè)問題。如今是否有一種模式可以最大能力整合數(shù)據(jù)用于訓(xùn)練呢?安全屋或許會起到一定作用。談及數(shù)據(jù)安全性,“安全屋底層都是基于公有云平臺,更重要的一點(diǎn),我們采用的加密技術(shù)是基于區(qū)塊鏈的不可篡改性,并同時(shí)增加了審計(jì)機(jī)制來保障安全?!边M(jìn)一步補(bǔ)充道。
此外,在環(huán)境分離、底層資源共享以及后期擴(kuò)展性等方面,他強(qiáng)調(diào),安全屋就是在保證數(shù)據(jù)所有權(quán)不變的情況下完成最大可能性的數(shù)據(jù)流通。
例如環(huán)境分離,可以帶來本地與云上環(huán)境體驗(yàn)一致的情況。“具體來說,首先我們會對Docker進(jìn)行分裝,隨后選擇自己的框架再打包,然后上傳到AI系統(tǒng)中,上傳之后就可以直接調(diào)用。整個(gè)框架的中間部分是計(jì)算資源的共享,底層是數(shù)據(jù)的存儲,包括本地以及接入層的數(shù)據(jù)來源等。”徐強(qiáng)表示。
另外,十分重要的一個(gè)技術(shù)點(diǎn)就是容器
容器的設(shè)計(jì)可以保證在云上運(yùn)用整體算法的過程中不會與軟件產(chǎn)生沖突,更不會造成數(shù)據(jù)泄露;提供比較多的基礎(chǔ)鏡像可以降低開發(fā)者的研發(fā)時(shí)間,在調(diào)用上也會更加便捷;更自由的是,用戶可以在系統(tǒng)中分裝出自己想要的算法、軟件等,自由“定制”后上傳即可使用。
提及可擴(kuò)展性,他總結(jié)道,所謂縱向擴(kuò)展可以被提供升降級的選擇,不會影響整體系統(tǒng)的在線升級;如果選擇分布式的橫向擴(kuò)展,包括存儲資源在內(nèi),可以疊加,分布式的可用性不會受到影響。
目前該領(lǐng)域UCloud推出了兩大產(chǎn)品,第一個(gè)就是分布式AI訓(xùn)練平臺。
在訓(xùn)練平臺的作用下,將代碼通過Docker方式上傳,可以做到直接在控制臺種選擇相應(yīng)的算力資源,還可以依托系統(tǒng)去實(shí)踐。
徐強(qiáng)提出,在這個(gè)過程中,無論是狀態(tài)還是誤差情況都可以清晰明了很直觀,此外還可以通過API的方式直接上傳,這對自建AI 系統(tǒng)的成本和壓力都降低很多。
具體來說,自建“版本”可能會造成資源利用不充分、采購時(shí)間較長、運(yùn)維方面壓力山大等諸多問題。
另外一個(gè)就是分布式AI 在線服務(wù)平臺?!拔覀儠谄脚_后端提供APP接口,CPU、GPU方面會提供上萬臺計(jì)算的節(jié)點(diǎn),所有的業(yè)務(wù)監(jiān)控都是可視化的,高可用性很強(qiáng)大,例如不同的可用區(qū)、不同的集群推廣等?!彼f。
說到代表性的案例,徐強(qiáng)提及了2017年AI Challenger大賽。
賽事規(guī)模自不用多說,就連科研數(shù)據(jù)也是最大數(shù)量級的,據(jù)了解有1000萬的中英文翻譯數(shù)據(jù),30萬的圖像數(shù)據(jù)。所以由于數(shù)據(jù)量龐大,主辦方選擇UCloud作為GPU提供方,對此提供了有關(guān)AI 的整體解決方案。
“在底層提供了強(qiáng)大的算力資源、中間布置了AI在線服務(wù)以及AI訓(xùn)練服務(wù)、然后就是安全屋。將龐大的數(shù)據(jù)放入安全屋中,然后根據(jù)需要分發(fā)給不同的選手;選手同時(shí)將自己的算法上傳到安全屋中,基于分發(fā)的數(shù)據(jù)做訓(xùn)練,只要計(jì)算出模型就可以將數(shù)據(jù)導(dǎo)入,十分安全。”徐強(qiáng)描述道。
總結(jié)來說,UCloud一方面提供了底層的計(jì)算方法以及環(huán)境的自動部署,方便直接上傳到AI 系統(tǒng);另一方面在收費(fèi)方面也表現(xiàn)的更加人性化,按需收費(fèi)只在執(zhí)行過程中,其他時(shí)間不涉及費(fèi)用問題。
精彩分享仍在繼續(xù),關(guān)于底層資源搭建的探討暫時(shí)告一段落后,達(dá)觀數(shù)據(jù)聯(lián)合創(chuàng)始人張健又為與會開發(fā)者帶來了主題為“文本智能處理的深度學(xué)習(xí)技術(shù)”的演講。
文本智能處理的深度學(xué)習(xí)技術(shù)
在有關(guān)NLP的知識以及實(shí)踐的分享中,他提到,其實(shí)電腦理解的文本與人理解的文本會有一些共同之處,通常也是從三個(gè)等級來體會。但NLP實(shí)踐中最重要的還是解決如何將機(jī)器學(xué)習(xí)或者深度學(xué)習(xí)高效應(yīng)用在文本處理中。
對此張健表示,深度學(xué)習(xí)的基礎(chǔ)結(jié)構(gòu)其實(shí)就是一個(gè)基本的神經(jīng)網(wǎng)絡(luò),可以理解為是最基本神經(jīng)源結(jié)構(gòu),會接受S1、S2輸出,實(shí)現(xiàn)很簡單分類的功能,只是需要滿足一個(gè)很復(fù)雜的場景需求罷了。
此外深度學(xué)習(xí)無法規(guī)避基本結(jié)構(gòu)的問題,也就是RNN和LSTM?!拔覀冊诶斫庹Z言的時(shí)候,其實(shí)是一個(gè)信息流,也是一個(gè)序列信息,會像S0、S1、S2。如果講一個(gè)字,當(dāng)前時(shí)刻就可以把之前時(shí)刻的這種字詞信息收納進(jìn)來并作為前項(xiàng)的輸入,再與當(dāng)前的字詞結(jié)合后輸出;但是LSTM除了具備這樣一個(gè)結(jié)構(gòu),還增加了一個(gè)優(yōu)點(diǎn),就是人們在講話的過程中,不可避免的是上下文環(huán)境中有些字詞重要,而有些則不那么重要,LSTM會對之前的信息進(jìn)行有選擇通過或者丟棄?!彼麖?qiáng)調(diào)。
關(guān)于CNN,也就是最早運(yùn)用于圖像處理領(lǐng)域,簡單來說就是識別“貓”或者“狗”,而不是會分析出貓身下的草坪有多綠。在處理文本時(shí)也會參考使用類似技術(shù)對圖片進(jìn)行切片來保存重要信息,最后完成全連接實(shí)現(xiàn)分類。
總結(jié)來看,深度學(xué)習(xí)用于文本挖掘的確顯示了很多優(yōu)點(diǎn),例如可以使用大量無監(jiān)督的數(shù)據(jù)提高能力;端到端的過程讓文本輸入、任務(wù)訓(xùn)練再到輸出的環(huán)節(jié)并不需要做很多處理,更重要的是能夠克服傳統(tǒng)模型的缺點(diǎn)。
但這種方式并不是完全沒有缺點(diǎn)的,例如在小數(shù)據(jù)量的前提下效果不一定好,需要根據(jù)場景嚴(yán)格挑選適合的模型;另外調(diào)參工作量有時(shí)不亞于特征工程,甚至?xí)拗撇糠謶?yīng)用。
此外,在現(xiàn)場分享時(shí),張健還為與會開發(fā)者們提供了實(shí)踐經(jīng)驗(yàn)的小貼士來參考。首先在業(yè)務(wù)場景層面,用戶需要盡可能理解數(shù)據(jù),分析問題本質(zhì)并選擇合適的模型;在使用的初始階段,可以選擇傳統(tǒng)機(jī)器學(xué)習(xí)模型作為嘗試,通過不斷深化針對數(shù)據(jù)的理解來解決相關(guān)問題;最后就是還需要在不斷的實(shí)踐中迭代經(jīng)驗(yàn)解決問題。
AutoML人工智能自動化模型設(shè)計(jì)與進(jìn)化算法實(shí)現(xiàn)
當(dāng)前,AutoML是人工智能發(fā)展的一個(gè)重要方向,受到Google,F(xiàn)acebook等諸多公司的重視。據(jù)了解,AutoML主要可以幫助解決的問題在于數(shù)據(jù)特征提取和擴(kuò)增、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型生成以及模型超參調(diào)優(yōu)等,通過序貫?zāi)P蛢?yōu)化、遷移學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、元學(xué)習(xí)、進(jìn)化算法、基于連續(xù)假設(shè)的梯度求導(dǎo)方法等來實(shí)現(xiàn)。
在“AutoML人工智能自動化模型設(shè)計(jì)與進(jìn)化算法實(shí)現(xiàn)”的分享中,錢廣銳表示,在當(dāng)前的實(shí)際場景中的確存在很多情況是單一模型并不能完全適應(yīng)的,復(fù)合型模型在一些場景中特別需要。人工智能模型的設(shè)計(jì)是一個(gè)復(fù)雜的工作,要設(shè)計(jì)的小、準(zhǔn)、快更是復(fù)雜。
“所有的框架以及算法是我們從大概年初剛剛開始實(shí)踐的,這樣一個(gè)人工智能模型自動設(shè)計(jì)平臺被稱為達(dá)爾文ML。真正的希望就是能夠?qū)嵺`產(chǎn)品化的工作,用戶只要數(shù)據(jù)輸入,不需要做任何之前的預(yù)設(shè)假定就可以完成模型建設(shè)?!彼f。
此外探智立方從數(shù)據(jù)準(zhǔn)備、模型設(shè)計(jì)、生產(chǎn)對接為達(dá)爾文系統(tǒng)提供了整套“配置”,例如在工業(yè)制造方面,整個(gè)實(shí)踐過程中有5萬張照片,采取200×200的分類,錢廣銳將其放到新平臺中去,準(zhǔn)確率可以達(dá)到75%左右,其中并沒有做復(fù)雜建模處理的工作,這個(gè)案例可以發(fā)現(xiàn),達(dá)爾文設(shè)計(jì)出來的模型特別小,準(zhǔn)確率特別高。
無論是人工智能發(fā)展還是現(xiàn)有的一些場景中,很多場景模型的設(shè)計(jì)不只是在云端,由于達(dá)爾文設(shè)計(jì)出的模型比較小,錢廣銳也希望未來可以在手機(jī)端快速識別票據(jù)等。除了幫助企業(yè)應(yīng)用落地,如何能在各個(gè)場景,例如智能制造、攝象頭等統(tǒng)統(tǒng)實(shí)現(xiàn)也是很重要的目標(biāo)。
云計(jì)算、人工智能,從技術(shù)角度看涉及計(jì)算、存儲、網(wǎng)絡(luò)等范圍甚廣、學(xué)習(xí)難度大,但卻可以發(fā)揮重要作用?!霸?AI”從產(chǎn)業(yè)角度看可以顯著提升傳統(tǒng)企業(yè)的運(yùn)營效率,助力數(shù)字化升級;引領(lǐng)全新的商業(yè)模式,為各類企業(yè)贏得快速發(fā)展的機(jī)遇……
一直以來關(guān)于云的話題都是層出不窮,但對于大多數(shù)專注云計(jì)算本身的IT技術(shù)人員來說,或許對分布式文件系統(tǒng)和分布式塊存儲未必有很深入的了解,恰好機(jī)會來啦!UCloud將攜手CSDN特別推出UCan下午茶武漢站活動,屆時(shí)會邀請多位技術(shù)專家與現(xiàn)場的開發(fā)者們共同聊聊分布式存儲的那些事兒,敬請關(guān)注哈!
如需了解,點(diǎn)擊https://bss.csdn.net/m/topic/ucloud,了解更多詳情!