技術(shù)
導(dǎo)讀:不論如何,數(shù)據(jù)分析已經(jīng)吸引了越來越多的使用者和投資者。除了企業(yè)自己購買軟件來實(shí)現(xiàn)數(shù)據(jù)分析,也有的企業(yè)會(huì)把整個(gè)數(shù)據(jù)采集和分析任務(wù)外包給專業(yè)公司來做。也并非所有的企業(yè)都開始重視數(shù)據(jù)分析,特別是那些資金不夠雄厚的小企業(yè)。
在IT技術(shù)領(lǐng)域中,射頻識(shí)別(RFID)技術(shù)正受到眾多廠商的追捧。它為每一件貨品提供單獨(dú)的識(shí)別身份,然后透過無線數(shù)據(jù)傳輸讓計(jì)算機(jī)網(wǎng)絡(luò)隨時(shí)掌握各式各樣貨品的去向:不論是超市里的袋裝咖喱粉,還是制造商庫房里的洗發(fā)水??雌饋硭皇敲馊チ松碳腋欂浧窌r(shí)的人工干預(yù),但這一結(jié)果是通過數(shù)十億貨品傳回的實(shí)時(shí)數(shù)據(jù)實(shí)現(xiàn)的。除了便于對(duì)貨品的管理,這些數(shù)據(jù)還意味著什么?有這樣一個(gè)例子,生產(chǎn)汽車的菲亞特公司以前一直從兩個(gè)不同的供應(yīng)商手中購買車輪上的凸形螺帽,并把購買、運(yùn)輸、存放這兩種螺帽的數(shù)據(jù)分別放在兩個(gè)數(shù)據(jù)庫中。但是到后來,當(dāng)他們把兩個(gè)數(shù)據(jù)庫結(jié)合在一起并檢查和分析數(shù)據(jù)之后,發(fā)現(xiàn)其中一種螺帽的整體購買成本比另一個(gè)多0.1美元。按年產(chǎn)100萬量車來計(jì)算,每個(gè)螺帽0.1美元的差價(jià)加起來至少有幾十萬美元。是否其它的零件也有這種現(xiàn)象呢?數(shù)據(jù)存在的意義不在于規(guī)模龐大,而在于深入分析之后能夠發(fā)現(xiàn)規(guī)律。零售巨頭們正在從顧客購買商品中發(fā)現(xiàn)一定的關(guān)系,在適當(dāng)?shù)臅r(shí)候針對(duì)某一些顧客提供打折購物券,從而提高銷售額;保險(xiǎn)公司通過對(duì)索賠數(shù)據(jù)的分析,可以辨別出可能的欺詐行為,避免風(fēng)險(xiǎn),提高利潤;電信運(yùn)營商也在設(shè)計(jì)用戶支付模型,以便制定針對(duì)不同層次用戶的、最有競爭力,同時(shí)能帶來大量利潤的價(jià)格策略……這樣的趨勢隨處可見。讓我們看看成功者。100多年前,福特汽車公司的創(chuàng)始人萌發(fā)了“將美國人置于車輪之上”的夢想,這就顯露出了他們滿足客戶需求的信念。現(xiàn)在,福特汽車公司從數(shù)據(jù)倉庫公司(Teradata)的數(shù)據(jù)倉庫中抽取數(shù)據(jù),再用賽仕公司(SAS)軟件平臺(tái)上的報(bào)表、趨勢分析、客戶分群、客戶評(píng)分以及客戶生命周期分析等功能,來為顧客關(guān)系管理以及市場營銷活動(dòng)管理提供支持。以福特公司計(jì)分程序?yàn)槔?,它從家庭角度?duì)顧客進(jìn)行了分析,并預(yù)測數(shù)據(jù)庫中每個(gè)家庭的得分, 接著將這個(gè)信息傳送回?cái)?shù)據(jù)倉庫。這使得福特公司的市場營銷小組能夠容易地獲取最新的顧客得分,這樣他們就可以運(yùn)用這些信息去管理市場營銷活動(dòng)以及呼叫中心。
不難理解除了終端和網(wǎng)絡(luò)廠商在推廣RFID技術(shù),IBM、微軟、甲骨文等軟件巨頭也開始爭奪此項(xiàng)技術(shù)背后的數(shù)據(jù)處理軟件生意。而像BO(Business Objects)、SAS等更為推崇數(shù)據(jù)分析的商業(yè)智能廠商,則一直站在游說各類企業(yè)去“從數(shù)據(jù)中探尋寶藏”的第一陣線。
分析的時(shí)代
要分析數(shù)據(jù),先要收集數(shù)據(jù),再存放數(shù)據(jù)—這就是人們所熟知的數(shù)據(jù)庫。在20世紀(jì)80年代,各家公司開始啟用了基本的數(shù)據(jù)庫結(jié)構(gòu)。步入90年代,這些公司希望讓自己的商業(yè)程序處理自動(dòng)化。盡管眾多的公司在使用軟件或銷售自動(dòng)化系統(tǒng)時(shí)取得了成效,有了產(chǎn)生數(shù)據(jù)的源頭,但他們卻很少采用有效的方式來利用這些收集到的信息,以致數(shù)據(jù)庫像是一個(gè)蹩腳的“地下儲(chǔ)藏室”一樣難見天日。企業(yè)怎樣才能像對(duì)待自己的產(chǎn)品一樣對(duì)待數(shù)據(jù)呢?設(shè)想一個(gè)滿是貨架的房間,貨架上按一定次序放滿了各種信息去等待用戶提取?!鞍匆欢ù涡颉边@一點(diǎn)很關(guān)鍵,因?yàn)檫@是一個(gè)很好的習(xí)慣,至少便于管理。對(duì)傳統(tǒng)數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行再加工,形成一個(gè)綜合的、可以用于分析的環(huán)境,被稱為數(shù)據(jù)倉庫(Data Warehousing,簡稱DW)。
數(shù)據(jù)倉庫的主要優(yōu)點(diǎn)就是可以將不同的數(shù)據(jù)整合在一個(gè)中央存儲(chǔ)環(huán)境中,并提供給用戶必須的OLAP(Online Analytical Processing,聯(lián)機(jī)分析處理)工具來檢索相關(guān)的數(shù)據(jù)。在此之上就是數(shù)據(jù)分析——人們借助這些工具從海量的數(shù)據(jù)中挖掘出可能有潛在價(jià)值的信息,或者支持決策為企業(yè)帶來利益,或者為科學(xué)研究尋找突破口。數(shù)據(jù)倉庫、OLAP和數(shù)據(jù)挖掘共同構(gòu)成了商業(yè)智能的基本架構(gòu)。用“智能”來形容這一類軟件和平臺(tái),意味著它們需要“思維”。盡管與人類的思維難以劃上等號(hào),從形式和它們要達(dá)到的目標(biāo)來看,商業(yè)智能也是在“想”和“算”。整個(gè)過程涉及到一系列的數(shù)學(xué)和統(tǒng)計(jì)學(xué)的方法,人們也期待融入更多“機(jī)器學(xué)習(xí)”的技術(shù),讓軟件或者平臺(tái)為使用者帶來更有價(jià)值的信息,以更加“人性”的思維模式來支持決策。從這個(gè)角度看,此領(lǐng)域與人工智能頗有聯(lián)系,例如二者均利用到了神經(jīng)網(wǎng)絡(luò)技術(shù)(嚴(yán)格的說,神經(jīng)網(wǎng)絡(luò)是人工智能的一個(gè)分支)。在“智能”方向上,二者均需要更多的技術(shù)突破才能在“思維”上有所進(jìn)展。除了在分析這一層面的技術(shù)發(fā)展空間,數(shù)據(jù)挖掘、商業(yè)智能也面臨著其它的挑戰(zhàn)。人類管理數(shù)據(jù)的活動(dòng)已經(jīng)很多年了,不論是國家檔案館中的文檔,還是樓下包子鋪的記賬薄,這些信息的規(guī)模與今天相比只是“牛毛”。現(xiàn)今資料流通量之巨大已到了令人咂舌的地步,一方面幾乎所有可以想到的信息都被記錄了下來,不論是各類業(yè)主每月的用電量,還是每個(gè)家庭的電話撥打記錄。而且數(shù)據(jù)量每年還在大量地增長,像RFID技術(shù)就是一個(gè)新形成的海量數(shù)據(jù)制造源頭。另一方面,數(shù)據(jù)存儲(chǔ)的成本也直線下降。實(shí)際情況可能是,對(duì)于一些“巨無霸”的海量數(shù)據(jù),人們也許只能對(duì)搜集到的資料中的5%至10%進(jìn)行分析。所需要分析的數(shù)據(jù)量越來越大,相關(guān)廠商都在尋找各自的解決方案,例如采用“分布式運(yùn)算”,將一個(gè)連續(xù)任務(wù)切分成多個(gè)部分。SAS中國區(qū)總經(jīng)理戴江鴻介紹,SAS日前推出的SAS 9商業(yè)智能軟件家族,就在多個(gè)環(huán)節(jié)具備“多執(zhí)行序列”的功能,使其速度更快、效率更高。與商業(yè)智能相關(guān)的公司,從基礎(chǔ)架構(gòu)到工具應(yīng)用,都在這方面有新的應(yīng)用。
抓住數(shù)據(jù)的機(jī)會(huì)BO公司首席執(zhí)行官兼董事主席Bernard Liautaud認(rèn)為,目前商業(yè)智能的數(shù)據(jù)分析正處于“初級(jí)階段”,更多的企業(yè)是在嘗試的過程中發(fā)現(xiàn)自己的需要。福特公司分析信息技術(shù)協(xié)調(diào)員Jim Ader對(duì)商業(yè)智能的體會(huì)是,“建立預(yù)測模型是最為重要的”。在福特汽車公司,營銷專業(yè)人員每年都在超過200 次的市場活動(dòng)中使用預(yù)測模型,以找到合適的目標(biāo)客戶,這其中包括以提高福特林肯等汽車銷售量為目標(biāo)的市場活動(dòng)。這些模型通過檢查上百萬客戶的記錄來為每次的營銷戰(zhàn)選擇最好的目標(biāo)家庭。找到現(xiàn)有數(shù)據(jù)以外的東西,正是分析的價(jià)值所在。其實(shí)這在人類的思維過程中很平常,只是我們并沒有去刻意的體會(huì)自己思考的過程。比如我們可以從一件事的發(fā)生很自然地聯(lián)系到另一件事情,但對(duì)于不同事件的關(guān)聯(lián)性,商業(yè)智能則要在事件發(fā)生的概率符合一定的統(tǒng)計(jì)意義時(shí)才能做出判斷。
以客戶購買習(xí)慣的數(shù)據(jù)為例,一個(gè)開設(shè)儲(chǔ)蓄賬戶的客戶很可能同時(shí)進(jìn)行債券交易和股票交易,購買紙尿褲的男顧客經(jīng)常同時(shí)購買啤酒。利用這種知識(shí)可以采取積極的營銷策略,擴(kuò)展客戶購買產(chǎn)品的范圍,從而吸引更多的客戶。通過調(diào)整商品的布局,便于顧客買到經(jīng)常同時(shí)購買的商品,或者通過降低一種商品的價(jià)格來促進(jìn)另一種商品的銷售等。但是這些舉措還是別讓顧客發(fā)現(xiàn)為好,否則顧客會(huì)有隱私被竊取的感覺。隱私問題在如今的信息社會(huì)越來越嚴(yán)重,但事實(shí)上,大多數(shù)商業(yè)數(shù)據(jù)的價(jià)值恰恰由大量有關(guān)個(gè)人及個(gè)人購買行為的信息構(gòu)成。這不難理解RFID標(biāo)簽反對(duì)者的思路:因?yàn)榛赗FID技術(shù)的電子標(biāo)簽有可能通過零售商的數(shù)據(jù)庫把服裝上的數(shù)據(jù)和購買者的信用卡信息聯(lián)系起來,然后再參照信用卡公司的數(shù)據(jù)庫,就可以得到消費(fèi)者購買習(xí)慣的詳細(xì)信息。這一切都將在不知不覺中進(jìn)行。不過,道德領(lǐng)域的問題從來不是新技術(shù)公司的首要考慮。如果利益足夠大,不到社會(huì)輿論的壓力快“爆炸”的臨界點(diǎn),它們是不會(huì)妥協(xié)的,它們更多的是積極地為自己辯護(hù)。
不論如何,數(shù)據(jù)分析已經(jīng)吸引了越來越多的使用者和投資者。除了企業(yè)自己購買軟件來實(shí)現(xiàn)數(shù)據(jù)分析,也有的企業(yè)會(huì)把整個(gè)數(shù)據(jù)采集和分析任務(wù)外包給專業(yè)公司來做。也并非所有的企業(yè)都開始重視數(shù)據(jù)分析,特別是那些資金不夠雄厚的小企業(yè)。因此,盡管商業(yè)智能廠商正在積極游說這些小企業(yè),但他們的客戶還是集中在金融、電信等行業(yè)。非專業(yè)的商業(yè)智能公司也在覬覦這塊肥肉,例如微軟公司即將推出的SQL 2005 和Visual Studio 2005產(chǎn)品,它們包含的新功能將允許軟件開發(fā)商們把商務(wù)智能特征加入到他們的應(yīng)用程序中去,而SQL服務(wù)器所提供的商業(yè)智能模塊恰好是針對(duì)那些而非高端的用戶群。