一,新時(shí)代來臨
1890年,美國(guó)統(tǒng)計(jì)學(xué)家赫爾曼·霍爾瑞斯為統(tǒng)計(jì)這一年的人口普查數(shù)據(jù),發(fā)明了一臺(tái)電動(dòng)器來讀取卡片上的數(shù)據(jù),該設(shè)備讓美國(guó)用一年的時(shí)間就完成了原本需要8年的人口普查活動(dòng),由此在全球范圍內(nèi)引發(fā)了數(shù)據(jù)處理的新紀(jì)元,也拉開了一個(gè)大規(guī)模生產(chǎn)、分享和應(yīng)用數(shù)據(jù)的新時(shí)代的序幕。
大數(shù)據(jù)(big data)一詞由著名未來學(xué)家阿爾法·托夫勒在《第三次浪潮》(1980年)一書中首先提出。最初,許多科學(xué)家并不認(rèn)可“大數(shù)據(jù)”,認(rèn)為這只不過是一個(gè)營(yíng)銷術(shù)語(yǔ)。直到2011年麥肯錫公司發(fā)布報(bào)告《大數(shù)據(jù):創(chuàng)新、競(jìng)爭(zhēng)力和生產(chǎn)力的下一個(gè)前沿》,才開始引起社會(huì)各界的廣泛關(guān)注。
到目前為止,大數(shù)據(jù)仍然沒有權(quán)威統(tǒng)一的定義,廣義的理解是代表了一種新的認(rèn)識(shí)世界的工具,蘊(yùn)含了一種“數(shù)據(jù)化”的思維方式的變革,通過對(duì)其分析可以獲得對(duì)現(xiàn)實(shí)世界的立體化的認(rèn)識(shí)。因此有人將大數(shù)據(jù)與電、計(jì)算機(jī)、互聯(lián)網(wǎng)等并稱為“通用目的的技術(shù)”。就技術(shù)和應(yīng)用而言,大數(shù)據(jù)是在互聯(lián)網(wǎng)快速發(fā)展中誕生的。這個(gè)起點(diǎn)可以追溯到2000年前后,隨著全球網(wǎng)絡(luò)規(guī)模的暴增,存儲(chǔ)和分析技術(shù)的發(fā)展,為大數(shù)據(jù)的發(fā)展提供了技術(shù)上的支持。
大數(shù)據(jù)給我們的生活、工作帶來了急劇的變革。移動(dòng)互聯(lián)網(wǎng)的發(fā)展、手持設(shè)備的興起、智能終端的普及、新型傳感的應(yīng)用都快速滲透到了地球上的每個(gè)角落。這是一個(gè)人人有終端、物物可傳感、處處可上網(wǎng)、時(shí)時(shí)能鏈接的時(shí)代,從科學(xué)研究到電子商務(wù)、從醫(yī)療衛(wèi)生到社交娛樂,數(shù)據(jù)信息都呈爆發(fā)式的增長(zhǎng)。
很多國(guó)家把大數(shù)據(jù)提升到國(guó)家戰(zhàn)略的高度,將其與自然資源、人力資源同視為戰(zhàn)略資源。美國(guó)政府更是把大數(shù)據(jù)看作“未來的石油”。2012年3月22日,奧巴馬宣布美國(guó)政府投資2億美元啟動(dòng)“大數(shù)據(jù)研究和發(fā)展計(jì)劃”。這不僅是一個(gè)推動(dòng)美國(guó)繼續(xù)在高科技領(lǐng)域領(lǐng)先世界的戰(zhàn)略計(jì)劃,更是推動(dòng)美國(guó)社會(huì)經(jīng)濟(jì)進(jìn)一步發(fā)展的宏遠(yuǎn)藍(lán)圖。
可以說,實(shí)物的積累、貨物的積累代表著過去時(shí)代的國(guó)力,而在信息時(shí)代,數(shù)據(jù)的積累、加工和利用能力將成為一個(gè)國(guó)家綜合國(guó)力的標(biāo)志。
二、不凡的改變
我們先看一下,大數(shù)據(jù)是如何改變我們生活的吧。
奧倫·埃齊奧尼是美國(guó)著名的計(jì)算機(jī)專家,哈佛大學(xué)首屆計(jì)算機(jī)專業(yè)的畢業(yè)生,他創(chuàng)立了許多大數(shù)據(jù)公司。2003年,他乘坐從西雅圖到洛杉磯的飛機(jī)去參加弟弟的婚禮。他提前幾個(gè)月在網(wǎng)上就買了自認(rèn)為便宜的“打折”機(jī)票,但當(dāng)他坐上飛機(jī)后,和周圍的乘客交談時(shí)發(fā)現(xiàn),他們的機(jī)票比他買的晚,但居然都比他的便宜。這讓他既疑惑又惱怒,于是他決定開發(fā)一個(gè)系統(tǒng),用來推測(cè)當(dāng)前各航空公司網(wǎng)站上的機(jī)票價(jià)格是否合理。他認(rèn)為,不需要解開機(jī)票價(jià)格差異的原因,因?yàn)檫@只有航空公司自己清楚。他要做的僅僅是預(yù)測(cè)當(dāng)前的機(jī)票價(jià)格在未來一段時(shí)間內(nèi)的趨勢(shì),以幫助客戶決定是否購(gòu)買。即開發(fā)一個(gè)機(jī)票信息預(yù)測(cè)系統(tǒng),這是一個(gè)浩大的計(jì)算機(jī)項(xiàng)目。埃齊奧尼在41天之內(nèi),獲取了12000個(gè)價(jià)格樣本,在此基礎(chǔ)上建立了一個(gè)新的預(yù)測(cè)系統(tǒng),他給這個(gè)研究項(xiàng)目取名“哈姆雷特”。這個(gè)小項(xiàng)目就是后來的Farecast公司,F(xiàn)arecast被微軟公司以1.1億美元收購(gòu)。Farecast票價(jià)預(yù)測(cè)的準(zhǔn)確度高達(dá)75﹪,平均每張機(jī)票可為旅客節(jié)省50美元。
在中國(guó),阿里巴巴公司不是最早利用大數(shù)據(jù)解決問題的,但卻是成功實(shí)現(xiàn)技術(shù)轉(zhuǎn)型的公司。馬云在很多場(chǎng)合都說過,阿里巴巴是一個(gè)大數(shù)據(jù)公司,我們只是借賣東西來搜集數(shù)據(jù)。阿里集團(tuán)以用戶數(shù)據(jù)為中心來重構(gòu)供需關(guān)系,以大數(shù)據(jù)平臺(tái)支撐個(gè)性化服務(wù)。其平臺(tái)上覆蓋數(shù)據(jù)采集、計(jì)算引擎、數(shù)據(jù)加工、數(shù)據(jù)分析、機(jī)器學(xué)習(xí)、數(shù)據(jù)應(yīng)用等數(shù)據(jù)生產(chǎn)全鏈條,阿里云已成為中國(guó)重要的云計(jì)算服務(wù)平臺(tái)。如今,淘寶和天貓幾乎提供了衣食住行的所有選擇。
Farecast和阿里巴巴是諸多大數(shù)據(jù)公司的一個(gè)縮影,也代表著一種新型的能力:通過對(duì)海量的數(shù)據(jù)分析,獲得巨大的價(jià)值。
關(guān)于大數(shù)據(jù)最經(jīng)典的應(yīng)用案例是美國(guó)塔吉特公司對(duì)一名17歲女孩懷孕的預(yù)測(cè)。塔吉特公司的分析團(tuán)隊(duì)經(jīng)過分析女顧客的消費(fèi)記錄,發(fā)現(xiàn)懷孕婦女會(huì)在懷孕三個(gè)月的時(shí)候買很多無香乳液,手霜,幾個(gè)月后還會(huì)買一些營(yíng)養(yǎng)品,補(bǔ)充鎂、鈣、鋅的保健品。公司最終找出了20余種關(guān)聯(lián)物,通過這些關(guān)聯(lián)物可以給顧客進(jìn)行“懷孕趨勢(shì)”評(píng)測(cè),可以在最小誤差內(nèi)實(shí)現(xiàn)預(yù)測(cè),甚至能比較準(zhǔn)確的預(yù)測(cè)預(yù)產(chǎn)期,這樣就能夠在孕期的每個(gè)階段給客戶寄送相應(yīng)的優(yōu)惠券?!都~約時(shí)報(bào)》報(bào)道稱,一位父親拿著帶有嬰兒用品優(yōu)惠券的廣告郵件怒氣沖沖的來到位于明尼阿波利斯市的塔吉特商店,質(zhì)問經(jīng)理,為什么給他正在上高中的女兒郵寄嬰兒服和嬰兒床的優(yōu)惠券。經(jīng)理連連致歉。過幾天,當(dāng)經(jīng)理打電話給這個(gè)男人再次道歉時(shí),這個(gè)男人的語(yǔ)氣變得平和起來。他說,女兒和他溝通過了,她的預(yù)產(chǎn)期是8月份。
三、角色與定位
根據(jù)所提供的價(jià)值不同,大數(shù)據(jù)公司一般分為三種:數(shù)據(jù)本身,技術(shù)和技能。大數(shù)據(jù)不斷的轉(zhuǎn)移和加工表明數(shù)據(jù)在不同領(lǐng)域創(chuàng)造著價(jià)值與利潤(rùn)。
第一種是基于數(shù)據(jù)本身的公司。數(shù)據(jù)本身就是價(jià)值,這些公司擁有大量數(shù)據(jù)或者可以收集到大量數(shù)據(jù),再授權(quán)給其他公司。ITA Software公司就是為Farecast公司提供所需的數(shù)據(jù),它們不考慮這些數(shù)據(jù)的額外價(jià)值。再如,像VISA和MasterCard這樣的信用卡公司和其他銀行就站在了信息價(jià)值鏈的最好位置。通過為商家提供服務(wù),它們能夠獲取交易信息和顧客的消費(fèi)信息。它們的商業(yè)模式也從單純的支付行為變成了數(shù)據(jù)收集,再授權(quán)給第三方使用,或者將分析結(jié)果出售。
第二種是擁有技術(shù)和專業(yè)技能的公司。通常是咨詢公司、技術(shù)供應(yīng)商或者分析公司,掌握技能但不一定擁有數(shù)據(jù)(可理解為數(shù)據(jù)中間層)。 Planalytics是一家全球領(lǐng)先的天氣分析的公司,服務(wù)來自美國(guó)、歐洲及南美的200多家客戶。該公司在天氣分析上積累了大量經(jīng)驗(yàn),特別在細(xì)節(jié)上,在多家大型零售和制造商都有成功案例。目前為止,這家公司已分析了上萬(wàn)億的交易數(shù)據(jù)及8500個(gè)類目,基于這些分析再將天氣數(shù)據(jù)轉(zhuǎn)化為有助于企業(yè)決策的指針,進(jìn)而優(yōu)化業(yè)務(wù)結(jié)果。
第三種是有著大數(shù)據(jù)思維思維,雖不擁有專業(yè)技能,但能通過想法獲得價(jià)值的創(chuàng)新公司和個(gè)人。所謂的大數(shù)據(jù)思維,是指一種意識(shí),認(rèn)為公開的數(shù)據(jù)一旦處理得當(dāng)就能為千百萬(wàn)人解決問題。2011年布拉德福德·克羅斯創(chuàng)立了科技創(chuàng)新公司Prismatic,收集網(wǎng)上資源并排序,這種排序建立在文本分析、用戶喜好、社交網(wǎng)絡(luò)普及和數(shù)據(jù)分析基礎(chǔ)之上,排名根據(jù)點(diǎn)擊率和轉(zhuǎn)發(fā)率來體現(xiàn)。
數(shù)據(jù)的重大價(jià)值在于能把決策前置,如果通過數(shù)據(jù)能夠早一步做出準(zhǔn)確預(yù)判,就比對(duì)手更有優(yōu)勢(shì)。準(zhǔn)確的預(yù)判加上快速的行動(dòng),就是現(xiàn)在人們所講的行動(dòng)智能(actionable intelligence)。在這點(diǎn)上,一些大型互聯(lián)網(wǎng)公司有著“天然”的優(yōu)勢(shì)。
谷歌在2008年曾經(jīng)開發(fā)了一個(gè)產(chǎn)品GFT(Google Flu Trends)②做流感趨勢(shì)預(yù)測(cè)。作為一個(gè)互聯(lián)網(wǎng)公司“跨界”到醫(yī)學(xué)領(lǐng)域做預(yù)測(cè)并不被認(rèn)可,所以當(dāng)時(shí)并沒有引起注意。在2009年美國(guó)爆發(fā)了一場(chǎng)禽流感,當(dāng)時(shí)這種禽流感第一次被發(fā)現(xiàn),全世界沒有疫苗,當(dāng)時(shí)美國(guó)死了29個(gè)人。因?yàn)闊o法預(yù)測(cè)病毒將會(huì)向哪個(gè)方向傳播,引起了恐慌。谷歌公司把5000萬(wàn)條和感冒相關(guān)的檢索詞條進(jìn)行分析,處理了4.5億個(gè)不同的數(shù)學(xué)模型,并比較了2007年、2008年實(shí)際流感病例。最后成功預(yù)測(cè)出爆發(fā)點(diǎn),公布在谷歌首頁(yè)上,而且這個(gè)預(yù)測(cè)比美國(guó)疾病預(yù)防中心要提前七到十四天。
阿里巴巴也有過成功預(yù)測(cè)的例子。我們?cè)谔詫毦W(wǎng)頁(yè)的首頁(yè)上瀏覽過的,點(diǎn)開看詳情的和賣家詢價(jià)的,這三個(gè)數(shù)據(jù)被稱為詢盤數(shù)據(jù)。詢盤數(shù)據(jù)不等于交易數(shù)據(jù),但具有相關(guān)性,這兩個(gè)數(shù)據(jù)存在時(shí)間上的先后和一定的比例關(guān)系。在2008年阿里巴巴就是通過發(fā)現(xiàn)詢盤數(shù)據(jù)急劇下降,推測(cè)出交易量不久也會(huì)下降,繼而預(yù)測(cè)出金融危機(jī)的到來。
數(shù)據(jù)的另一個(gè)價(jià)值是改變了傳統(tǒng)的商業(yè)模式,以外賣物流配送為例。
外賣行業(yè)連接著線上線下的訂餐需求,將傳統(tǒng)的到店消費(fèi)模式改造成更加靈活便捷的到家消費(fèi)模式,極大降低了用戶的消費(fèi)成本和商戶的固定成本。基于城市道路交通狀況的物流配送能力是決定外賣平臺(tái)商業(yè)模式成敗的關(guān)鍵,即運(yùn)用城市交通大數(shù)據(jù)相關(guān)的云計(jì)算、深度學(xué)習(xí)和可視化技術(shù)的能力。因此,智能調(diào)度系統(tǒng)是外賣物流的最核心環(huán)節(jié),依托海量歷史訂單數(shù)據(jù)、騎士定位數(shù)據(jù)、商戶數(shù)據(jù)、針對(duì)騎士實(shí)時(shí)情況(任務(wù)量、配送距離、并單),對(duì)訂單進(jìn)行智能匹配,實(shí)現(xiàn)全局最優(yōu)配置。
然而在真實(shí)場(chǎng)景中,用戶點(diǎn)了餐就希望能按時(shí)送到,騎士上了路就希望能一起多送幾單,商家接了餐就希望盡快取餐,平臺(tái)則關(guān)心如何以最小的運(yùn)力承接最大的配送量。更重要的是,這些目標(biāo)有時(shí)又是相互矛盾的。每個(gè)訂單不是孤立存在的,要想得到最優(yōu)方案,還必須考慮到這一時(shí)間段其他訂單的配送情況,盡可能合并訂單。還要考慮到天氣、節(jié)假日、工作日等臨時(shí)情況。智能調(diào)度系統(tǒng)需要將以上所有因素都考慮在內(nèi),實(shí)時(shí)采集整個(gè)商圈里各方的動(dòng)態(tài)數(shù)據(jù),在1ms內(nèi)做出時(shí)間跨度和空間范圍內(nèi)的最優(yōu)分配序列,讓騎士軌跡能無縫銜接起整個(gè)配送流程,讓每個(gè)環(huán)節(jié)耗費(fèi)的時(shí)間降到最低,配送成本最低,配送效率最高。
實(shí)踐證明,在智能物流調(diào)度系統(tǒng)實(shí)施之前,訂單需要由調(diào)度員手工分配,每個(gè)騎士每天最多配送10單。實(shí)施之后,經(jīng)智能調(diào)度系統(tǒng)配送后,每個(gè)騎士的配送效率翻倍、收入翻數(shù)倍,每單配送時(shí)長(zhǎng)節(jié)省50%,目前該系統(tǒng)已覆蓋全國(guó)100多個(gè)城市。
百度依靠強(qiáng)大的云計(jì)算能力和技術(shù)優(yōu)勢(shì),設(shè)計(jì)了分布式、高并式、大容量的流式計(jì)算框架,以得到最優(yōu)的計(jì)算效果。以百度目前的計(jì)算框架完全可以支撐未來每天千萬(wàn)級(jí)訂單、秒級(jí)10億次計(jì)算的動(dòng)態(tài)調(diào)度,而現(xiàn)在百度外賣每天的訂單為百萬(wàn)級(jí)。
對(duì)于傳統(tǒng)的制造業(yè),大數(shù)據(jù)也產(chǎn)生了巨大的改變。這方面的典型代表是美國(guó)通用公司(GE),該公司于2012年提出“工業(yè)互聯(lián)網(wǎng)和數(shù)字平臺(tái)”的概念,推出了Predix平臺(tái)。這是全球第一個(gè)專為工業(yè)數(shù)據(jù)與分析開發(fā)的云服務(wù)平臺(tái),負(fù)責(zé)將各種工業(yè)資產(chǎn)設(shè)備和供應(yīng)商相互連接并接入云端,以提供應(yīng)用性能管理(APM)和運(yùn)營(yíng)優(yōu)化服務(wù)。APM(Application Performance Management應(yīng)用性能管理)是新的網(wǎng)絡(luò)管理方向,主要對(duì)企業(yè)的關(guān)鍵任務(wù)進(jìn)行監(jiān)測(cè)、優(yōu)化,以提高企業(yè)應(yīng)用的可靠性和質(zhì)量。一個(gè)企業(yè)的關(guān)鍵業(yè)務(wù)應(yīng)用的性能決定了企業(yè)競(jìng)爭(zhēng)力,因此,加強(qiáng)應(yīng)用性能管理可以產(chǎn)生巨大的商業(yè)利益。通用公司將10000個(gè)傳感器安置在發(fā)電廠內(nèi),用以搜集運(yùn)行數(shù)據(jù),通過數(shù)據(jù)了解電廠的運(yùn)行狀態(tài)。對(duì)燃料和空氣的比例進(jìn)行微小調(diào)整,將發(fā)電廠效率提高一個(gè)百分點(diǎn)。看似很小的調(diào)整,在同等處理狀態(tài)下,每年就可以減少67000噸煤炭消耗。
①在Farecast被微軟公司以1.1億美元收購(gòu)兩年后,谷歌以7億美元收購(gòu)了ITA Software公司。
②在2011年,這個(gè)產(chǎn)品下架,這里要提到一個(gè)悖論,就是預(yù)測(cè)悖論。當(dāng)預(yù)測(cè)流感要來了,公眾要提前做預(yù)防,減少了流感傳播的可能性,即預(yù)測(cè)被干擾。
(未完待續(xù))