大數(shù)據(jù)時(shí)代經(jīng)典語錄
《大數(shù)據(jù)時(shí)代》是國外大數(shù)據(jù)研究的先河之作,本書作者維克托邁爾舍恩伯格被譽(yù)為“大數(shù)據(jù)商業(yè)應(yīng)用第一人”,下面小編為大家?guī)泶髷?shù)據(jù)時(shí)代經(jīng)典語錄,供大家閱讀!
正文:
第一章:樣本 =全體
統(tǒng)計(jì)學(xué)家證明,采樣分析的精確性隨著采樣隨機(jī)性的增加而大幅度提高,但與樣本數(shù)量的增加關(guān)系不大。隨機(jī)采樣取得了巨大的成功,但是他的成功利亞與采樣的絕對(duì)隨機(jī)性,實(shí)現(xiàn)采樣的隨機(jī)性非常困難,一旦采樣過程中存在任何偏見,分析結(jié)果就會(huì)相去甚遠(yuǎn)。 搜集的數(shù)據(jù)越來越多,分析和預(yù)測(cè)結(jié)果就會(huì)越來越準(zhǔn)確,并發(fā)現(xiàn)一些細(xì)節(jié)和微乎其微的重要問題。
有些情況下,異常值才是重要的信息,大數(shù)據(jù)的處理方法就不會(huì)錯(cuò)過這個(gè)異常值。商務(wù)是即時(shí)的,因此數(shù)據(jù)分析也應(yīng)該是即時(shí)的。 《魔鬼經(jīng)濟(jì)學(xué)》
大數(shù)據(jù)是指不用隨機(jī)分析法這樣的捷徑,而是通過采用所有數(shù)據(jù)的方法。數(shù)據(jù)量不一定很大,但需要全部,包含了所有的信息。
Lytro相機(jī)記錄整個(gè)光場(chǎng)的信息,搜集了所有的數(shù)據(jù),拍攝完之后再對(duì)焦,而且有“可循環(huán)利用性”。 《爆發(fā)》
第二章:混雜性。
只有 5%的數(shù)據(jù)是結(jié)構(gòu)化的,可以適用于傳統(tǒng)數(shù)據(jù)庫,如果不接受混亂,剩下 95%的非結(jié)構(gòu)化數(shù)據(jù)都無法被利用。
少量數(shù)據(jù)下運(yùn)行最佳的算法,可能在大數(shù)據(jù)下可能會(huì)表現(xiàn)差強(qiáng)人意,在少量數(shù)據(jù)下表現(xiàn)差的算法,可能在大數(shù)據(jù)下驚呆小伙伴們。大數(shù)據(jù)的簡(jiǎn)單算法比小數(shù)據(jù)的復(fù)雜算法更有效,混雜是關(guān)鍵。
谷歌翻譯之所以好,除了數(shù)據(jù)量龐大以外,還接受了有錯(cuò)誤的數(shù)據(jù),即來自互聯(lián)網(wǎng)的廢棄內(nèi)容。
Hadoop 超大量數(shù)據(jù)下的分布式處理,假設(shè)系統(tǒng)癱瘓而建立數(shù)據(jù)副本,假定數(shù)據(jù)量巨大無法移動(dòng),人們必須在本地進(jìn)行數(shù)據(jù)分析。它的輸出結(jié)果不想關(guān)系型數(shù)據(jù)庫那般精確,無法用于衛(wèi)星發(fā)射、開具銀行賬戶明細(xì),但是運(yùn)行卻快很多。
第三章 不是因果關(guān)系,而是相關(guān)關(guān)系
通過數(shù)據(jù)推薦產(chǎn)品所增加的銷售遠(yuǎn)遠(yuǎn)超過書評(píng)家的貢獻(xiàn)。計(jì)算機(jī)可能不知道為什么喜歡海明威作品的客戶會(huì)購買菲茨吉拉德的書,但是他只要通過算法統(tǒng)計(jì)分析,得知這個(gè)結(jié)果就可以了。
沃爾瑪領(lǐng)導(dǎo)了零售鏈的革命,讓供應(yīng)商監(jiān)控銷售速率、數(shù)量、以及存貨情況。這個(gè)數(shù)據(jù)庫不僅包含了每一個(gè)顧客的購物清單以及消費(fèi)額,還包括購物籃中的物品、具體購買時(shí)間,甚至購買當(dāng)天的天氣。
在大數(shù)據(jù)時(shí)代,通過建立在人的偏見上的關(guān)聯(lián)物檢測(cè)法已經(jīng)不再可行,因?yàn)閿?shù)據(jù)庫太大而且需要考慮的領(lǐng)域太復(fù)雜。幸運(yùn)的是,許多迫使我們選擇假想分析法的限制條件也逐漸消失了。現(xiàn)在我們擁有如此多的數(shù)據(jù),這么好的機(jī)器計(jì)算能力,因而不再需要人工選擇一個(gè)關(guān)聯(lián)物或者一小部分相似的數(shù)據(jù)來逐一分析了。大數(shù)據(jù)的相關(guān)關(guān)系分析法,取代了基于假想的易出錯(cuò)的方法。大數(shù)據(jù)的相關(guān)關(guān)系法更準(zhǔn)確、更快,而且不易受偏見的影響。
塔基特公司在完全不合準(zhǔn)媽媽對(duì)話的前提下預(yù)測(cè)一個(gè)女性會(huì)在什么時(shí)候懷孕。她們會(huì)光顧以前不會(huì)去的商店,漸漸對(duì)新的品牌建立忠誠。
ups與汽車修理預(yù)測(cè),車輛處故障后,造成延誤和在裝載的負(fù)擔(dān),消耗大量人力物力。通過檢測(cè)汽車的每個(gè)部位,及時(shí)更換需要更換的零件,免除了可能會(huì)造成的困擾。同樣的方法也可以用在人的身上,,檢測(cè)病人的即時(shí)信息。
第四章 數(shù)據(jù)化 一切皆可量化
莫里整合美國海軍的航海日志,繪制更安全和快速的航海圖表,其他商船需要使用圖表,必須(病毒式傳染)按照要求撰寫航海日志并提交給莫里。將海上的船只都變成一個(gè)個(gè)科學(xué)站和天文臺(tái)。
數(shù)據(jù)化不是數(shù)字化,數(shù)字化只是把模擬數(shù)據(jù)變成1和0來表示。
gps全球定位系統(tǒng)的地理定位能精確到米,實(shí)現(xiàn)了自古以來無數(shù)航海家、制圖家和數(shù)學(xué)家的夢(mèng)想。
airsage每天通過處理上百萬手機(jī)用戶的150億條位置信息,為超過100個(gè)美國城市提供實(shí)時(shí)交通信息。
facebook,twitter等社交網(wǎng)絡(luò)將我們的關(guān)系、經(jīng)歷和情感進(jìn)行數(shù)據(jù)化。他們不僅提供我們尋找和維持朋友、同事關(guān)系的場(chǎng)所,也將我們?nèi)粘I钪械臒o形元素提取出來,轉(zhuǎn)化為可用作新用途的數(shù)據(jù)。華爾街的數(shù)學(xué)奇才們將數(shù)據(jù)傳輸?shù)剿麄兊乃惴J疆?dāng)中,尋找能被有效利用的關(guān)系模式當(dāng)中。社交網(wǎng)絡(luò)分析之父寫了一個(gè)程序,能通過監(jiān)聽新微薄的發(fā)布頻率,預(yù)測(cè)一部電影的成敗,比其他傳統(tǒng)方法還要準(zhǔn)確。
自我量化是一項(xiàng)由一群健身迷、醫(yī)學(xué)瘋子以及技術(shù)狂人發(fā)起的運(yùn)動(dòng),通過測(cè)量身體每一個(gè)部位和每一件事來讓生活更美好。
第五章 價(jià)值 取之不盡用之不竭
驗(yàn)證碼輸入時(shí),一個(gè)用于證明對(duì)方是人類,另一個(gè)則是圖書掃描時(shí)計(jì)算機(jī)無法識(shí)別的模糊單詞,由網(wǎng)絡(luò)上大量用戶幫忙識(shí)別,節(jié)省了大量人力物力財(cái)力。
隨著購物平臺(tái)、設(shè)計(jì)平臺(tái)、金融等的出現(xiàn),我們的人脈關(guān)系、想法、喜好和日常生活模式也逐漸被加入到巨大的個(gè)人信息庫中。
數(shù)據(jù)的價(jià)值不會(huì)隨著它的使用而減少,而是可以不斷被處理,個(gè)人的使用不會(huì)妨礙其他人的使用。
ibm搜集汽車電量和路線、充電站插槽、天氣等等信息,開發(fā)了復(fù)雜的預(yù)測(cè)模型,確定充電的最佳時(shí)間和地點(diǎn),揭示充電站的最佳設(shè)置點(diǎn)。
google推出語音識(shí)別服務(wù),借助nuance的技術(shù),但是自己儲(chǔ)存語音識(shí)別記錄,依靠此記錄重新創(chuàng)建了一個(gè)新的語音識(shí)別系統(tǒng)。
搜集數(shù)據(jù)是必須確保數(shù)據(jù)具有再利用性、重組能力、可拓展能力。
有部分?jǐn)?shù)據(jù)價(jià)值會(huì)隨之時(shí)間推移失去價(jià)值,比如在亞馬遜上購買一本書,數(shù)月后對(duì)這方面的書完全失去了興趣,則這個(gè)數(shù)據(jù)就失去了價(jià)值。但并非所有的數(shù)據(jù)都會(huì)貶值,大數(shù)據(jù)下鼓勵(lì)儲(chǔ)存所有數(shù)據(jù)并試圖挖掘其中的價(jià)值。
google擁有世界上最完整的拼寫檢查器,涵蓋世界上每一種語言,依據(jù)是每天處理的30億查詢中輸入搜索框中的錯(cuò)誤拼寫。
“數(shù)據(jù)廢氣”——他是用戶在線交互的副產(chǎn)品,包括瀏覽了那些頁面、停留了多久、鼠標(biāo)光標(biāo)停留的位置、輸入了什么信息等。比如google如果發(fā)現(xiàn)用戶搜索之后再重復(fù)搜索,則表明搜索結(jié)果不滿意,或者發(fā)現(xiàn)用戶點(diǎn)擊后面的選項(xiàng),則算法自動(dòng)將后面的選項(xiàng)調(diào)前。是搜索引擎的自我訓(xùn)練。
電子閱讀器捕捉大量關(guān)于文學(xué)喜好和閱讀人群的數(shù)據(jù),販賣給出版社。比如閱讀一頁或一節(jié)需要多長時(shí)間,讀者是略讀還是直接放棄閱讀,是否劃線強(qiáng)調(diào)還是在空白處做了標(biāo)記,這些信息都是出版商和作者之前不會(huì)知道的信息。
在線課程跟蹤學(xué)生的web交互來尋找最佳的.教學(xué)方法,比如多次看一個(gè)課程,說明該課程沒有講清楚。
政府是最大規(guī)模信息的原始采集者。美國、歐盟等政府已經(jīng)公開了很多信息,除了一些機(jī)密的信息。flyontime.us航班時(shí)間預(yù)測(cè),搜集交通運(yùn)輸局的歷史航班延誤數(shù)據(jù)、美國聯(lián)邦航空管理局的機(jī)場(chǎng)信息,以及美國國家海洋和大氣管理局的以往天氣報(bào)告、國美氣象服務(wù)的實(shí)時(shí)狀態(tài)等。
給數(shù)據(jù)估值——facebook更具會(huì)計(jì)準(zhǔn)則計(jì)算出的價(jià)值為63億美元,但市場(chǎng)估值卻為1040億美元,為什么差距這么大?公司賬面價(jià)值和市場(chǎng)價(jià)值之間的差額被記為“無形資產(chǎn)”。二十世紀(jì)八十年代中期,無形資產(chǎn)在美國上市公司市值中約占40%,而在2002年,這一數(shù)據(jù)已經(jīng)增長為75%。無形資產(chǎn)早期包括品牌、人才和戰(zhàn)略這些應(yīng)計(jì)入正規(guī)金融會(huì)計(jì)制度的非有形資產(chǎn)部分。但漸漸地,公司所持有和使用的數(shù)據(jù)也漸漸納入了無形資產(chǎn)的范疇。幾乎肯定數(shù)據(jù)的價(jià)值將顯示在企業(yè)的資產(chǎn)負(fù)載表上,成為一個(gè)新的資產(chǎn)類別。
催生了一大批倒賣數(shù)據(jù)的公司和機(jī)構(gòu),紛紛給數(shù)據(jù)定價(jià),數(shù)據(jù)在不斷被轉(zhuǎn)手和利用,共同挖掘其中的價(jià)值。
第六章 角色定位
decide.com收集電子商務(wù)網(wǎng)站上所有的電子產(chǎn)品的價(jià)格數(shù)據(jù)和產(chǎn)品信息,告知用戶何時(shí)才是購買電子產(chǎn)品的最佳時(shí)機(jī)。預(yù)測(cè)準(zhǔn)確率高達(dá)77%。他和farecast都出自奧倫之手。 大數(shù)據(jù)價(jià)值鏈三大構(gòu)成:基于數(shù)據(jù)本身的公司,基于技能的公司,基于思維的公司。google和亞馬遜幸運(yùn)地同時(shí)擁有這三個(gè)方面。
數(shù)據(jù)科學(xué)家是統(tǒng)計(jì)學(xué)家、軟件程序員、圖形設(shè)計(jì)師和作家的結(jié)合體,通過搜尋數(shù)據(jù)庫來得到新的發(fā)現(xiàn)。
信用卡發(fā)行商搜集消費(fèi)信息。
微軟和醫(yī)院合作,分析多年來的匿名醫(yī)療記錄,發(fā)現(xiàn)出現(xiàn)壓抑的病人再次入院的概率更高,因此出院以后的醫(yī)學(xué)干預(yù)必須以解決病人的心理問題為重心,降低再入院率和醫(yī)療成本。
所謂大數(shù)據(jù)思維,是指一種意識(shí),認(rèn)為公開的數(shù)據(jù)一旦處理得當(dāng)就能為千百萬人急需解決的問題提供答案。
金礦產(chǎn)業(yè)鏈中,金子最珍貴,因此數(shù)據(jù)的價(jià)值勝過算法技術(shù)和大數(shù)據(jù)思維。
inrix搜集全美和歐洲的汽車交通信息,并提供app給司機(jī),供司機(jī)查詢交通情況,同時(shí)司機(jī)自身的交通數(shù)據(jù)也上傳分享了出來。他同時(shí)發(fā)現(xiàn)一些價(jià)值點(diǎn),比如一個(gè)商場(chǎng)周圍車輛很多,說明商場(chǎng)的銷量增加。上下班高峰時(shí)期的交通狀況變好了,這就說明失業(yè)率增加了,經(jīng)濟(jì)狀況變差了。
行業(yè)專家和技術(shù)專家的光芒都會(huì)被統(tǒng)計(jì)學(xué)家和數(shù)據(jù)分析家的出現(xiàn)而變暗,因?yàn)楹笳卟皇芘f觀念的影響,能夠聆聽數(shù)據(jù)發(fā)出的聲音。
人們把專業(yè)人才看的比全才更重要,深度才是財(cái)富。
蘋果公司與運(yùn)營商簽訂合約的時(shí)候規(guī)定,運(yùn)營商提供給它大部分的有用數(shù)據(jù)。
普通消費(fèi)者愿意免費(fèi)提供這些數(shù)據(jù)來換取更好的服務(wù),比如亞馬遜的圖書推薦、博客、twitter,維基百科等等。
第七章 風(fēng)險(xiǎn)
大數(shù)據(jù)時(shí)代,很多數(shù)據(jù)在搜集的時(shí)候并無意用作其他用途,而最終卻產(chǎn)生了很多創(chuàng)新性的用途。
無處不在的信息泄露,侵犯了人們的隱私,一個(gè)可能的途徑是匿名化,但是匿名化對(duì)大數(shù)據(jù)是無效的,因?yàn)樗鸭臄?shù)據(jù)越來越多,我們會(huì)結(jié)合越來越多不同來源的數(shù)據(jù)。 “藍(lán)色粉碎”為警員提供情報(bào),關(guān)于哪些地方更容易發(fā)生犯罪事件,什么時(shí)候更容易帶到罪犯。幫助執(zhí)法部門更好的分配資源,使犯罪發(fā)生率下降了26%。
過分依賴數(shù)據(jù),而數(shù)據(jù)遠(yuǎn)遠(yuǎn)沒有我們所想的那么可靠。美國國防部長衡量越戰(zhàn)成果用死亡人數(shù),但只有2%的美國將軍認(rèn)為死亡人數(shù)對(duì)戰(zhàn)爭(zhēng)成果是有意義的,美國很多部門一層一層將數(shù)字夸大化。
其實(shí),卓越的才華并不依賴于數(shù)據(jù)。喬布斯依靠的是直覺,他的第六感,記者問他做了多少市場(chǎng)調(diào)研時(shí),“沒做!消費(fèi)者沒有義務(wù)去了解自己想要什么!
第八章 掌控 責(zé)任與自由并舉的信息管理
管理改革1:個(gè)人隱私保護(hù),從個(gè)人許可到讓數(shù)據(jù)使用者承擔(dān)責(zé)任。
新的隱私保護(hù)模式,著重于數(shù)據(jù)使用者為其行為承擔(dān)責(zé)任,而不是將重心放在收集數(shù)據(jù)之處取得個(gè)人同意上。監(jiān)管機(jī)制可以決定不同種類的個(gè)人數(shù)據(jù)必須刪除的時(shí)間。再利用的時(shí)間框架則取決于數(shù)據(jù)內(nèi)在風(fēng)險(xiǎn)和社會(huì)價(jià)值觀的不同。公司可以利用數(shù)據(jù)的時(shí)間更長,但相應(yīng)必須為其行為承擔(dān)責(zé)任以及富有特定時(shí)間之后刪除個(gè)人數(shù)據(jù)的義務(wù);蛘吖室鈱(shù)據(jù)模糊黑醋栗,促使大數(shù)據(jù)庫的查詢不能顯示精確地結(jié)果,而只有相近的結(jié)果。 管理改革2:個(gè)人動(dòng)因vs預(yù)測(cè)分析。犯罪評(píng)定必須根據(jù)過去發(fā)生的事實(shí)評(píng)定,對(duì)未來的預(yù)測(cè)即使準(zhǔn)確,但有失公平性和說服力。
管理改革3:擊碎黑盒子,大數(shù)據(jù)算法師的崛起。
管理改革4:反數(shù)據(jù)壟斷大亨。反壟斷法遏制了權(quán)利的濫用,促進(jìn)了大數(shù)據(jù)平臺(tái)的良性競(jìng)爭(zhēng),世界上一些大型數(shù)據(jù)擁有者和政府都在逐步公布其數(shù)據(jù)。
結(jié)語 正在發(fā)生的未來
大數(shù)據(jù)為我們提供的不是最終答案,只是參考答案,幫助是暫時(shí)的,而更好的方法和答案還在不久的未來。
佛勞爾成為紐約市的“分析主人”,利用城市尚未開發(fā)的數(shù)據(jù)庫開展分析和研究,提取價(jià)值。佛勞爾對(duì)經(jīng)驗(yàn)豐富的統(tǒng)計(jì)學(xué)家沒有興趣,,他擔(dān)心他們不愿意采取這種新方法來解決問題!拔蚁胍蓤(zhí)行的洞察力”。挑選了五個(gè)畢業(yè)一兩年的經(jīng)濟(jì)學(xué)專業(yè)學(xué)生組成團(tuán)隊(duì)。一起專注處理“非法改建問題”,將一套住房隔出很多個(gè)小房間,容納多十倍的人,帶來巨大的火災(zāi)隱患。紐約市每年會(huì)收到25000起非法改建的投訴,但只有200名檢察院在處理這些事情。沒有好辦法區(qū)分簡(jiǎn)單的滋擾問題和嚴(yán)重的爆炸起火事件!饎跔栍么髷(shù)據(jù)來解決。
輸入來自19個(gè)機(jī)構(gòu)的數(shù)據(jù)集,房產(chǎn)稅、公用設(shè)施使用異常、建筑類型、修建時(shí)間、救護(hù)車訪問次數(shù)、犯罪率和嚙齒動(dòng)物投訴等信息,數(shù)據(jù)形式都不可用,不一致,很凌亂,但他們整合以后,忽略精確度,將巨大的混雜數(shù)據(jù)庫與火災(zāi)數(shù)據(jù)嚴(yán)重性排名進(jìn)行對(duì)比并得到一個(gè)模型,預(yù)測(cè)投訴迫切度。
現(xiàn)場(chǎng)考察發(fā)現(xiàn)新的數(shù)據(jù)集線索,比如裝修、磚工等,而且讓檢查員來測(cè)試他們的模型。最終讓檢查準(zhǔn)確度提高了五倍!拔覍(duì)因果關(guān)系不感興趣,除非他用行動(dòng)說話。”
大數(shù)據(jù)提示我們接受類似的不準(zhǔn)確,因?yàn)椴粶?zhǔn)確正是我們之所以為人的特征之一,就像我們處理混亂數(shù)據(jù)一樣,畢竟混亂構(gòu)成了世界的本質(zhì),也構(gòu)成了人腦的本質(zhì),學(xué)會(huì)接受和運(yùn)用他們才會(huì)得益。
【大數(shù)據(jù)時(shí)代經(jīng)典語錄】相關(guān)文章:
大數(shù)據(jù)時(shí)代,看“別人家的公司”是如何招聘的07-25
大數(shù)據(jù)時(shí)代企業(yè)管理會(huì)計(jì)存在的問題及應(yīng)對(duì)策略論文01-14
冰川時(shí)代觀后感05-24
《小時(shí)代》觀后感03-02
數(shù)據(jù)庫開發(fā)求職簡(jiǎn)歷03-08
銀行監(jiān)督數(shù)據(jù)轉(zhuǎn)化調(diào)研報(bào)告12-21
飲料消費(fèi)人群數(shù)據(jù)調(diào)研報(bào)告04-04
金融數(shù)據(jù)求職信封面02-07