網贏中國專注大數據營銷 [會員登錄][免費注冊][網贏中國下載]我要投稿|加入合伙人|設為首頁|收藏|RSS
網贏中國是大數據營銷代名詞。
大數據營銷
當前位置:網贏中國 > 行業資訊 > 解決方案 > 大數據營銷解決方案 > Intel研究院院長吳甘沙演講全文:大數據分析師的卓越之道-技術博客
Intel研究院院長吳甘沙演講全文:大數據分析師的卓越之道-技術博客
編輯:吳甘沙院長 發布時間: 2015-9-15    文章來源:大數據文摘
大數據營銷

  此版本為吳甘沙院長親自確認版,值得收藏!


  演講人|吳甘沙 英特爾中國研究院院長兼首席工程師


  大數據文摘編輯整理,素材來自經管之家(bbs.pinggu.org) 組織“中國數據分析師行業峰會”。


Intel研究院院長吳甘沙演講全文:大數據分析師的卓越之道

  親愛的各位同仁,各位同學,早上好。大數據時代數據分析師應該做什么改變?我今天的標題是大數據分析師的卓越之道。這個演講信息量比較大,我講的不一定對,即使對的我也不一定真懂了,所以請大家以批判的方式去理解。


大數據分析

  這是一個典型的數據分析的場景,下面是基礎設施,數據采集、存儲到處理,左邊是數據處理,右邊價值輸出。連接數據和價值之間的是知識發現,用專業詞匯講,知識就是模型,知識發現就是建模和學習的過程。問題來了,大數據時代帶來怎樣的變化?首先數據變得非常大,數據是新的原材料,是資產、貨幣,所以大家對價值輸出的希望值也非常高。但是大數據洪流過來,我們原有基礎設施都被沖的七零八落。所以過去十幾年事實上業界都在做大數據基礎設施,做大規模水平擴展,PC級服務器的容錯,MapReduce簡化編程模型,對數據密集型應用提高吞吐量,因此有了分布式操作性能,磁盤閃存化,接著內存計算,內存需要越來越大,呼喚閃存內存化,更靈活的編程模型,最近又有了像深度學習那樣的計算密集型應用,所有這些都需要基礎設施的升級。


Intel研究院院長吳甘沙演講全文:大數據分析師的卓越之道

  改變思維方式


  基礎設施升級了,知識發現的過程是不是能自然升級?我跟大家說天下沒有免費的午餐。今天的主題是基礎設施已經改朝換代了,我們分析師也應該與時俱進,體現在三個方面:第一、思維方式要改變;第二、技術要提升;第三,分析的能力要豐富起來。


Intel研究院院長吳甘沙演講全文:大數據分析師的卓越之道

  首先,說一下思維方式。改變思維方式最重要的就是改變世界觀,這個就是牛頓機械論、確定論的世界。有個所謂拉普拉斯惡魔的說法,如果在這個時刻宇宙當中所有原子的狀態都是可確定的話,就可以推知過去任何一個時刻和未來任何一個時刻的宇宙狀態。雖然愛因斯坦發展了經典物理,但本質還是確定論,決定論,他的經典說法是“上帝不擲骰子”。但是今天的世界事實上是不確定的,世界是基于概率的。大家都知道薛定諤的貓,貓在盒子里可能同時是死的,也同時是活的。但是一旦打開這個盒子,它就變成確定了,要么就是真的死了,要么確實活著。所謂”好奇心害死貓“,打開盒子,有一半的概率殺死這只貓。


Intel研究院院長吳甘沙演講全文:大數據分析師的卓越之道

  這就是海森堡的測不準理論,你的觀測行為會改變被觀測的現象。很多大數據事實上也是測不準的,像Google流感的預測,大家可以看在2013年1月份的階段,Google預計的流感情況遠高于疾控中心實際測到的數目。所以《科學》和《自然》就發話了,《自然》認為是大數據測不準,《科學》說這是大數據的傲慢。我們常常說舍恩伯格的大數據三大理念,要全集不要采樣,擁抱混雜性、無需精確性,要相關性、不必有因果性。我提醒大家,這些理念是適合吹牛用的,分析師千萬不能把這個當作絕對真理。在這個案例來,即使Google那么牛也拿不到全量的數據??v然考慮了混雜性,Google融合了關鍵詞和疾控中心的數據來調整模型,數據還是不精確。另外,相關性對于商品推薦確實夠用了,但涉及健康的問題還是要究其原因,要有因果性。大家看這個預測的過量就導致了局部時間和地區內流感疫苗準備過量,而其他時間/地區形成了短缺。


  所以數據的方法論需要升級。


Intel研究院院長吳甘沙演講全文:大數據分析師的卓越之道

  這是一個典型的數據分析的流程,可以先由假設采集數據,也可以先采集了各種數據,然后從中發現假設。有了數據以后下一步就要做數據的準備,數據準備往往是最花時間的。然后分析,分析完了要考慮怎么解釋這個結果。大家知道,數據分析有兩種目的,一種是把結果給機器看,像精準營銷、商品推薦等,不需很高的可解釋性。另一種是給人看,需要可解釋性,有時甚至為了可解釋性可以損失一些精確性,比如美國的FICO積分計算模型,只有五六個參數,一目了然,具有可解釋性。對分析結果的另外一個處理就是驗證,從隨機對照實驗到現在的A/B測試。


  到了大數據時代這個方法論要怎么改變呢,首先我們說測不準,所以需要加一個反饋循環,我們循環反復地驗證假設、收集數據。數據7天24小時進來,里面有很多噪聲,有些隨機噪聲是可處理的,還有一些是系統噪聲,可能因為污染的數據源,就要特別的數據準備階段。接著我們做數據分析需要實時,交互,要快,這樣才能趕得及世界的變化,最后的解釋和驗證同樣需要升級。所以,下面我一一來做闡述。


  一、假設


Intel研究院院長吳甘沙演講全文:大數據分析師的卓越之道
Intel研究院院長吳甘沙演講全文:大數據分析師的卓越之道

  首先看假設。大數據思維需要我們先有很多數據,然后通過機械的方法發現其中的相關性,將其變成假設。但有時候相關性確實太多了,弱水三千只取一瓢飲,這里面就需要我們的直覺。直覺就是不動腦筋、在潛意識里完成的邏輯推理。怎么訓練直覺?就是像讀偵探小說和懸疑小說里面的推理過程。如果說這樣的推理過程只是模型,也還需要數據,需要很多先驗的知識。這個知識怎么來呢?首先就是廣泛的閱讀。第二個,跨界思想的碰撞,跟很多人聊。這兩個是背景知識,還有一個前景知識,就是上下文的知識、融入到業務部門。我們希望把數據分析師放到業務部門,和業務人員融入到一起,這才能防止數據采集和分析脫鉤,數據分析和業務應用的脫節。


  二、數據采集


Intel研究院院長吳甘沙演講全文:大數據分析師的卓越之道
Intel研究院院長吳甘沙演講全文:大數據分析師的卓越之道

  第二個,數據采集,這里我非??鋸埖貜娬{“數據!數據!數據!”為什么?因為大數據碰到的第一個問題就是數據饑渴癥。我們有一次跟阿里聊,他們說也缺數據,只有網上的銷售記錄,而缺乏無線的數據。所謂無線的數據就是物理世界的行為,你在網上買了一個東西,前面發生了什么?用戶的意圖是什么?怎么形成的?他們也沒有。所以我們強調全量數據,而不是采樣的、片面的數據。


  同時現在我們企業已經從小數據到大數據,從數據倉庫轉為Enterprise Data Hub或Data Lake,意味著什么?有人說傳統數據倉庫的缺點是數據結構變化太困難,太貴了,其實更本質的是對于數據倉庫來說,是有問題,然后根據這個問題搜集和組織數據,數據結構是確定的。從現在的EDH來說,需要先把各種原始數據送進來,然后不斷的提問題,相應地改變數據表示,這就是一種新的思維。


  我們需要大量的外部數據源,從social media,到開放數據,到從data broker/aggregator那兒買。處理的數據從傳統的結構化數據到半結構化、非結構化數據。傳統結構化數據是什么,交易數據。而現在我們企業里面經常面對的是兩種非結構化數據。


  第一個就是日志分析,大家知道大數據第一家上市公司Splunk就是從事這一業務。


  第二個就是文本數據,現在我們經常聽說情感分析,topic modeling,呼叫中心需要的問答系統,甚至是最新的交互式對話系統,都需要文本分析。


  第三個是從文本到圖片再到視頻,需要計算機視覺、模式匹配、語義分析。


  第四個是很多數據都是有時間和空間的標簽,比如微博,物聯網數據,怎么保證數據的時空一致性,怎么能夠實時、流式地處理這些新的數據。


  最后,還有很多數據是網絡數據和圖數據,比如說社交網絡,我們怎么來通過PageRank這樣的方式判斷個人的影響力,怎么來判斷網絡的控制中心在哪里,都需要一些新的處理方式。


Intel研究院院長吳甘沙演講全文:大數據分析師的卓越之道

  是不是前面說的這些都是合理的?我這里連用了三個問號。


  比如說要n=all全量,事實上是不可能采集到數據,有時候你也不必要有全量數據。


  首先,是不是數據更多就越好呢?未必。我們拿中國作為一個例子,新疆、青海、西藏、內蒙古占的面積是我們國土面積的一半,我們采集這四個地方的數據,是不是比采樣更能代表中國呢?未必!


  第二個是“原始數據”是不是一個矛盾修辭。因為原始數據可能并不原始、客觀,它受到采集人文化、背景、價值取向的影響。


  第三,大數據里面的噪聲很多,但是有時候在數據里面信號看上去是噪聲。比如說大數據要求傾聽每一個個體的聲音,提供個性化服務,但有一些個體的聲音是非常少的,他們在長長的尾部里面,但是你不能忽略它。


  還有,采樣本身是有偏差的。有一個經典的故事,二戰的時候對飛回來的戰機進行分析,相應地對要害部位加固。人們發現機翼上有很多彈孔,那是不是加固這個地方很重要?人們沒有想到的是那些沒能飛回來的戰機并沒有采樣到,因為擊中座艙的都墜毀了。因此加固座艙才是最緊要的。大數據的采樣偏差尤其體現在它有各種子數據集,而每一個數據集都采取不同的抽樣規范,缺乏全局的控制,這樣就有采樣偏差。


  同時你要考慮數據權利的問題,這些數據是屬于誰的,有沒有隱私問題,使用許可是不是有范圍,是不是按照許可的范圍做了,我能不能審計,知情,這些都是數據的權利。未來數據交易的話還要解決數據的定價問題,這是非常困難的。


  當我有了數據以后,需要生命周期的管理,大數據生命周期管理非常重要。一是provenance,英語原意是出處或者是來源,但現在把它譯為世系,或數據的的家族譜系,它最早是哪里來的,它又移動到什么地方,經過什么樣的處理,又產生了什么樣新的子后代。


  另外,現在我們強調數據永不刪除,是不是有這個必要?我們發現其實很多數據沒用以后,就應該刪除。例如,有個互聯網公司用用Cookie采集了鼠標移動蹤跡的數據,來了解用戶的瀏覽行為。但是過一段時間網頁的格局和內容都變化了,這些數據還有什么用呢?應該刪除掉。所以并不是說數據永遠都要保存。但是,另一方面反映了,數據來了一周之內,一個月之內必需要分析,不然就永遠不會再碰它了,失去意義了。


  三、數據的準備


Intel研究院院長吳甘沙演講全文:大數據分析師的卓越之道
Intel研究院院長吳甘沙演講全文:大數據分析師的卓越之道

  下面講數據的準備,大數據的質量非常重要。要混雜性、不要精確性是有問題的。一個非常著名的研究機構做了統計,詢問大數據分析師什么是你single biggest problem,回答”數據質量“的人數是“數據大”人數的兩倍。


  面對大數據,要有“有罪推定”,認識到大數據本身就是有噪聲的,有偏差的,也是有污染的數據源。你的目標是建立一個模型,一方面對噪聲建模,另一方面對信號建模,這個模型恰到好處得復雜,太復雜了模型會“造出”數據當中并不存在的結構。


  一般的處理方法有兩類:一是數據清洗和數據驗證,二是data curation數據治理,和wrangling。


  前者關注的是數據是否錯的,數據有些是丟失的或者有些數據是相互矛盾的。我通過清洗、驗證的方式把它做出來,大數據非常大怎么做清洗呢?有沒有可能從一小部分子數據集開始做清洗,進而推至全部?有沒有可能把整個過程自動化,這是研究的前沿。另外一個前沿是數據的清洗能不能跟可視化結合起來,通過可視化一下子發現了那些不正常的地方,outliers。通過機器學習的方式來推理不正?,F象的原因,是哪些字段出了問題。


  對data curation和wrangling,它的目的是把數據轉化為合理的表示、以便分析。我覺得現在最熱的研究課題是,你怎么能夠通過自動學習的方式來發現非結構化數據當中的結構,把entities解析出來,并且對數據做必要的規整和轉換。比如你怎么能夠把哪些看似不同、實則相同的數據normalize。比如說有些的字段是IBM,有的是國際商業機器公司,有的是藍色巨人,你能不能將其歸為同一個值。


Intel研究院院長吳甘沙演講全文:大數據分析師的卓越之道

  大數據的特點是大,稀疏,高維,異構,長尾。數據準備最重要的是把大數據轉變為合理的數據表示,使得它便于分析。


  數據表示首先考慮怎么能夠降低計算通訊的代價。


  大家看我們大數據經常是稀疏的,所以可以采用稀疏數據結構。大數據太大了我們有沒有可能壓縮?大家知道我們原來的數據倉庫,一個表可能有成千上萬個列,最大、最麻煩的問題就是我要給數據表增加列。而通過列存儲的方式可以使增加列變得非常簡單,而且計算更有局部性。


  還有一種降低計算代價的方式就是近似計算,比如Bloom filter、hyperloglog,通過降低時空復雜性,雖然誤差稍微增加幾個百分點,但是計算量和內存占用下降幾個數量級。


  下一個是怎么能夠降低統計的復雜性?大數據經常是高維度數據,怎么辦?通過降維和聚類等方式能夠降低它的復雜性。


  另外大數據還是需要采樣的,大家知道隨機性采樣,并不代表用一個均衡的概率采樣,可以對不同的組采用不同的權重采樣。但大數據常常要非隨機采樣。因為有些個體你根本不知道在哪個組里,如果有人吸毒,ta肯定不會說;人們的技能也沒有確定的分組。你可能需要一種新的采樣的方式,比如說雪球采樣,你先從隱藏組找到一些種子,然后再慢慢的擴大,像滾雪球那樣,這是非隨機抽樣。另外,對于信號稀疏的數據集,可以采用compressive sampling,你能壓縮得很小,但還是可以恢復原始數據。


  我想請大家注意,數據分析師不能只考慮數據表示、模型的問題,最終還是要考慮計算是怎么實現的,響應地選擇最好的表示。比如說數據并行的計算就用表或者是矩陣,如果是圖并行,我就要選擇網絡和圖的格式。


  最后,我想請大家關注UIMA(Unstructured Information Management Architecture),這個框架能夠幫助你來保存各種各樣數據表示,以及跟數據分析對接。IBM的沃森在人機知識競賽中獲勝,它就是采用了這個框架。


  四、數據分析


Intel研究院院長吳甘沙演講全文:大數據分析師的卓越之道
Intel研究院院長吳甘沙演講全文:大數據分析師的卓越之道

  我們再看分析階段。


  數據分析師真是越來越不容易。最早只要懂數據庫就行了,數據分析就是查詢,接著要學統計學了,比如做參數的估計、假設的驗證、模型評估等。接著要學機器學習,所以我們說數據挖掘是這三個學科的交叉。機器學習和模式識別是從人工智能脫胎出來,隨著處理非結構化數據的要求,這兩樣也要學了。慢慢的在數據挖掘外面又包了一層KDD,knowledge discovery和data mining?,F在又有最新的神經計算,比如神經網絡形式的類腦計算算法,sparse coding等。尤其重要的是,這些工具都要跟相關的計算的模型和架構對接起來。數據分析師必須是持續學習的。


Intel研究院院長吳甘沙演講全文:大數據分析師的卓越之道
Intel研究院院長吳甘沙演講全文:大數據分析師的卓越之道
Intel研究院院長吳甘沙演講全文:大數據分析師的卓越之道
Intel研究院院長吳甘沙演講全文:大數據分析師的卓越之道

  我們數據分析師還是有些裝備的,這是現在最流行的四種分析的語言,SAS,R,SQL,還有python。學會這些基本可以覆蓋兩類分析任務,簡單的基于SQL的查詢分析,以及復雜的、往往是基于線性代數的分析計算。當然,hard core的分析師可能還需要學習JAVA、Scala這樣的語言。這個可能還不夠,現在你用D3這樣的可視化庫,必須學習JAVAScript,所以需要來更新我們的裝備。但是有人質疑這些裝備都是為傳統的數據分析師準備的,大家不要擔心,因為在這些語言下面都已經有了大數據的基礎設施,比如SQL,各種SQL over Hadoop,另外R、SAS都可以跑在MapReduce和Spark的大數據基礎設施上,就連Python也與Spark能夠很好地接起來。


  更方便的是現在所有做基礎設施的人都在考慮一個詞,Machine Learning Pipeliine,最早是scikit-learn里出現的,現在Spark都在往這個方向發展,把機器學習的整個流程在pipeline上一站式完成。而且現在更多的東西都可以放到云里做了。07/08年的時候Cloudera其實就在考慮是不是能把大數據在云里做,你看它的名字就是這個意思。但那時條件還不成熟,現在很多中小企業都愿意用基于云的大數據基礎設施了。原來on premise的大數據基礎設施像上面這樣,各種工具,很多都是拿動物做吉祥物的,我們開玩笑說要開整個動物園,太麻煩?,F在所有的這些模塊都部署在云里,所以這給我們帶來了很多方便。


Intel研究院院長吳甘沙演講全文:大數據分析師的卓越之道

  說完了工具,再說分析模型。


  統計學大師George Box說,所有模型都是錯的,但是有些是有用的,關鍵是選擇什么樣的模型。


  以賽亞柏林有個比喻,有一種人是刺猬,一招鮮吃遍天,還有一種是狐貍,一把鑰匙開一把鎖,以更開放的態度處理分析、選擇最合適的模型。一個技術用到極致是非常厲害的,像貝葉斯,有個很著名的分析師叫Nathan Silver,寫《信號與噪聲》那個書的,成功地預測美國大選、奧斯卡,就是把貝葉斯用得滾瓜爛熟。但是,還是需要根據問題,選擇合適的模型和方法。


  模型的復雜度必須與問題匹配的。這就是所謂的奧卡姆剃刀原理,有多種模型能解釋數據的時候,就選擇最簡單的一個。


  我們現在做數據分析碰到兩個問題:一個是過擬合,還有一個是數據量大了以后,模型沒辦法提升。所以大數據的模型必須在數據增多時獲得更大的邊際效益。


  有一個很著名的科學家,叫Peter Norvig,他寫《人工智能現代方法》一書,好像是吳軍博士在Google的老板。他說,簡單模型加上大數據,比復雜模型加小數據更好,這個對不對?這個在很多情況下是對的,但是并不完全對。他的所謂簡單模型n-gram,其實特征是非常多的,每個單詞就是一個特征,所以這個模型其實不簡單,所以大數據能夠帶來不可名狀的提升效果。


  Ensemble是另一種解決單個模型與數據量不能匹配的辦法,做模型的組合。沃森電腦采用了這種方法,在很多數據競賽中大量使用了ensemble,大家可以參考Kaggle和Netflix競賽里的博客和討論,了解一些技巧。


  一般來說線性模型適用小數據,非線性模型適用大數據;帶參模型適用小數據,無參模型適用大數據;discriminative模型適用小數據,generative模型適用大數據。但是有個問題,那些非線性模型、無參模型等計算復雜度可能比較高,怎么辦呢?針對高維、稀疏的數據,可以考慮混合模型:把線性和非線性,帶參和無參結合起來,分別應用于不同的維度,這樣又能夠提升大數據的效用,又能夠解決計算量的問題。


  我剛才講到長尾信號非常非常重要,我們現在不能忽略長尾信號。傳統的分析很多都是基于指數模型、指數分布假設,就是割尾巴,低頻的信號都被過濾掉了。那怎么能保持長尾上的信號呢,可能需要通過分級訓練、做模型組合、采用一些新的概率圖模型、基于神經網絡的模型。


Intel研究院院長吳甘沙演講全文:大數據分析師的卓越之道

  分析要快,對于交互查詢,60秒完成跟6分鐘完成難道只差幾倍?不是的,一旦延遲超過某個閾值,數據科學家會改變行為,他們失去一些創造力。


  針對時空的數據,需要流計算,數據流過的時候完成分析,甚至未必要存下來。


  現在機器學習強調的在線學習,增量的學習,流式的學習,數據一邊進來一邊學習,一邊更改模型,一邊生產部署。


  最后當你的數據又大,又需要快的時候,你不懂系統是不行的,你必須懂系統,要考慮并行化,數據并行,模型并行,任務并行,并行要考慮一致性,如果數據直接有依賴、不能很好并行的話,考慮采用陳舊的數據,雖然損失精度,但可以加大并行度,靠更多的數據把精度補回來,這里的副作用是收斂變慢,因此要考慮是否合算。


  你必須與基礎設施的人合作,做系統調優。前一段時間與Databricks的Reynold討論,講到現在分析任務優化到極致,應該把所有的隨機訪問都放到CPU的cache里,磁盤上只有順序訪問。又比如現在大數據棧都基于Java,內存大了有garbage collection的問題,所以要考慮怎么減少單個任務heap的大小,把不大改變的數據放到內存文件系統里。


Intel研究院院長吳甘沙演講全文:大數據分析師的卓越之道

  深度學習已經進入了數據分析師的兵器庫。它最早是語音識別DNN,到圖像理解CNN,再到向量化表示的自然語言理解,現在RNN、LSTM很火。下面是特化到不同的領域里,比如醫學的圖像分析。


  以前深度學習完成的是人可以做的認知任務,下一步會進入非認知任務,像百度用來做搜索廣告,Netflix做深度學習推薦,以后做藥物的發現,甚至我們現在做機器人,都有深度學習的應用,比如深度的reinforcement learning。


  大家的福音是現在深度學習很多的代碼都是開源的,我們去年的時候雖然有Caffe,但還是花了很多力氣去做各種各樣的模型,像AlexNet、VGG和GoogLeNet,今年所有這些模型全部都開源。下一步的發展趨勢是開放協作的計算機科學,值得關注GitXiv,這時各種開發、協作工具集于一身,論文在arXiv上,開源代碼在GitHub,還有各種鏈接和討論,這種開放極大降低了技術的門檻,讓知識更快傳播。有了Pylearn2, Theano和Caffe,現在哪個分析師說不會深度學習都不好意思。


Intel研究院院長吳甘沙演講全文:大數據分析師的卓越之道

  還沒有學Sparse coding的話大家可以看一下,這個是我從哈佛的孔祥重教授,HT Kung,那里拿來的。它跟深度學習有點沾親帶故,本質上還是一個數據表示的問題,與特定的分類器結合,展現了極大的能量,這里列出了很多的應用。


Intel研究院院長吳甘沙演講全文:大數據分析師的卓越之道

  還有數據標注的問題,這張PPT是基于吳恩達的文章,列出了幾種新的思路。大家注意橙色背景的都是標注數據,最上面是監督學習,你要分別有大象和犀牛的標注數據,才能認大象和犀牛。接著是半監督學習,一部分標注的大象/犀牛數據和一部分非標注的大象/犀牛數據結合起來學習。第三章是transfer learning,就是在其他地方學到的東西,能夠在這里舉一反三,你看這里試圖利用羊和馬的標注數據來幫助識別大象和犀牛。最后是self taught learning,比較神,一部分標注數據,加上另一部分完全不相關的數據,號稱也能幫助學習,但這塊最近不大說了。


Intel研究院院長吳甘沙演講全文:大數據分析師的卓越之道

  在機器和工具不斷進化的過程中,人的角色在變化,前一段時間王煜全老師提出一個概念叫human machine intelligence,就是人利用機器和工具來提升智能的能力。數據分析師要懂機器,懂工具,要跟工具更好的配合,而不是一味的此消彼長。


  原來機器學習最重要的就是特征學習,很多人做特征工程,但一段時間以后邊際效益就不行了?,F在無監督學習,深度學習,可以幫助你學習特征,而且很多分析和可視化工具開始自動化了。那么你怎么跟它工作搭配,能夠獲得最好的效率呢?exploratory anlaytics/可視化是一種方式,你一邊在利用工具獲得一些結論,一邊又據此重新提出問題,循環往復,這是純機器完成不了的。


  另外一個趨勢是大規模的人跟人,人跟機器協同配合。


  比如算法可以外包,Kaggle上讓其他人替你完成。


  你可以眾包,比如現在大量數據標注都通過眾包方式完成,CrowdDB通過眾包解決數據歸一性這個DB-hard的問題。


  還有協作分析,現在開放數據,光開放還不行,還要允許在這個數據上進行多人協作分析,所以要對數據進行版本的管理,對多種語言序列化支持,比如DataHub。


  還有現在所謂的人類計算,現在最有名的是Duolingo,這是一個大眾學習外語的平臺,有趣的是,你在學語言的過程,也是對互聯網進行翻譯的過程,100萬個用戶學習80個小時,就將wikipedia從英文翻成了西班牙文,大家可以想象這種力量有多強大。


  五、解釋和驗證


Intel研究院院長吳甘沙演講全文:大數據分析師的卓越之道
Intel研究院院長吳甘沙演講全文:大數據分析師的卓越之道
Intel研究院院長吳甘沙演講全文:大數據分析師的卓越之道

  最后,就是解釋和驗證?,F在分析師所學要從STEM到STEAM,STEM是Science, Technology, Engineering, Mathematics, STEAM多出的這個A是art。今天的大會標題是要懂技術,也要懂藝術。


  藝術不只是這種優雅美觀的可視化,還有一個很重要的就是講故事,你有了分析結果之后怎么講出來。


  比如說啤酒加尿布,它就符合了講故事的3D:戲劇性Drama、細節Details、參與這個對話的感覺Dialogue。當然啤酒加尿布,這個案例是編出來的,但是它包含了這個story telling的精髓,所以它馬上傳播出去了,它的啟發性使得更多人愿意去投入數據分析。


  魔球(電影Money ball)也是這樣,用一個精彩的、抑揚起伏的故事講述數據分析怎么來改變棒球運動,但是它也沒有說出來的是,其實很多分析工作是球探做的,有些非客觀的因素,像意志力,像抗壓力,在當時的情況下由人做更合適。所以,故事要做適當的加工,源于生活高于生活。


  講故事的唯一目的就是像TED倡導的,發現一個值得傳播的idea。作為分析師,你還要清楚你的idea是不是真正值得分享。比如Target發現未婚少女懷孕的事情,確實是一個不錯的數據分析案例,但是從隱私和倫理的角度有點cross the line了,傳播未必是好的選擇。還有像Facebook做控制情緒的實驗,還有Uber從午夜叫車的數據分析一夜情,都不是好的故事,值得分享的故事。


  無論如何,我還是想強調好的講故事能夠使分析事半功倍。


Intel研究院院長吳甘沙演講全文:大數據分析師的卓越之道

  最后,我認為數據分析流程需要更加豐富。首先,我們希望能夠把大量的分析案例和方法文檔化,能夠做一個開放的數據庫。光開放數據還不行,要開放數據分析的方法和實踐,這樣知識能夠更快、更廣泛地傳播。


  另外,我們前面講的很多是歸納推理,其實實際工作中還有演繹推理,典型的方式是仿真和模擬。根據已經存在的模型,加以一些假設和初始數據,就可以通過模擬來預測和處理沒有發生過的事情,比如災難發生時的疏散,特定事件下的交通情況等。


Intel研究院院長吳甘沙演講全文:大數據分析師的卓越之道

  這是最后的總結,現在我們的大數據基礎設施已經改朝換代了,我們的數據分析師,我們怎么來改變我們的思維方式,怎么來提高我們的技術,怎么來豐富我們的分析能力?這是需要我們不斷思考的問題,謝謝大家。


 


Intel研究院院長吳甘沙演講全文:大數據分析師的卓越之道

大數據營銷
編輯推薦
圖片行業資訊
  • 雷軍隔空喊話董明珠:格力 小米歡迎你
  • 楊元慶:Moto在華上市一周預定量超100萬
  • 小米洪鋒談O2O布局:做商城不做具體服務
  • 蓋茨向不知名實體捐贈15億美元微軟股票 持股降至3%
  • 劉強東:允許我獲取數據 冰箱免費送給你
營銷資訊搜索
大數據營銷
推薦工具
    熱點關注
    大數據營銷
    大數據營銷
    大數據營銷
    大數據營銷
     

    大數據營銷之企業名錄

    網絡營銷之郵件營銷

    大數據營銷之搜索采集系列

    大數據營銷之QQ號采集

    大數據營銷之QQ精準營銷

    大數據營銷之QQ消息群發

    大數據營銷之空間助手

    大數據營銷之QQ聯盟

    大數據營銷之QQ群助手
     
    設為首頁 | 營銷資訊 | 營銷學院 | 營銷寶典 | 本站動態 | 關于網贏中國 | 網站地圖 | 網站RSS | 友情鏈接
    本站網絡實名:網贏中國  國際域名:www.fdtzms.live  版權所有 2004-2015  深圳愛網贏科技有限公司
    郵箱:[email protected] 電話:+86-755-26010839(十八線) 傳真:+86-755-26010838
    在線咨詢:點擊這里給我發消息 點擊這里給我發消息 點擊這里給我發消息  點擊這里給我發消息  點擊這里給我發消息

    深圳網絡警
    察報警平臺
    公共信息安
    全網絡監察
    經營性網站
    備案信息
    不良信息
    舉報中心
    中國文明網
    傳播文明
    分享
    拳皇98怎么玩 188足球直播吧 福建31选7开奖结果 麻将app开发 一部一直喷奶水的Av 中兴通讯股票 体育彩票七星彩 吉林11选5分布走势图 极速赛车单机游戏 快乐赛车pk10 免费观看三级片 欢乐彩app 韩国职业棒球比分 黑龙江快乐十分今日走势图 闲聊卡五星群 理财平台哪个安全可靠 夢幻邂逅