當(dāng)前位置:首頁(yè) > 百科知識(shí) > 云計(jì)算 > 正文

大數(shù)據(jù)分析

大數(shù)據(jù)分析是指對(duì)規(guī)模巨大的數(shù)據(jù)進(jìn)行分析。大數(shù)據(jù)可以概括為5個(gè)V, 數(shù)據(jù)量大(Volume)、速度快(Velocity)、類(lèi)型多(Variety)、價(jià)值(Value)、真實(shí)性(Veracity)。大數(shù)據(jù)作為時(shí)下最火熱的IT行業(yè)的詞匯,隨之而來(lái)的數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)安全、數(shù)據(jù)分析、數(shù)據(jù)挖掘等等圍繞大數(shù)據(jù)的商業(yè)價(jià)值的利用逐漸成為行業(yè)人士爭(zhēng)相追捧的利潤(rùn)焦點(diǎn)。隨著大數(shù)據(jù)時(shí)代的來(lái)臨,大數(shù)據(jù)分析也應(yīng)運(yùn)而生。

  工具介紹

  前端展現(xiàn)

  用于展現(xiàn)分析的前端開(kāi)源工具有JasperSoft,Pentaho,Spagobi,Openi,Birt等等。

  用于展現(xiàn)分析商用分析工具有Style Intelligence、RapidMiner Radoop、Cognos,BO,Microsoft Power BI,Oracle,Microstrategy,QlikView、Tableau 。

  國(guó)內(nèi)的有BDP,國(guó)云數(shù)據(jù)大數(shù)據(jù)魔鏡),思邁特,F(xiàn)ineBI等等。

  數(shù)據(jù)倉(cāng)庫(kù)

  有Teradata AsterData, EMC GreenPlum, HP Vertica 等等。

  數(shù)據(jù)集市

  有QlikView、 Tableau 、Style Intelligence等等。

  分析步驟

  大數(shù)據(jù)分析的六個(gè)基本方面

  1. Analytic Visualizations(可視化分析)

  不管是對(duì)數(shù)據(jù)分析專(zhuān)家還是普通用戶(hù),數(shù)據(jù)可視化是數(shù)據(jù)分析工具最基本的要求??梢暬梢灾庇^的展示數(shù)據(jù),讓數(shù)據(jù)自己說(shuō)話(huà),讓觀眾聽(tīng)到結(jié)果。

  2. Data Mining Algorithms(數(shù)據(jù)挖掘算法)

  可視化是給人看的,數(shù)據(jù)挖掘就是給機(jī)器看的。集群、分割、孤立點(diǎn)分析還有其他的算法讓我們深入數(shù)據(jù)內(nèi)部,挖掘價(jià)值。這些算法不僅要處理大數(shù)據(jù)的量,也要處理大數(shù)據(jù)的速度。

  3. Predictive Analytic Capabilities(預(yù)測(cè)性分析能力)

  數(shù)據(jù)挖掘可以讓分析員更好的理解數(shù)據(jù),而預(yù)測(cè)性分析可以讓分析員根據(jù)可視化分析和數(shù)據(jù)挖掘的結(jié)果做出一些預(yù)測(cè)性的判斷。

  4. Semantic Engines(語(yǔ)義引擎)

  我們知道由于非結(jié)構(gòu)化數(shù)據(jù)的多樣性帶來(lái)了數(shù)據(jù)分析的新的挑戰(zhàn),我們需要一系列的工具去解析,提取,分析數(shù)據(jù)。語(yǔ)義引擎需要被設(shè)計(jì)成能夠從“文檔”中智能提取信息。

  5. Data Quality and Master Data Management(數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理)

  數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理是一些管理方面的最佳實(shí)踐。通過(guò)標(biāo)準(zhǔn)化的流程和工具對(duì)數(shù)據(jù)進(jìn)行處理可以保證一個(gè)預(yù)先定義好的高質(zhì)量的分析結(jié)果。

  假如大數(shù)據(jù)真的是下一個(gè)重要的技術(shù)革新的話(huà),我們最好把精力關(guān)注在大數(shù)據(jù)能給我們帶來(lái)的好處,而不僅僅是挑戰(zhàn)。

  6.數(shù)據(jù)存儲(chǔ),數(shù)據(jù)倉(cāng)庫(kù)

  數(shù)據(jù)倉(cāng)庫(kù)是為了便于多維分析和多角度展示數(shù)據(jù)按特定模式進(jìn)行存儲(chǔ)所建立起來(lái)的關(guān)系型數(shù)據(jù)庫(kù)。在商業(yè)智能系統(tǒng)的設(shè)計(jì)中,數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建是關(guān)鍵,是商業(yè)智能系統(tǒng)的基礎(chǔ),承擔(dān)對(duì)業(yè)務(wù)系統(tǒng)數(shù)據(jù)整合的任務(wù),為商業(yè)智能系統(tǒng)提供數(shù)據(jù)抽取、轉(zhuǎn)換和加載(ETL),并按主題對(duì)數(shù)據(jù)進(jìn)行查詢(xún)和訪問(wèn),為聯(lián)機(jī)數(shù)據(jù)分析和數(shù)據(jù)挖掘提供數(shù)據(jù)平臺(tái)。

  發(fā)展?fàn)顩r

  開(kāi)源大數(shù)據(jù)

  1. Hadoop HDFS、Hadoop MapReduce,HBase、Hive 漸次誕生,早期Hadoop生態(tài)圈逐步形成。

  2. Hypertable是另類(lèi)。它存在于Hadoop生態(tài)圈之外,但也曾經(jīng)有一些用戶(hù)。

  一體機(jī)數(shù)據(jù)倉(cāng)庫(kù)

  IBM PureData(Netezza),OracleExadata,SAP Hana等等。

  應(yīng)用實(shí)例

  巴西世界杯關(guān)系

  與往屆世界杯不同的是:數(shù)據(jù)分析[3]  成為巴西世界杯賽事外的精彩看點(diǎn)。伴隨賽場(chǎng)上球員的奮力角逐,大數(shù)據(jù)也在全力演繹世界杯背后的分析故事。一向以嚴(yán)謹(jǐn)著稱(chēng)的德國(guó)隊(duì)引入專(zhuān)門(mén)處理大數(shù)據(jù)的足球解決方案,進(jìn)行比賽數(shù)據(jù)分析,優(yōu)化球隊(duì)配置,并通過(guò)分析對(duì)手?jǐn)?shù)據(jù)找到比賽的“制敵”方式;谷歌、微軟、Opta等通過(guò)大數(shù)據(jù)分析預(yù)測(cè)賽果...... 大數(shù)據(jù),不僅成為賽場(chǎng)上的“第12人”,也在某種程度上充當(dāng)了世界杯的“預(yù)言帝”。

  大數(shù)據(jù)分析邂逅世界杯,是大數(shù)據(jù)時(shí)代的必然發(fā)生,而大數(shù)據(jù)分析也將在未來(lái)改變我們生活的方方面面。

  業(yè)務(wù)成果

  1.積極主動(dòng)&預(yù)測(cè)需求: 企業(yè)機(jī)構(gòu)面臨著越來(lái)越大的競(jìng)爭(zhēng)壓力,它們不僅需要獲取客戶(hù),還要了解客戶(hù)的需求,以便提升客戶(hù)體驗(yàn),并發(fā)展長(zhǎng)久的關(guān)系??蛻?hù)通過(guò)分享數(shù)據(jù),降低數(shù)據(jù)使用的隱私級(jí)別,期望企業(yè)能夠了解他們,形成相應(yīng)的互動(dòng),并在所有的接觸點(diǎn)提供無(wú)縫體驗(yàn)。

  為此,企業(yè)需要識(shí)別客戶(hù)的多個(gè)標(biāo)識(shí)符(例如手機(jī)、電子郵件和地址),并將其整合為一個(gè)單獨(dú)的客戶(hù)ID。由于客戶(hù)越來(lái)越多地使用多個(gè)渠道與企業(yè)互動(dòng),為此需要整合傳統(tǒng)數(shù)據(jù)源和數(shù)字?jǐn)?shù)據(jù)源來(lái)理解客戶(hù)的行為。此外,企業(yè)也需要提供情境相關(guān)的實(shí)時(shí)體驗(yàn),這也是客戶(hù)的期望。

  2. 緩沖風(fēng)險(xiǎn)&減少欺詐: 安全和欺詐分析旨在保護(hù)所有物理、財(cái)務(wù)和知識(shí)資產(chǎn)免受內(nèi)部和外部威脅的濫用。高效的數(shù)據(jù)和分析能力將確保最佳的欺詐預(yù)防水平,提升整個(gè)企業(yè)機(jī)構(gòu)的安全:威懾需要建立有效的機(jī)制,以便企業(yè)快速檢測(cè)并預(yù)測(cè)欺詐活動(dòng),同時(shí)識(shí)別和跟蹤肇事者。

  將統(tǒng)計(jì)、網(wǎng)絡(luò)、路徑和大數(shù)據(jù)方法論用于帶來(lái)警報(bào)的預(yù)測(cè)性欺詐傾向模型,將確保在被實(shí)時(shí)威脅檢測(cè)流程觸發(fā)后能夠及時(shí)做出響應(yīng),并自動(dòng)發(fā)出警報(bào)和做出相應(yīng)的處理。數(shù)據(jù)管理以及高效和透明的欺詐事件報(bào)告機(jī)制將有助于改進(jìn)欺詐風(fēng)險(xiǎn)管理流程。

  此外,對(duì)整個(gè)企業(yè)的數(shù)據(jù)進(jìn)行集成和關(guān)聯(lián)可以提供統(tǒng)一的跨不同業(yè)務(wù)線、產(chǎn)品和交易的欺詐視圖。多類(lèi)型分析和數(shù)據(jù)基礎(chǔ)可以提供更準(zhǔn)確的欺詐趨勢(shì)分析和預(yù)測(cè),并預(yù)測(cè)未來(lái)的潛在操作方式,確定欺詐審計(jì)和調(diào)查中的漏洞。

  3.提供相關(guān)產(chǎn)品: 產(chǎn)品是任何企業(yè)機(jī)構(gòu)生存的基石,也通常是企業(yè)投入最大的領(lǐng)域。產(chǎn)品管理團(tuán)隊(duì)的作用是辨識(shí)推動(dòng)創(chuàng)新、新功能和服務(wù)戰(zhàn)略路線圖的發(fā)展趨勢(shì)。

  通過(guò)對(duì)個(gè)人公布的想法和觀點(diǎn)的第三方數(shù)據(jù)源進(jìn)行有效整理,再進(jìn)行相應(yīng)分析,可以幫助企業(yè)在需求發(fā)生變化或開(kāi)發(fā)新技術(shù)的時(shí)候保持競(jìng)爭(zhēng)力,并能夠加快對(duì)市場(chǎng)需求的預(yù)測(cè),在需求產(chǎn)生之前提供相應(yīng)產(chǎn)品。

  4. 個(gè)性化&服務(wù): 公司在處理結(jié)構(gòu)化數(shù)據(jù)方面仍然有些吃力,并需要快速應(yīng)對(duì)通過(guò)數(shù)字技術(shù)進(jìn)行客戶(hù)交互所帶來(lái)的不穩(wěn)定性。要做出實(shí)時(shí)回應(yīng),并讓客戶(hù)感覺(jué)受到重視,只能通過(guò)先進(jìn)的分析技術(shù)實(shí)現(xiàn)。大數(shù)據(jù)帶來(lái)了基于客戶(hù)個(gè)性進(jìn)行互動(dòng)的機(jī)會(huì)。這是通過(guò)理解客戶(hù)的態(tài)度,并考慮實(shí)時(shí)位置等因素,從而在多渠道的服務(wù)環(huán)境中帶來(lái)個(gè)性化關(guān)注實(shí)現(xiàn)的。

  5. 優(yōu)化&改善客戶(hù)體驗(yàn) 運(yùn)營(yíng)管理不善可能會(huì)導(dǎo)致無(wú)數(shù)重大的問(wèn)題,這包括面臨損害客戶(hù)體驗(yàn),最終降低品牌忠誠(chéng)度的重大風(fēng)險(xiǎn)。通過(guò)在流程設(shè)計(jì)和控制,以及在商品或服務(wù)生產(chǎn)中的業(yè)務(wù)運(yùn)營(yíng)優(yōu)化中應(yīng)用分析技術(shù),可以提升滿(mǎn)足客戶(hù)期望的有效性和效率,并實(shí)現(xiàn)卓越的運(yùn)營(yíng)。

  通過(guò)部署先進(jìn)的分析技術(shù),可以提高現(xiàn)場(chǎng)運(yùn)營(yíng)活動(dòng)的生產(chǎn)力和效率,并能夠根據(jù)業(yè)務(wù)和客戶(hù)需求優(yōu)化組織人力安排。數(shù)據(jù)和分析的最佳化使用可以帶來(lái)端對(duì)端的視圖,并能夠?qū)﹃P(guān)鍵運(yùn)營(yíng)指標(biāo)進(jìn)行衡量,從而確保持續(xù)不斷的改進(jìn)。

  例如,對(duì)于許多企業(yè)來(lái)說(shuō),庫(kù)存是當(dāng)前資產(chǎn)類(lèi)別中最大的一個(gè)項(xiàng)目——庫(kù)存過(guò)多或不足都會(huì)直接影響公司的直接成本和盈利能力。通過(guò)數(shù)據(jù)和分析,能夠以最低的成本確保不間斷的生產(chǎn)、銷(xiāo)售和/或客戶(hù)服務(wù)水平,從而改善庫(kù)存管理水平。數(shù)據(jù)和分析能夠提供目前和計(jì)劃中的庫(kù)存情況的信息,以及有關(guān)庫(kù)存高度、組成和位置的信息,并能夠幫助確定存庫(kù)戰(zhàn)略,并做出相應(yīng)決策。客戶(hù)期待獲得相關(guān)的無(wú)縫體驗(yàn),并讓企業(yè)得知他們的活動(dòng)。

  異步大數(shù)據(jù)分析

  異步處理的大數(shù)據(jù)分析中遵守了捕獲、存儲(chǔ)加分析的流程,過(guò)程中數(shù)據(jù)由傳感器、網(wǎng)頁(yè)服務(wù)器、銷(xiāo)售終端、移動(dòng)設(shè)備等獲取,之后再存儲(chǔ)到相應(yīng)設(shè)備上,之后再進(jìn)行分析。由于這些類(lèi)型的分析都是通過(guò)傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)(RDBMS)進(jìn)行的,數(shù)據(jù)形式都需要轉(zhuǎn)換或者轉(zhuǎn)型成為RDBMS能夠使用的結(jié)構(gòu)類(lèi)型,例如行或者列的形式,并且需要和其它的數(shù)據(jù)相連續(xù)。

  處理的過(guò)程被稱(chēng)之為提取、轉(zhuǎn)移、加載或者稱(chēng)為ETL。首先將數(shù)據(jù)從源系統(tǒng)中提取處理,再將數(shù)據(jù)標(biāo)準(zhǔn)化處理且將數(shù)據(jù)發(fā)往相應(yīng)的數(shù)據(jù)倉(cāng)儲(chǔ)等待進(jìn)一步分析。在傳統(tǒng)數(shù)據(jù)庫(kù)環(huán)境中,這種ETL步驟相對(duì)直接,因?yàn)榉治龅膶?duì)象往往是為人們熟知的金融報(bào)告、銷(xiāo)售或者市場(chǎng)報(bào)表、企業(yè)資源規(guī)劃等等。然而在大數(shù)據(jù)環(huán)境下,ETL可能會(huì)變得相對(duì)復(fù)雜,因此轉(zhuǎn)型過(guò)程對(duì)于不同類(lèi)型的數(shù)據(jù)源之間處理方式是不同的。

  當(dāng)分析開(kāi)始的時(shí)候,數(shù)據(jù)首先從數(shù)據(jù)倉(cāng)儲(chǔ)中會(huì)被抽出來(lái),被放進(jìn)RDBMS里以產(chǎn)生需要的報(bào)告或者支撐相應(yīng)的商業(yè)智能應(yīng)用。在大數(shù)據(jù)分析的環(huán)節(jié)中,裸數(shù)據(jù)以及經(jīng)轉(zhuǎn)換了的數(shù)據(jù)大都會(huì)被保存下來(lái),因?yàn)榭赡茉诤竺孢€需要再次轉(zhuǎn)換。


內(nèi)容來(lái)自百科網(wǎng)