“大數(shù)據(jù)”是一個體量特別大,數(shù)據(jù)類別特別大的數(shù)據(jù)集,并且這樣的數(shù)據(jù)集無法用傳統(tǒng)數(shù)據(jù)庫工具對其內容進行抓取、管理和處理?!按髷?shù)據(jù)”首先是指數(shù)據(jù)體量大,指代大型數(shù)據(jù)集,一般在10TB規(guī)模左右,但在實際應用中,很多企業(yè)用戶把多個數(shù)據(jù)集放在一起,已經(jīng)形成了PB級的數(shù)據(jù)量;其次是指數(shù)據(jù)類別大,數(shù)據(jù)來自多種數(shù)據(jù)源,數(shù)據(jù)種類和格式日漸豐富,已沖破了以前所限定的結構化數(shù)據(jù)范疇,囊括了半結構化和非結構化數(shù)據(jù)。接著是數(shù)據(jù)處理速度快,在數(shù)據(jù)量非常龐大的情況下,也能夠做到數(shù)據(jù)的實時處理。最后一個特點是指數(shù)據(jù)真實性高,隨著社交數(shù)據(jù)、企業(yè)內容、交易與應用數(shù)據(jù)等新數(shù)據(jù)源的興趣,傳統(tǒng)數(shù)據(jù)源的局限被打破,企業(yè)愈發(fā)需要有效的信息之力以確保其真實性及安全性。
大數(shù)據(jù)的概念
大數(shù)據(jù)或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時間內達到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊。大數(shù)據(jù)的特征,由維克托邁爾-舍恩伯格和肯尼斯克耶編寫的《大數(shù)據(jù)時代》中提出,大數(shù)據(jù)的4V特征:規(guī)模性(Volume)、高速性(Velocity)、多樣性(Variety)、價值性(Value)。
“大數(shù)據(jù)”的概念遠不止大量的數(shù)據(jù)和處理大量數(shù)據(jù)的技術,或者所謂的"4個V"之類的簡單概念,而是涵蓋了人們在大規(guī)模數(shù)據(jù)的基礎上可以做的事情,而這些事情在小規(guī)模數(shù)據(jù)的基礎上是無法實現(xiàn)的。換句話說,大數(shù)據(jù)讓我們以一種前所未有的方式,通過對海量數(shù)據(jù)進行分析,獲得有巨大價值的產(chǎn)品和服務,或深刻的洞見,最終形成變革之力。
從數(shù)據(jù)的類別上看,“大數(shù)據(jù)”指的是無法使用傳統(tǒng)流程或工具處理或分析的信息。它定義了那些超出正常處理范圍和大小、迫使用戶采用非傳統(tǒng)處理方法的數(shù)據(jù)集。亞馬遜網(wǎng)絡服務、大數(shù)據(jù)科學家 JohnRauser提到一個簡單的定義:大數(shù)據(jù)就是任何超過了一臺計算機處理能力的龐大數(shù)據(jù)量。
但其實,大數(shù)據(jù)不是關于如何定義,最重要的是如何使用。最大的挑戰(zhàn)在于哪些技術能更好的使用數(shù)據(jù)以及大數(shù)據(jù)的應用情況如何。這與傳統(tǒng)的數(shù)據(jù)庫相比,開源的大數(shù)據(jù)分析工具的如 Hadoop 的崛起,這些非結構化的數(shù)據(jù)服務的價值在哪里。
大數(shù)據(jù)的關鍵技術
大數(shù)據(jù)處理流程數(shù)據(jù)要發(fā)揮作用,需經(jīng)過一定的處理。大數(shù)據(jù)的處理流程如下:
?。?)數(shù)據(jù)采集:采用ETL技術,從各個數(shù)據(jù)產(chǎn)生源頭,搜集數(shù)據(jù)。數(shù)據(jù)釆集過程中力求數(shù)據(jù)全面無死角、完整不丟失。
?。?)數(shù)據(jù)清洗:按照一定的規(guī)則,對數(shù)據(jù)進行去重操作、異常處理和歸一化處理。
?。?)數(shù)據(jù)預處理:這個過程,猶如給貓梳毛一樣,朝著一個方向清理脫節(jié)的數(shù)據(jù),處理不和諧的數(shù)據(jù),使得數(shù)據(jù)具有一致性和有效性。
?。?)數(shù)據(jù)存儲:將經(jīng)過優(yōu)化的數(shù)據(jù),按需集中存儲。
?。?)統(tǒng)計分析與數(shù)據(jù)挖掘:基于不同的目的,建立不同的模型,采用一系列算法,開展數(shù)據(jù)的關聯(lián)、對比、排序等不同維度的分析,尋找其中的規(guī)律,發(fā)現(xiàn)潛在的奧秘。
(6)數(shù)據(jù)可視化:大數(shù)據(jù)分析的使用者有大數(shù)據(jù)分析專家,同時還有普通用戶, 但是他們二者對于大數(shù)據(jù)分析最基本的要求就是可視化分析,因為可視化分析能 夠直觀的呈現(xiàn)大數(shù)據(jù)特點,同時能夠非常容易被讀者所接受,就如同看圖說話一樣簡單明了。
大數(shù)據(jù)處理方法
?。?)數(shù)據(jù)挖掘法:收集大數(shù)據(jù)的方法主要釆用數(shù)據(jù)挖掘,它是目前數(shù)據(jù)庫領域和人工智能研究的熱點問題。數(shù)據(jù)挖掘通俗上講是海量數(shù)據(jù)有用價值的發(fā)現(xiàn),它是指將隱藏的、先前未知的有潛在價值信息從眾多數(shù)據(jù)中挖掘出來的一種曲折的過程。數(shù)據(jù)挖掘 利用多種技術融合而成,主基于機器學習、人工智能、模式識別、統(tǒng)計學、數(shù)據(jù)庫技術等。
在眾多數(shù)據(jù)中去除干擾的數(shù)據(jù)項后進行分類分析、推理和歸納總結, 從中獲取潛在的可用價值的數(shù)據(jù),進而幫助領導決策層調整市場運作風險,精準制定策略,獲取更大的利益。其任務是將數(shù)據(jù)進行分類,然后通過數(shù)據(jù)分析對未來進行預判。分類法在圖像模式識別、醫(yī)療診斷等領域有著廣泛的應用。分類的方法有:機器學習法;統(tǒng)計法;神經(jīng)網(wǎng)絡法;還有粗糙集法等。
?。?)用戶畫像體系法:用戶畫像體系也是一個有效處理大數(shù)據(jù)的方法。該方法是企業(yè)利用大數(shù)據(jù)技術的基本方式,每個企業(yè)根據(jù)需求要對用戶進行畫像,用戶畫像的提出,根本上 是源于企業(yè)對用戶認知的需求:產(chǎn)品設計經(jīng)理,需要了解用戶的特征,來完善產(chǎn) 品的功能;營銷精英們,需要篩選目標用戶,對產(chǎn)品進行精準投放。
什么是用戶畫像?簡單地說,將不同的用戶信息分別進行標簽化,生產(chǎn)者 通過數(shù)據(jù)挖掘、處理分析消費者的消費觀念、日常生活起居習慣和社會交往關系 等特征數(shù)據(jù)之后,完美地勾勒出一個用戶的立體全貌。企業(yè)通過用戶畫像獲取足 夠的信息基礎,能夠快速找到精準用戶群體以及用戶需求等更為廣泛的反饋信息。“標簽化”是用戶畫像的工作焦點,而一個標簽的選取通常是通過人為制定的標準 提取出來的特征標識,比如性別、年齡、地域、生活習慣、消費行為等,然后將 用戶的所有標簽綜合來看,最后經(jīng)過數(shù)據(jù)分析,便可以勾勒出該用戶的立體“畫像”。
大數(shù)據(jù)未來發(fā)展趨勢
大數(shù)據(jù)關鍵技術主要包括數(shù)據(jù)釆集、存儲與分析技術。當前大數(shù)據(jù)采集主要 包括軟釆與硬釆兩種,未來軟釆將形成統(tǒng)一數(shù)據(jù)釆集框架,從而實現(xiàn)對海量數(shù)據(jù) 地快速、可靠釆集,并且能夠對采集數(shù)據(jù)進行自動化的預處理,保障釆集質量; 硬釆則會逐漸向低功耗智能傳感器發(fā)展。大數(shù)據(jù)存儲技術發(fā)展趨勢主要表現(xiàn)為高 可用性以及低成本性,即能夠以更低的存儲器成本存儲更多高質量數(shù)據(jù),確保這 些數(shù)據(jù)能夠被快速訪問且不會丟失。大數(shù)據(jù)分析技術的發(fā)展則主要表現(xiàn)在云計算 平臺、機器學習及人工神經(jīng)網(wǎng)絡等方面,以低成本實現(xiàn)高性能分析的同時推動大 數(shù)據(jù)智能分析發(fā)展。另外大數(shù)據(jù)技術發(fā)展還會與其他新技術相結合,如人工智能、 機器學習、區(qū)塊鏈等都能推動大數(shù)據(jù)技術創(chuàng)新發(fā)展。
就當前的產(chǎn)業(yè)發(fā)展情況來看,大數(shù)據(jù)產(chǎn)業(yè)在未來發(fā)展必然會更受政府政策體系支持,這點由當前我國對大數(shù)據(jù)技術的重視程度便能窺得一二。與此同時,大戶數(shù)產(chǎn)業(yè)規(guī)模將會隨著發(fā)展繼續(xù)擴大,而且保持高速增長趨勢,另外大數(shù)據(jù)開放共享程度將進一步加強。當前數(shù)據(jù)流通性較弱,在很大程度上限制了大數(shù)據(jù)技術應用,不過隨著相關政策支持以及技術發(fā)展,這一現(xiàn)象必將得到改善。在大數(shù)據(jù)產(chǎn)業(yè)快 速發(fā)展的情況下,我國相關立法進程必然也會加速推進,為產(chǎn)業(yè)健康發(fā)展提供法律保護。
當前大數(shù)據(jù)技術己經(jīng)逐步成為各行業(yè)支撐型的基礎設施,大數(shù)據(jù)體系的底層技術框架相對比較成熟穩(wěn)定,但是由于業(yè)務對效率上的不斷追求,其發(fā)展方向也開始向提升效率轉變,大數(shù)據(jù)其實正在往快數(shù)據(jù)的軌道上轉換,一些行業(yè) 專家甚至認為大數(shù)據(jù)己經(jīng)是昨日黃花,快數(shù)據(jù)才是未來,本文討論的內容也只是為了達成快數(shù)據(jù)所采用的一些工具和手段而己,真正快數(shù)據(jù)的實現(xiàn)還是需要多種 技術的融合,甚至是新的技術和架構來達成。