574-87125682~574-87285796

軟件開(kāi)發(fā)|系統開(kāi)發(fā)|信息化建設|物聯網開(kāi)發(fā)

KNOWLEDGE/知識

分享你我軟件開(kāi)發(fā)、系統開(kāi)發(fā)方面(miàn)的感悟

大數據

發(fā)表時(shí)間:2022-08-19 08:39:05

文章作者:小編

浏覽次數:

對(duì)于“大數據”(Big data)研究機構Gartner給出了這(zhè)樣(yàng)的定義。“大數據”是需要新處理模式才能(néng)具有更強的決策力、洞察發(fā)現力和流程優化能(néng)力來适應海量、高增長(cháng)率和多樣(yàng)化的信息資産。

麥肯錫全球研究所給出的定義是:一種(zhǒng)規模大到在獲取、存儲、管理、分析方面(miàn)大大超出了傳統數據庫軟件工具能(néng)力範圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣(yàng)的數據類型和價值密度低四大特征。[3] 
大數據技術的戰略意義不在于掌握龐大的數據信息,而在于對(duì)這(zhè)些含有意義的數據進(jìn)行專業化處理。換而言之,如果把大數據比作一種(zhǒng)産業,那麼(me)這(zhè)種(zhǒng)産業實現盈利的關鍵,在于提高對(duì)數據的“加工能(néng)力”,通過(guò)“加工”實現數據的“增值”。[4] 
從技術上看,大數據與雲計算的關系就(jiù)像一枚硬币的正反面(miàn)一樣(yàng)密不可分。大數據必然無法用單台的計算機進(jìn)行處理,必須采用分布式架構。它的特色在于對(duì)海量數據進(jìn)行分布式數據挖掘。但它必須依托雲計算的分布式處理、分布式數據庫和雲存儲、虛拟化技術。[1] 
随著(zhe)雲時(shí)代的來臨,大數據(Big data)也吸引了越來越多的關注。分析師團隊認爲,大數據(Big data)通常用來形容一個公司創造的大量非結構化數據和半結構化數據,這(zhè)些數據在下載到關系型數據庫用于分析時(shí)會(huì)花費過(guò)多時(shí)間和金錢。大數據分析常和雲計算聯系到一起(qǐ),因爲實時(shí)的大型數據集分析需要像MapReduce一樣(yàng)的框架來向(xiàng)數十、數百或甚至數千的電腦分配工作。
大數據需要特殊的技術,以有效地處理大量的容忍經(jīng)過(guò)時(shí)間内的數據。适用于大數據的技術,包括大規模并行處理(MPP)數據庫、數據挖掘、分布式文件系統分布式數據庫、雲計算平台、互聯網和可擴展的存儲系統。
最小的基本單位是bit,按順序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
它們按照進(jìn)率1024(2的十次方)來計算:
1 Byte =8 bit
1 KB = 1,024 Bytes = 8192 bit
1 MB = 1,024 KB = 1,048,576 Bytes
1 GB = 1,024 MB = 1,048,576 KB
1 TB = 1,024 GB = 1,048,576 MB
1 PB = 1,024 TB = 1,048,576 GB
1 EB = 1,024 PB = 1,048,576 TB
1 ZB = 1,024 EB = 1,048,576 PB
1 YB = 1,024 ZB = 1,048,576 EB
1 BB = 1,024 YB = 1,048,576 ZB
1 NB = 1,024 BB = 1,048,576 YB
1 DB = 1,024 NB = 1,048,576 BB
容量(Volume):數據的大小決定所考慮的數據的價值和潛在的信息;[5] 
種(zhǒng)類(Variety):數據類型的多樣(yàng)性;[5] 
速度(Velocity):指獲得數據的速度;[5] 
可變性(Variability):妨礙了處理和有效地管理數據的過(guò)程。[5] 
真實性(Veracity):數據的質量。[5] 
複雜性(Complexity):數據量巨大,來源多渠道(dào)。[5] 
價值(value):合理運用大數據,以低成(chéng)本創造高價值。
大數據包括結構化、半結構化和非結構化數據,非結構化數據越來越成(chéng)爲數據的主要部分。據IDC的調查報告顯示:企業中80%的數據都(dōu)是非結構化數據,這(zhè)些數據每年都(dōu)按指數增長(cháng)60%。[6] 大數據就(jiù)是互聯網發(fā)展到現今階段的一種(zhǒng)表象或特征而已,沒(méi)有必要神話它或對(duì)它保持敬畏之心,在以雲計算爲代表的技術創新大幕的襯托下,這(zhè)些原本看起(qǐ)來很難收集和使用的數據開(kāi)始容易被(bèi)利用起(qǐ)來了,通過(guò)各行各業的不斷創新,大數據會(huì)逐步爲人類創造更多的價值。[7] 
其次,想要系統的認知大數據,必須要全面(miàn)而細緻的分解它,著(zhe)手從三個層面(miàn)來展開(kāi):
第一層面(miàn)是理論,理論是認知的必經(jīng)途徑,也是被(bèi)廣泛認同和傳播的基線。在這(zhè)裡(lǐ)從大數據的特征定義理解行業對(duì)大數據的整體描繪和定性;從對(duì)大數據價值的探讨來深入解析大數據的珍貴所在;洞悉大數據的發(fā)展趨勢;從大數據隐私這(zhè)個特别而重要的視角審視人和數據之間的長(cháng)久博弈。
第二層面(miàn)是技術,技術是大數據價值體現的手段和前進(jìn)的基石。在這(zhè)裡(lǐ)分别從雲計算、分布式處理技術、存儲技術和感知技術的發(fā)展來說(shuō)明大數據從采集、處理、存儲到形成(chéng)結果的整個過(guò)程。
第三層面(miàn)是實踐,實踐是大數據的最終價值體現。在這(zhè)裡(lǐ)分别從互聯網的大數據,政府的大數據,企業的大數據和個人的大數據四個方面(miàn)來描繪大數據已經(jīng)展現的美好(hǎo)景象及即將(jiāng)實現的藍圖。[7] 
洛杉矶警察局加利福尼亞大學(xué)合作利用大數據預測犯罪的發(fā)生。
Google流感趨勢(Google Flu Trends)利用搜索關鍵詞預測禽流感的散布。
統計學(xué)家内特·西爾弗(Nate Silver)利用大數據預測2012美國(guó)選舉結果。
麻省理工學(xué)院利用手機定位數據和交通數據建立城市規劃。
梅西百貨的實時(shí)定價機制。根據需求和庫存的情況,該公司基于SAS的系統對(duì)多達7300萬種(zhǒng)貨品進(jìn)行實時(shí)調價。[8] 
醫療行業早就(jiù)遇到了海量數據和非結構化數據的挑戰,而近年來很多國(guó)家都(dōu)在積極推進(jìn)醫療信息化發(fā)展,這(zhè)使得很多醫療機構有資金來做大數據分析。[9] 
現在的社會(huì)是一個高速發(fā)展的社會(huì),科技發(fā)達,信息流通,人們之間的交流越來越密切,生活也越來越方便,大數據就(jiù)是這(zhè)個高科技時(shí)代的産物。[10] 阿裡(lǐ)巴巴創辦人馬雲來台演講中就(jiù)提到,未來的時(shí)代將(jiāng)不是IT時(shí)代,而是DT的時(shí)代,DT就(jiù)是Data Technology數據科技,顯示大數據對(duì)于阿裡(lǐ)巴巴集團來說(shuō)舉足輕重。[11] 
有人把數據比喻爲蘊藏能(néng)量的煤礦。煤炭按照性質有焦煤、無煙煤、肥煤、貧煤等分類,而露天煤礦、深山煤礦的挖掘成(chéng)本又不一樣(yàng)。與此類似,大數據并不在“大”,而在于“有用”。價值含量、挖掘成(chéng)本比數量更爲重要。對(duì)于很多行業而言,如何利用這(zhè)些大規模數據是赢得競争的關鍵。[12] 
大數據的價值體現在以下幾個方面(miàn):
(1)對(duì)大量消費者提供産品或服務的企業可以利用大數據進(jìn)行精準營銷;
(2)做小而美模式的中小微企業可以利用大數據做服務轉型;
(3)面(miàn)臨互聯網壓力之下必須轉型的傳統企業需要與時(shí)俱進(jìn)充分利用大數據的價值。
不過(guò),“大數據”在經(jīng)濟發(fā)展中的巨大意義并不代表其能(néng)取代一切對(duì)于社會(huì)問題的理性思考,科學(xué)發(fā)展的邏輯不能(néng)被(bèi)湮沒(méi)在海量數據中。著名經(jīng)濟學(xué)家路德維希·馮·米塞斯曾提醒過(guò):“就(jiù)今日言,有很多人忙碌于資料之無益累積,以緻對(duì)問題之說(shuō)明與解決,喪失了其對(duì)特殊的經(jīng)濟意義的了解。”這(zhè)确實是需要警惕的。
在這(zhè)個快速發(fā)展的智能(néng)硬件時(shí)代,困擾應用開(kāi)發(fā)者的一個重要問題就(jiù)是如何在功率、覆蓋範圍、傳輸速率和成(chéng)本之間找到那個微妙的平衡點。企業組織利用相關數據和分析可以幫助它們降低成(chéng)本、提高效率、開(kāi)發(fā)新産品、做出更明智的業務決策等等。例如,通過(guò)結合大數據和高性能(néng)的分析,下面(miàn)這(zhè)些對(duì)企業有益的情況都(dōu)可能(néng)會(huì)發(fā)生:
(1)及時(shí)解析故障、問題和缺陷的根源,每年可能(néng)爲企業節省數十億美元。
(2)爲成(chéng)千上萬的快遞車輛規劃實時(shí)交通路線,躲避擁堵。
(3)分析所有SKU,以利潤最大化爲目标來定價和清理庫存。
(4)根據客戶的購買習慣,爲其推送他可能(néng)感興趣的優惠信息。
(5)從大量客戶中快速識别出金牌客戶。
(6)使用點擊流分析和數據挖掘來規避欺詐行爲。[13] 
趨勢一:數據的資源化
何爲資源化,是指大數據成(chéng)爲企業和社會(huì)關注的重要戰略資源,并已成(chéng)爲大家争相搶奪的新焦點。因而,企業必須要提前制定大數據營銷戰略計劃,搶占市場先機。
趨勢二:與雲計算的深度結合
大數據離不開(kāi)雲處理,雲處理爲大數據提供了彈性可拓展的基礎設備,是産生大數據的平台之一。自2013年開(kāi)始,大數據技術已開(kāi)始和雲計算技術緊密結合,預計未來兩(liǎng)者關系將(jiāng)更爲密切。除此之外,物聯網、移動互聯網等新興計算形态,也將(jiāng)一齊助力大數據革命,讓大數據營銷發(fā)揮出更大的影響力。
趨勢三:科學(xué)理論的突破
随著(zhe)大數據的快速發(fā)展,就(jiù)像計算機和互聯網一樣(yàng),大數據很有可能(néng)是新一輪的技術革命。随之興起(qǐ)的數據挖掘、機器學(xué)習和人工智能(néng)等相關技術,可能(néng)會(huì)改變數據世界裡(lǐ)的很多算法和基礎理論,實現科學(xué)技術上的突破。
趨勢四:數據科學(xué)和數據聯盟的成(chéng)立
未來,數據科學(xué)將(jiāng)成(chéng)爲一門專門的學(xué)科,被(bèi)越來越多的人所認知。各大高校將(jiāng)設立專門的數據科學(xué)類專業,也會(huì)催生一批與之相關的新的就(jiù)業崗位。與此同時(shí),基于數據這(zhè)個基礎平台,也將(jiāng)建立起(qǐ)跨領域的數據共享平台,之後(hòu),數據共享將(jiāng)擴展到企業層面(miàn),并且成(chéng)爲未來産業的核心一環。
趨勢五:數據洩露泛濫
未來幾年數據洩露事(shì)件的增長(cháng)率也許會(huì)達到100%,除非數據在其源頭就(jiù)能(néng)夠得到安全保障。可以說(shuō),在未來,每個财富500強企業都(dōu)會(huì)面(miàn)臨數據攻擊,無論他們是否已經(jīng)做好(hǎo)安全防範。而所有企業,無論規模大小,都(dōu)需要重新審視今天的安全定義。在财富500強企業中,超過(guò)50%將(jiāng)會(huì)設置首席信息安全官這(zhè)一職位。企業需要從新的角度來确保自身以及客戶數據,所有數據在創建之初便需要獲得安全保障,而并非在數據保存的最後(hòu)一個環節,僅僅加強後(hòu)者的安全措施已被(bèi)證明于事(shì)無補。
趨勢六:數據管理成(chéng)爲核心競争力
數據管理成(chéng)爲核心競争力,直接影響财務表現。當“數據資産是企業核心資産”的概念深入人心之後(hòu),企業對(duì)于數據管理便有了更清晰的界定,將(jiāng)數據管理作爲企業核心競争力,持續發(fā)展,戰略性規劃與運用數據資産,成(chéng)爲企業數據管理的核心。數據資産管理效率與主營業務收入增長(cháng)率、銷售收入增長(cháng)率顯著正相關;此外,對(duì)于具有互聯網思維的企業而言,數據資産競争力所占比重爲36.8%,數據資産的管理效果將(jiāng)直接影響企業的财務表現。
趨勢七:數據質量是BI(商業智能(néng))成(chéng)功的關鍵
采用自助式商業智能(néng)工具進(jìn)行大數據處理的企業將(jiāng)會(huì)脫穎而出。其中要面(miàn)臨的一個挑戰是,很多數據源會(huì)帶來大量低質量數據。想要成(chéng)功,企業需要理解原始數據與數據分析之間的差距,從而消除低質量數據并通過(guò)BI獲得更佳決策。
趨勢八:數據生态系統複合化程度加強
大數據的世界不隻是一個單一的、巨大的計算機網絡,而是一個由大量活動構件與多元參與者元素所構成(chéng)的生态系統,終端設備提供商、基礎設施提供商、網絡服務提供商、網絡接入服務提供商、數據服務使能(néng)者、數據服務提供商、觸點服務、數據服務零售商等等一系列的參與者共同構建的生态系統。而今,這(zhè)樣(yàng)一套數據生态系統的基本雛形已然形成(chéng),接下來的發(fā)展將(jiāng)趨向(xiàng)于系統内部角色的細分,也就(jiù)是市場的細分;系統機制的調整,也就(jiù)是商業模式的創新;系統結構的調整,也就(jiù)是競争環境的調整等等,從而使得數據生态系統複合化程度逐漸增強。[14] 

IT分析工具

編輯播報
大數據概念應用到IT操作工具産生的數據中,大數據可以使IT管理軟件供應商解決大廣泛的業務決策。IT系統、應用和技術基礎設施每天每秒都(dōu)在産生數據。大數據非結構化或者結構數據都(dōu)代表了“所有用戶的行爲、服務級别、安全、風險、欺詐行爲等更多操作”的絕對(duì)記錄。
大數據分析的産生旨在于IT管理,企業可以將(jiāng)實時(shí)數據流分析和曆史相關數據相結合,然後(hòu)大數據分析并發(fā)現它們所需的模型。反過(guò)來,幫助預測和預防未來運行中斷和性能(néng)問題。進(jìn)一步來講,他們可以利用大數據了解使用模型以及地理趨勢,進(jìn)而加深大數據對(duì)重要用戶的洞察力。他們也可以追蹤和記錄網絡行爲,大數據輕松地識别業務影響;随著(zhe)對(duì)服務利用的深刻理解加快利潤增長(cháng);同時(shí)跨多系統收集數據發(fā)展IT服務目錄。
大數據分析的想法,尤其在IT操作方面(miàn),大數據對(duì)于我們發(fā)明并沒(méi)有什麼(me)作用,但是我們一直在其中。Gartner已經(jīng)關注這(zhè)個話題很多年了,基本上他們已經(jīng)強調,如果IT正在引進(jìn)新鮮靈感,他們將(jiāng)會(huì)扔掉大數據老式方法開(kāi)發(fā)一個新的IT操作分析平台。[15] 

促進(jìn)發(fā)展

編輯播報
經(jīng)李克強總理簽批,2015年9月,國(guó)務院印發(fā)《促進(jìn)大數據發(fā)展行動綱要》(以下簡稱《綱要》),系統部署大數據發(fā)展工作。
《綱要》明确,推動大數據發(fā)展和應用,在未來5至10年打造精準治理、多方協作的社會(huì)治理新模式,建立運行平穩、安全高效的經(jīng)濟運行新機制,構建以人爲本、惠及全民的民生服務新體系,開(kāi)啓大衆創業、萬衆創新的創新驅動新格局,培育高端智能(néng)、新興繁榮的産業發(fā)展新生态。
《綱要》部署三方面(miàn)主要任務。一要加快政府數據開(kāi)放共享,推動資源整合,提升治理能(néng)力。大力推動政府部門數據共享,穩步推動公共數據資源開(kāi)放,統籌規劃大數據基礎設施建設,支持宏觀調控科學(xué)化,推動政府治理精準化,推進(jìn)商事(shì)服務便捷化,促進(jìn)安全保障高效化,加快民生服務普惠化。二要推動産業創新發(fā)展,培育新興業态,助力經(jīng)濟轉型。發(fā)展大數據在工業、新興産業、農業農村等行業領域應用,推動大數據發(fā)展與科研創新有機結合,推進(jìn)基礎研究和核心技術攻關,形成(chéng)大數據産品體系,完善大數據産業鏈。三要強化安全保障,提高管理水平,促進(jìn)健康發(fā)展。健全大數據安全保障體系,強化安全支撐。[16] 
2015年9月18日貴州省啓動我國(guó)首個大數據綜合試驗區的建設工作,力争通過(guò)3至5年的努力,將(jiāng)貴州大數據綜合試驗區建設成(chéng)爲全國(guó)數據彙聚應用新高地、綜合治理示範區、産業發(fā)展聚集區、創業創新首選地、政策創新先行區。
圍繞這(zhè)一目标,貴州省將(jiāng)重點構建“三大體系”,重點打造“七大平台”,實施“十大工程”。
“三大體系”是指構建先行先試的政策法規體系、跨界融合的産業生态體系、防控一體的安全保障體系;“七大平台”則是指打造大數據示範平台、大數據集聚平台、大數據應用平台、大數據交易平台、大數據金融服務平台、大數據交流合作平台和大數據創業創新平台;“十大工程”即實施數據資源彙聚工程、政府數據共享開(kāi)放工程、綜合治理示範提升工程、大數據便民惠民工程、大數據三大業态培育工程、傳統産業改造升級工程、信息基礎設施提升工程、人才培養引進(jìn)工程、大數據安全保障工程和大數據區域試點統籌發(fā)展工程。
此外,貴州省將(jiāng)計劃通過(guò)綜合試驗區建設,探索大數據應用的創新模式,培育大數據交易新的做法,開(kāi)展數據交易的市場試點,鼓勵産業鏈上下遊之間的數據交換,規範數據資源的交易行爲,促進(jìn)形成(chéng)新的業态。
國(guó)家發(fā)展改革委有關專家表示,大數據綜合試驗區建設不是簡單的建産業園、建數據中心、建雲平台等,而是要充分依托已有的設施資源,把現有的利用好(hǎo),把新建的規劃好(hǎo),避免造成(chéng)空間資源的浪費和損失。探索大數據應用新的模式,圍繞有數據、用數據、管數據,開(kāi)展先行先試,更好(hǎo)地服務國(guó)家大數據發(fā)展戰略。[17] 

2016年3月17日,《中華人民共和國(guó)國(guó)民經(jīng)濟和社會(huì)發(fā)展第十三個五年規劃綱要》發(fā)布,其中第二十七章“實施國(guó)家大數據戰略”提出:把大數據作爲基礎性戰略資源,全面(miàn)實施促進(jìn)大數據發(fā)展行動,加快推動數據資源共享開(kāi)放和開(kāi)發(fā)應用,助力産業轉型升級和社會(huì)治理創新;具體包括:加快政府數據開(kāi)放共享、促進(jìn)大數據産業健康發(fā)展。 [1


相關案例查看更多