分析至上 大數(shù)據(jù)項目部署的五大愿景
如果你正在嘗試構(gòu)建大數(shù)據(jù)應(yīng)用或分析系統(tǒng),你可能會清楚的意識到該領(lǐng)域缺少哪些功能。筆者將人們對大數(shù)據(jù)的愿景歸納為五大需求,分別是SQL(或SQL-like)分析、快速部署、高級分析、實時分析和網(wǎng)絡(luò)分析選件。
好消息是人們正在努力應(yīng)對這些問題,SQL分析選件就是其中之一。大批數(shù)據(jù)管理和數(shù)據(jù)分析專家們對SQL非常熟悉,自然想要利用SQL知識搞清楚Hadoop集群和NoSQL數(shù)據(jù)庫中的數(shù)據(jù)。Apache Hadoop軟件的發(fā)行商都在規(guī)劃、測試,甚至已經(jīng)發(fā)布了SQL(或SQL-like)分析選件,用于分析存在于Hadoop集群里的數(shù)據(jù)。這些發(fā)行商包括Cloudera、EMC、Hortonworks、IBM、MapR和Teradata等。在NoSQL陣營中,10gen公司已經(jīng)對MongoDB的分析能力進行了改進,大數(shù)據(jù)廠商Acunu對Cassandra也做了同樣的改進。
部署和管理Hadoop集群和NoSQL數(shù)據(jù)庫對于大多數(shù)IT組織而言是一種全新的體驗,但似乎每個軟件更新帶來的部署和管理新特性都能夠讓生活變得更輕松。與此同時,EMC、HP、IBM、Oracle和Teradata等廠商計劃或已經(jīng)提供了一些工具,旨在幫助企業(yè)進行Hadoop快速部署。其他廠商將重點放在Hadoop框架組件的使用,如WibiData,提供簡化HBase的開源庫、模型和工具。
收集和利用大數(shù)據(jù)的重點是進行預(yù)測分析和其他高級分析,進而得到更明智的商業(yè)決策。但是在數(shù)據(jù)人才短缺的今天,企業(yè)正在尋求一種更簡便的方式支持復(fù)雜的分析過程。很多廠商和企業(yè)都在研究機器學習,這是因為它不依賴于專家,而是依賴數(shù)據(jù)和計算能力收集客戶行為數(shù)據(jù),并挖掘數(shù)據(jù)背后的商業(yè)模式。
大數(shù)據(jù)的3V原理的其中一個V是velocity(速度),但是很難用“實時”一詞來形容Hadoop,其弊端在于MapReduce的分析方法。MapR和HStreaming等廠商開始為Hadoop增加實時分析功能,其他廠商可能會效仿,尤其是那些事件流處理廠商。
排在第五位的大數(shù)據(jù)愿景是更簡便的網(wǎng)絡(luò)分析。目前,企業(yè)友好型圖形分析數(shù)據(jù)庫和工具不斷涌現(xiàn),它們采用了很多與Facebook相同的真正大規(guī)模的技術(shù)。這里提到的工具和技術(shù)很少有30年以上的歷史,不會像關(guān)系型數(shù)據(jù)庫和SQL查詢工具那樣成熟。但是有明確的跡象表明,大數(shù)據(jù)管理和分析的痛點正在迅速緩解。
愿景一:大數(shù)據(jù)規(guī)模的SQL分析
通過很多關(guān)于大數(shù)據(jù)人才短缺的故事和報告,就可以得到這樣一個結(jié)論:大數(shù)據(jù)領(lǐng)域最迫切的需求是了解數(shù)據(jù)類型的數(shù)據(jù)科學家,他們也知道如何通過編寫自定義代碼、MapReduce作業(yè)和算法在大數(shù)據(jù)中獲取洞察力。但是,為何不讓擅長關(guān)系型數(shù)據(jù)庫、商業(yè)智能(BI)和分析工具的SQL專家處理更多繁重的工作呢?SQL專家的數(shù)量遠遠大于數(shù)據(jù)科學家,并且大多數(shù)SQL專家更急于擴大自己的職業(yè)潛力。
推動在Hadoop之上提供SQL分析能力,大數(shù)據(jù)的人才短缺只是其中一個原因。另一個原因是Apache Hive——Hadoop中的數(shù)據(jù)倉庫,它提供SQL-like查詢功能的有限子集,但是Hive是將SQL查詢轉(zhuǎn)化成MapReduce任務(wù),這導(dǎo)致Hive的性能緩慢。
為了應(yīng)對Hadoop之上SQL查詢范圍更廣、速度更快的需求,很多相關(guān)項目和方案陸續(xù)發(fā)布,如Cloudera Impala、EMC Pivotal HD中的HAWQ查詢特性、Hortonworks Stinger、IBM Big SQL、MapR支持的Apache Drill、Teradata SQL-H等。
即使是NoSQL陣營也在為更好的SQL-like查詢功能而努力。去年10gen公司為其MongoDB NoSQL數(shù)據(jù)庫新增了一個實時數(shù)據(jù)統(tǒng)計框架,該框架讓用戶直接在MongoDB中查詢數(shù)據(jù),而不需要編寫或者運行編譯的、面向批處理的MapReduce作業(yè)。Acunu公司也在做類似的工作,它已開發(fā)出一種SQL-like的AQL(Annotator Query Language)語言支持Cassandra查詢。
SQL查詢功能的發(fā)展僅僅是個開端。BI、分析工具和大數(shù)據(jù)平臺自身分析系統(tǒng)的脫穎而出,如Datameer、Hadapt、Karmasphere和Platfora等,它們提供了Hadoop之上的分區(qū)查詢、分析、數(shù)據(jù)可視化和監(jiān)控能力。
愿景二:簡化的部署和管理
包含Hadoop和NoSQL數(shù)據(jù)庫在內(nèi)的大數(shù)據(jù)平臺一直在努力簡化其部署和管理功能,每次軟件升級都會帶來新的管理特性和新的內(nèi)置功能,例如10gen公司在最新發(fā)布的MongoDB中新增了內(nèi)置文本搜索功能和預(yù)置監(jiān)控功能。Hortonwork Hadoop發(fā)行版針對微軟Windows的版本嵌入Active Directory(活動目錄)、System Center和虛擬化技術(shù),用以簡化大數(shù)據(jù)的部署和管理。
在構(gòu)建Hadoop集群的過程中,雖然沒有太多硬件方面的抱怨,但是EMC、IBM、Oracle和Teradata等硬件廠商推出Hadoop一體機,使Hadoop的部署更快速、更便捷。商用硬件的成本很高,但是Oracle稱如果算上每個組件的價格、配置和調(diào)整的時間、維護和升級工作、可以直接運行的Cloudera軟件,以及Oracle NoSQL數(shù)據(jù)庫,一體機的成本比自己部署價格更低。
真正復(fù)雜的Hadoop管理常常出現(xiàn)在軟件層面,而非硬件配置。例如HBase——Hadoop架構(gòu)中日益重要的NoSQL數(shù)據(jù)庫,很多開發(fā)者認為很難在HBase中建模和分析數(shù)據(jù)。WibiData公司提供開源庫、模型和工具,使HBase中的數(shù)據(jù)更容易存儲、提取和分析。該理念是將HBase運行中的技術(shù)難點可重復(fù)化,因此在解決商業(yè)問題時節(jié)省大量工程師和數(shù)據(jù)科學家等人力資源,這一準則也可以應(yīng)用于其他大數(shù)據(jù)平臺。(責任編輯:韓杰)
- “掃一掃”關(guān)注融合網(wǎng)微信號
免責聲明:我方僅為合法的第三方企業(yè)注冊用戶所發(fā)布的內(nèi)容提供存儲空間,融合網(wǎng)不對其發(fā)布的內(nèi)容提供任何形式的保證:不保證內(nèi)容滿足您的要求,不保證融合網(wǎng)的服務(wù)不會中斷。因網(wǎng)絡(luò)狀況、通訊線路、第三方網(wǎng)站或管理部門的要求等任何原因而導(dǎo)致您不能正常使用融合網(wǎng),融合網(wǎng)不承擔任何法律責任。
第三方企業(yè)注冊用戶在融合網(wǎng)發(fā)布的內(nèi)容(包含但不限于融合網(wǎng)目前各產(chǎn)品功能里的內(nèi)容)僅表明其第三方企業(yè)注冊用戶的立場和觀點,并不代表融合網(wǎng)的立場或觀點。相關(guān)各方及作者發(fā)布此信息的目的在于傳播、分享更多信息,并不代表本網(wǎng)站的觀點和立場,更與本站立場無關(guān)。相關(guān)各方及作者在我方平臺上發(fā)表、發(fā)布的所有資料、言論等僅代表其作者個人觀點,與本網(wǎng)站立場無關(guān),不對您構(gòu)成任何投資、交易等方面的建議。用戶應(yīng)基于自己的獨立判斷,自行決定并承擔相應(yīng)風險。
根據(jù)相關(guān)協(xié)議內(nèi)容,第三方企業(yè)注冊用戶已知悉自身作為內(nèi)容的發(fā)布者,需自行對所發(fā)表內(nèi)容(如,字體、圖片、文章內(nèi)容等)負責,因所發(fā)表內(nèi)容(如,字體、圖片、文章內(nèi)容等)等所引發(fā)的一切糾紛均由該內(nèi)容的發(fā)布者(即,第三方企業(yè)注冊用戶)承擔全部法律及連帶責任。融合網(wǎng)不承擔任何法律及連帶責任。
第三方企業(yè)注冊用戶在融合網(wǎng)相關(guān)欄目上所發(fā)布的涉嫌侵犯他人知識產(chǎn)權(quán)或其他合法權(quán)益的內(nèi)容(如,字體、圖片、文章內(nèi)容等),經(jīng)相關(guān)版權(quán)方、權(quán)利方等提供初步證據(jù),融合網(wǎng)有權(quán)先行予以刪除,并保留移交司法機關(guān)查處的權(quán)利。參照相應(yīng)司法機關(guān)的查處結(jié)果,融合網(wǎng)對于第三方企業(yè)用戶所發(fā)布內(nèi)容的處置具有最終決定權(quán)。
個人或單位如認為第三方企業(yè)注冊用戶在融合網(wǎng)上發(fā)布的內(nèi)容(如,字體、圖片、文章內(nèi)容等)存在侵犯自身合法權(quán)益的,應(yīng)準備好具有法律效應(yīng)的證明材料,及時與融合網(wǎng)取得聯(lián)系,以便融合網(wǎng)及時協(xié)調(diào)第三方企業(yè)注冊用戶并迅速做出相應(yīng)處理工作。
融合網(wǎng)聯(lián)系方式:(一)、電話:(010)57722280;(二)、電子郵箱:2029555353@qq.com dwrh@dwrh.net
對免責聲明的解釋、修改及更新權(quán)均屬于融合網(wǎng)所有。
相關(guān)新聞>>
- “2017北京大數(shù)據(jù)產(chǎn)業(yè)及云計算展覽會”引領(lǐng)“互聯(lián)網(wǎng)+”新時代
- 2017中國(北京)國際大數(shù)據(jù)產(chǎn)業(yè)及云計算展覽會主要議程
- 2017北京大數(shù)據(jù)產(chǎn)業(yè)及云計算展覽會明年4月將盛裝開幕
- 項立剛:說說手機預(yù)裝軟件那些事
- 業(yè)內(nèi)首個可為數(shù)據(jù)中心互聯(lián)、視頻傳播及骨干網(wǎng)提供4倍速度和容量
- 工信部回應(yīng)屏蔽翻墻軟件:在中國要守中國法律
- 商務(wù)部回應(yīng)工商總局打假報告:需社會各界努力
- 400開頭電話成騙子工具:改號軟件可偽造
- 風口浪尖上的出租車:個體經(jīng)營或應(yīng)為改革方向
- 大數(shù)據(jù)帶來大機會運營商需關(guān)注四大課題
您可能感興趣的文章
新聞點評
- 貴州科技廳完成“FAST運行維護作業(yè)機器人系統(tǒng)”定向組織申報工作
- “重慶造”可折疊手持光影屏亮相天安門廣場聯(lián)歡活動
- 用智能加注現(xiàn)實,華為云新加坡峰會金句頻生
- 數(shù)字化服務(wù)亮相2019領(lǐng)航者峰會,展現(xiàn)智能演進新趨勢
- 新華三發(fā)布《數(shù)字化轉(zhuǎn)型之路》新書,全面領(lǐng)航數(shù)字化轉(zhuǎn)型實踐探索
- 紫光集團重慶大樓正式投用 在渝布局取得多項進展
- 擁抱人工智能,新華三主動安全進入智能時代
- 創(chuàng)新IT基礎(chǔ)設(shè)施,智繪新數(shù)據(jù)時代藍圖
- 以智能聯(lián)接使能智慧未來,新華三發(fā)布全新網(wǎng)絡(luò)戰(zhàn)略與產(chǎn)品
- 新華三發(fā)布《中國城市數(shù)字經(jīng)濟指數(shù)白皮書(2019)》
快速直達
新聞關(guān)注排行榜
熱門關(guān)鍵字
熱門圖片
- H3C品牌刀片系統(tǒng)強勢首發(fā),以新IT之力驅(qū)動企業(yè)實現(xiàn)數(shù)字化轉(zhuǎn)型
- 夢想加獲2000萬美元B輪投資 加速擴張智能化共享辦公布局
- 通鼎互聯(lián)新產(chǎn)品發(fā)布會在京隆重舉行
- 創(chuàng)維OLED增幅陷尷尬
- 酷開董事長王志國在“不止是大內(nèi)容”2017年新品會都講了什么
- 全球首創(chuàng)徠卡三鏡頭 華為P10國內(nèi)盛大發(fā)布
- 權(quán)威發(fā)布:熱門OTT TV盒子測評
- 聯(lián)想ThinkCloud視聽云解決方案搶鏡CCBN2016
- 智能數(shù)字平臺+智慧應(yīng)用生態(tài) 助力百行百業(yè)共贏數(shù)字未來
- 2016年富通集團光通信智能制造啟航儀式隆重舉行