中文字幕无码夊久人妻|国产另类在线欧美日韩|精品无码乱码AV片国产|91久久香蕉国产熟女线看|白嫩丰满大乳美女免费视频|久久久久人妻精品区一三寸|免费一看一级毛片少妇丰满2|精品无码国产一区二区三区51

您現(xiàn)在的位置:融合網(wǎng)首頁 > 工信 > 其他 >

分析至上 大數(shù)據(jù)項目部署的五大愿景

來源:IT168 作者:佚名 責任編輯:韓杰 發(fā)表時間:2013-10-17 13:35 
核心提示:社交網(wǎng)絡(luò)為大數(shù)據(jù)貢獻了規(guī)模性和多樣性的數(shù)據(jù),社交網(wǎng)絡(luò)本身使用圖形數(shù)據(jù)庫和分析工具,通過研究“節(jié)點(nodes)”發(fā)現(xiàn)用戶關(guān)系網(wǎng)。這些節(jié)點代表人、公司、地點等,而邊緣(edges)代表各個節(jié)點中復(fù)雜的關(guān)系。

如果你正在嘗試構(gòu)建大數(shù)據(jù)應(yīng)用或分析系統(tǒng),你可能會清楚的意識到該領(lǐng)域缺少哪些功能。筆者將人們對大數(shù)據(jù)的愿景歸納為五大需求,分別是SQL(或SQL-like)分析、快速部署、高級分析、實時分析和網(wǎng)絡(luò)分析選件。

好消息是人們正在努力應(yīng)對這些問題,SQL分析選件就是其中之一。大批數(shù)據(jù)管理和數(shù)據(jù)分析專家們對SQL非常熟悉,自然想要利用SQL知識搞清楚Hadoop集群和NoSQL數(shù)據(jù)庫中的數(shù)據(jù)。Apache Hadoop軟件的發(fā)行商都在規(guī)劃、測試,甚至已經(jīng)發(fā)布了SQL(或SQL-like)分析選件,用于分析存在于Hadoop集群里的數(shù)據(jù)。這些發(fā)行商包括Cloudera、EMC、Hortonworks、IBM、MapR和Teradata等。在NoSQL陣營中,10gen公司已經(jīng)對MongoDB的分析能力進行了改進,大數(shù)據(jù)廠商Acunu對Cassandra也做了同樣的改進。

部署和管理Hadoop集群和NoSQL數(shù)據(jù)庫對于大多數(shù)IT組織而言是一種全新的體驗,但似乎每個軟件更新帶來的部署和管理新特性都能夠讓生活變得更輕松。與此同時,EMC、HP、IBM、Oracle和Teradata等廠商計劃或已經(jīng)提供了一些工具,旨在幫助企業(yè)進行Hadoop快速部署。其他廠商將重點放在Hadoop框架組件的使用,如WibiData,提供簡化HBase的開源庫、模型和工具。

收集和利用大數(shù)據(jù)的重點是進行預(yù)測分析和其他高級分析,進而得到更明智的商業(yè)決策。但是在數(shù)據(jù)人才短缺的今天,企業(yè)正在尋求一種更簡便的方式支持復(fù)雜的分析過程。很多廠商和企業(yè)都在研究機器學習,這是因為它不依賴于專家,而是依賴數(shù)據(jù)和計算能力收集客戶行為數(shù)據(jù),并挖掘數(shù)據(jù)背后的商業(yè)模式。

大數(shù)據(jù)的3V原理的其中一個V是velocity(速度),但是很難用“實時”一詞來形容Hadoop,其弊端在于MapReduce的分析方法。MapR和HStreaming等廠商開始為Hadoop增加實時分析功能,其他廠商可能會效仿,尤其是那些事件流處理廠商。

排在第五位的大數(shù)據(jù)愿景是更簡便的網(wǎng)絡(luò)分析。目前,企業(yè)友好型圖形分析數(shù)據(jù)庫和工具不斷涌現(xiàn),它們采用了很多與Facebook相同的真正大規(guī)模的技術(shù)。這里提到的工具和技術(shù)很少有30年以上的歷史,不會像關(guān)系型數(shù)據(jù)庫和SQL查詢工具那樣成熟。但是有明確的跡象表明,大數(shù)據(jù)管理和分析的痛點正在迅速緩解。

愿景一:大數(shù)據(jù)規(guī)模的SQL分析

通過很多關(guān)于大數(shù)據(jù)人才短缺的故事和報告,就可以得到這樣一個結(jié)論:大數(shù)據(jù)領(lǐng)域最迫切的需求是了解數(shù)據(jù)類型的數(shù)據(jù)科學家,他們也知道如何通過編寫自定義代碼、MapReduce作業(yè)和算法在大數(shù)據(jù)中獲取洞察力。但是,為何不讓擅長關(guān)系型數(shù)據(jù)庫、商業(yè)智能(BI)和分析工具的SQL專家處理更多繁重的工作呢?SQL專家的數(shù)量遠遠大于數(shù)據(jù)科學家,并且大多數(shù)SQL專家更急于擴大自己的職業(yè)潛力。

推動在Hadoop之上提供SQL分析能力,大數(shù)據(jù)的人才短缺只是其中一個原因。另一個原因是Apache Hive——Hadoop中的數(shù)據(jù)倉庫,它提供SQL-like查詢功能的有限子集,但是Hive是將SQL查詢轉(zhuǎn)化成MapReduce任務(wù),這導(dǎo)致Hive的性能緩慢。

為了應(yīng)對Hadoop之上SQL查詢范圍更廣、速度更快的需求,很多相關(guān)項目和方案陸續(xù)發(fā)布,如Cloudera Impala、EMC Pivotal HD中的HAWQ查詢特性、Hortonworks Stinger、IBM Big SQL、MapR支持的Apache Drill、Teradata SQL-H等。

即使是NoSQL陣營也在為更好的SQL-like查詢功能而努力。去年10gen公司為其MongoDB NoSQL數(shù)據(jù)庫新增了一個實時數(shù)據(jù)統(tǒng)計框架,該框架讓用戶直接在MongoDB中查詢數(shù)據(jù),而不需要編寫或者運行編譯的、面向批處理的MapReduce作業(yè)。Acunu公司也在做類似的工作,它已開發(fā)出一種SQL-like的AQL(Annotator Query Language)語言支持Cassandra查詢。

SQL查詢功能的發(fā)展僅僅是個開端。BI、分析工具和大數(shù)據(jù)平臺自身分析系統(tǒng)的脫穎而出,如Datameer、Hadapt、Karmasphere和Platfora等,它們提供了Hadoop之上的分區(qū)查詢、分析、數(shù)據(jù)可視化和監(jiān)控能力。

愿景二:簡化的部署和管理

包含Hadoop和NoSQL數(shù)據(jù)庫在內(nèi)的大數(shù)據(jù)平臺一直在努力簡化其部署和管理功能,每次軟件升級都會帶來新的管理特性和新的內(nèi)置功能,例如10gen公司在最新發(fā)布的MongoDB中新增了內(nèi)置文本搜索功能和預(yù)置監(jiān)控功能。Hortonwork Hadoop發(fā)行版針對微軟Windows的版本嵌入Active Directory(活動目錄)、System Center和虛擬化技術(shù),用以簡化大數(shù)據(jù)的部署和管理。

在構(gòu)建Hadoop集群的過程中,雖然沒有太多硬件方面的抱怨,但是EMC、IBM、Oracle和Teradata等硬件廠商推出Hadoop一體機,使Hadoop的部署更快速、更便捷。商用硬件的成本很高,但是Oracle稱如果算上每個組件的價格、配置和調(diào)整的時間、維護和升級工作、可以直接運行的Cloudera軟件,以及Oracle NoSQL數(shù)據(jù)庫,一體機的成本比自己部署價格更低。

真正復(fù)雜的Hadoop管理常常出現(xiàn)在軟件層面,而非硬件配置。例如HBase——Hadoop架構(gòu)中日益重要的NoSQL數(shù)據(jù)庫,很多開發(fā)者認為很難在HBase中建模和分析數(shù)據(jù)。WibiData公司提供開源庫、模型和工具,使HBase中的數(shù)據(jù)更容易存儲、提取和分析。該理念是將HBase運行中的技術(shù)難點可重復(fù)化,因此在解決商業(yè)問題時節(jié)省大量工程師和數(shù)據(jù)科學家等人力資源,這一準則也可以應(yīng)用于其他大數(shù)據(jù)平臺。(責任編輯:韓杰)

  • “掃一掃”關(guān)注融合網(wǎng)微信號

免責聲明:我方僅為合法的第三方企業(yè)注冊用戶所發(fā)布的內(nèi)容提供存儲空間,融合網(wǎng)不對其發(fā)布的內(nèi)容提供任何形式的保證:不保證內(nèi)容滿足您的要求,不保證融合網(wǎng)的服務(wù)不會中斷。因網(wǎng)絡(luò)狀況、通訊線路、第三方網(wǎng)站或管理部門的要求等任何原因而導(dǎo)致您不能正常使用融合網(wǎng),融合網(wǎng)不承擔任何法律責任。

第三方企業(yè)注冊用戶在融合網(wǎng)發(fā)布的內(nèi)容(包含但不限于融合網(wǎng)目前各產(chǎn)品功能里的內(nèi)容)僅表明其第三方企業(yè)注冊用戶的立場和觀點,并不代表融合網(wǎng)的立場或觀點。相關(guān)各方及作者發(fā)布此信息的目的在于傳播、分享更多信息,并不代表本網(wǎng)站的觀點和立場,更與本站立場無關(guān)。相關(guān)各方及作者在我方平臺上發(fā)表、發(fā)布的所有資料、言論等僅代表其作者個人觀點,與本網(wǎng)站立場無關(guān),不對您構(gòu)成任何投資、交易等方面的建議。用戶應(yīng)基于自己的獨立判斷,自行決定并承擔相應(yīng)風險。

根據(jù)相關(guān)協(xié)議內(nèi)容,第三方企業(yè)注冊用戶已知悉自身作為內(nèi)容的發(fā)布者,需自行對所發(fā)表內(nèi)容(如,字體、圖片、文章內(nèi)容等)負責,因所發(fā)表內(nèi)容(如,字體、圖片、文章內(nèi)容等)等所引發(fā)的一切糾紛均由該內(nèi)容的發(fā)布者(即,第三方企業(yè)注冊用戶)承擔全部法律及連帶責任。融合網(wǎng)不承擔任何法律及連帶責任。

第三方企業(yè)注冊用戶在融合網(wǎng)相關(guān)欄目上所發(fā)布的涉嫌侵犯他人知識產(chǎn)權(quán)或其他合法權(quán)益的內(nèi)容(如,字體、圖片、文章內(nèi)容等),經(jīng)相關(guān)版權(quán)方、權(quán)利方等提供初步證據(jù),融合網(wǎng)有權(quán)先行予以刪除,并保留移交司法機關(guān)查處的權(quán)利。參照相應(yīng)司法機關(guān)的查處結(jié)果,融合網(wǎng)對于第三方企業(yè)用戶所發(fā)布內(nèi)容的處置具有最終決定權(quán)。

個人或單位如認為第三方企業(yè)注冊用戶在融合網(wǎng)上發(fā)布的內(nèi)容(如,字體、圖片、文章內(nèi)容等)存在侵犯自身合法權(quán)益的,應(yīng)準備好具有法律效應(yīng)的證明材料,及時與融合網(wǎng)取得聯(lián)系,以便融合網(wǎng)及時協(xié)調(diào)第三方企業(yè)注冊用戶并迅速做出相應(yīng)處理工作。

融合網(wǎng)聯(lián)系方式:(一)、電話:(010)57722280;(二)、電子郵箱:2029555353@qq.com dwrh@dwrh.net

對免責聲明的解釋、修改及更新權(quán)均屬于融合網(wǎng)所有。

新聞關(guān)注排行榜

熱門推薦 最新推薦

熱門關(guān)鍵字

關(guān)于我們 - 融合文化 - 媒體報道 - 在線咨詢 - 網(wǎng)站地圖 - TAG標簽 - 聯(lián)系我們
Copyright © 2010-2020 融合網(wǎng)|DWRH.net 版權(quán)所有 聯(lián)系郵箱:dwrh@dwrh.net 京公網(wǎng)安備 11011202002094號 京ICP備11014553號