中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁(yè) > news >正文

張家口遠(yuǎn)大建設(shè)集團(tuán)網(wǎng)站怎么創(chuàng)建網(wǎng)站的快捷方式

張家口遠(yuǎn)大建設(shè)集團(tuán)網(wǎng)站,怎么創(chuàng)建網(wǎng)站的快捷方式,泉州it培訓(xùn),貴陽(yáng)網(wǎng)站開(kāi)發(fā)方舟網(wǎng)絡(luò)文章目錄大數(shù)據(jù)Hadoop生態(tài)圈-組件介紹1、HDFS(分布式文件系統(tǒng))2、MapReduce(分布式計(jì)算框架)3、Spark(分布式計(jì)算框架)4、Flink(分布式計(jì)算框架)5、Yarn/Mesos(分布式資源…

文章目錄

  • 大數(shù)據(jù)Hadoop生態(tài)圈-組件介紹
  • 1、HDFS(分布式文件系統(tǒng))
  • 2、MapReduce(分布式計(jì)算框架)
  • 3、Spark(分布式計(jì)算框架)
  • 4、Flink(分布式計(jì)算框架)
  • 5、Yarn/Mesos(分布式資源管理器)
  • 6、Zookeeper(分布式協(xié)作服務(wù))
  • 7、Sqoop(數(shù)據(jù)同步工具)
  • 8、Hive/Impala(基于Hadoop的數(shù)據(jù)倉(cāng)庫(kù))
  • 9、HBase(分布式列存儲(chǔ)數(shù)據(jù)庫(kù))
  • 10、Flume(日志收集工具)
  • 11、Kafka(分布式消息隊(duì)列)
  • 12、Oozie(工作流調(diào)度器)

大數(shù)據(jù)Hadoop生態(tài)圈-組件介紹

Hadoop起源于Apache Nutch項(xiàng)目,始于2002年,是Apache Lucene的子項(xiàng)目之一 。2004年,Google在“操作系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)”(Operating System Design andImplementation,OSDI)會(huì)議上公開(kāi)發(fā)表了題為MapReduce:Simplified Data Processing on Large Clusters(Mapreduce:簡(jiǎn)化大規(guī)模集群上的數(shù)據(jù)處理)的論文之后,受到啟發(fā)的Doug Cutting等人開(kāi)始嘗試實(shí)現(xiàn)MapReduce計(jì)算框架,并將它與NDFS(Nutch Distributed File System)結(jié)合,用以支持Nutch引擎的主要算法。由于NDFS和MapReduce在Nutch引擎中有著良好的應(yīng)用,所以它們于2006年2月被分離出來(lái),成為一套完整而獨(dú)立的軟件,并被命名為Hadoop。到了2008年年初,hadoop已成為Apache的頂級(jí)項(xiàng)目,包含眾多子項(xiàng)目,被應(yīng)用到包括Yahoo在內(nèi)的很多互聯(lián)網(wǎng)公司。

Hadoop是目前應(yīng)用最為廣泛的分布式大數(shù)據(jù)處理框架,其具備可靠、高效、可伸縮等特點(diǎn)。

Hadoop的核心組件是HDFS、MapReduce。隨著處理任務(wù)不同,各種組件相繼出現(xiàn),豐富Hadoop生態(tài)圈,目前生態(tài)圈結(jié)構(gòu)大致如圖所示:

在這里插入圖片描述

根據(jù)服務(wù)對(duì)象和層次分為:數(shù)據(jù)來(lái)源層、數(shù)據(jù)傳輸層、數(shù)據(jù)存儲(chǔ)層、資源管理層、數(shù)據(jù)計(jì)算層、任務(wù)調(diào)度層、業(yè)務(wù)模型層。接下來(lái)對(duì)Hadoop生態(tài)圈中出現(xiàn)的相關(guān)組件做一個(gè)簡(jiǎn)要介紹。

1、HDFS(分布式文件系統(tǒng))

HDFS是整個(gè)hadoop體系的基礎(chǔ),負(fù)責(zé)數(shù)據(jù)的存儲(chǔ)與管理。HDFS有著高容錯(cuò)性(fault-tolerant)的特點(diǎn),并且設(shè)計(jì)用來(lái)部署在低廉的(low-cost)硬件上。而且它提供高吞吐量(high throughput)來(lái)訪問(wèn)應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集(large data set)的應(yīng)用程序。

client:切分文件,訪問(wèn)HDFS時(shí),首先與NameNode交互,獲取目標(biāo)文件的位置信息,然后與DataNode交互,讀寫(xiě)數(shù)據(jù)

NameNode:master節(jié)點(diǎn),每個(gè)HDFS集群只有一個(gè),管理HDFS的名稱(chēng)空間和數(shù)據(jù)塊映射信息,配置相關(guān)副本信息,處理客戶(hù)端請(qǐng)求。

DataNode:slave節(jié)點(diǎn),存儲(chǔ)實(shí)際數(shù)據(jù),并匯報(bào)狀態(tài)信息給NameNode,默認(rèn)一個(gè)文件會(huì)備份3份在不同的DataNode中,實(shí)現(xiàn)高可靠性和容錯(cuò)性。

Secondary NameNode:輔助NameNode,實(shí)現(xiàn)高可靠性,定期合并fsimage和fsedits,推送給NameNode;緊急情況下輔助和恢復(fù)NameNode,但其并非NameNode的熱備份。

Hadoop 2為HDFS引入了兩個(gè)重要的新功能 ——Federation和高可用(HA):

Federation允許集群中出現(xiàn)多個(gè)NameNode,之間相互獨(dú)立且不需要互相協(xié)調(diào),各自分工,管理自己的區(qū)域。 DataNode 被用作通用的數(shù)據(jù)塊存儲(chǔ)設(shè)備。每個(gè) DataNode 要向集群中所有NameNode 注冊(cè),并發(fā)送心跳報(bào)告,執(zhí)行所有 namenode的命令。

HDFS中的高可用性消除了Hadoop 1中存在的單點(diǎn)故障,其中,NameNode故障將導(dǎo)致集群中斷。HDFS的高可用性提供故障轉(zhuǎn)移功能(備用節(jié)點(diǎn)從失敗的主NameNode接管工作的過(guò)程)以實(shí)現(xiàn)自動(dòng)化。

2、MapReduce(分布式計(jì)算框架)

MapReduce是一種基于磁盤(pán)的分布式并行批處理計(jì)算模型,用于處理大數(shù)據(jù)量的計(jì)算。其中Map對(duì)應(yīng)數(shù)據(jù)集上的獨(dú)立元素進(jìn)行指定的操作,生成鍵-值對(duì)形式中間,Reduce則對(duì)中間結(jié)果中相同的鍵的所有值進(jìn)行規(guī)約,以得到最終結(jié)果。

Jobtracker:master節(jié)點(diǎn),只有一個(gè),管理所有作業(yè),任務(wù)/作業(yè)的監(jiān)控,錯(cuò)誤處理等,將任務(wù)分解成一系列任務(wù),并分派給Tasktracker。

Tacktracker:slave節(jié)點(diǎn),運(yùn)行 Map task和Reduce task;并與Jobtracker交互,匯報(bào)任務(wù)狀態(tài)。

Map task:解析每條數(shù)據(jù)記錄,傳遞給用戶(hù)編寫(xiě)的map()函數(shù)并執(zhí)行,將輸出結(jié)果寫(xiě)入到本地磁盤(pán)(如果為map—only作業(yè),則直接寫(xiě)入HDFS)。

Reduce task:從Map 它深刻地執(zhí)行結(jié)果中,遠(yuǎn)程讀取輸入數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行排序,將數(shù)據(jù)分組傳遞給用戶(hù)編寫(xiě)的Reduce()函數(shù)執(zhí)行。

3、Spark(分布式計(jì)算框架)

Spark是一種基于內(nèi)存的分布式并行計(jì)算框架,不同于MapReduce的是——Job中間輸出結(jié)果可以保存在內(nèi)存中,從而不再需要讀寫(xiě)HDFS,因此Spark能更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的MapReduce的算法。

Cluster Manager:在standalone模式中即為Master主節(jié)點(diǎn),控制整個(gè)集群,監(jiān)控worker。在YARN模式中為資源管理器

Worker節(jié)點(diǎn):從節(jié)點(diǎn),負(fù)責(zé)控制計(jì)算節(jié)點(diǎn),啟動(dòng)Executor或者Driver。

Driver: 運(yùn)行Application 的main()函數(shù)

Executor:執(zhí)行器,是為某個(gè)Application運(yùn)行在worker node上的一個(gè)進(jìn)程

Spark將數(shù)據(jù)抽象為RDD(彈性分布式數(shù)據(jù)集),內(nèi)部提供了大量的庫(kù),包括Spark Core、Spark SQL、Spark Streaming、MLlib、GraphX。 開(kāi)發(fā)者可以在同一個(gè)應(yīng)用程序中無(wú)縫組合使用這些庫(kù)。

Spark Core:包含Spark的基本功能;尤其是定義RDD的API、操作以及這兩者上的動(dòng)作。其他Spark的庫(kù)都是構(gòu)建在RDD和Spark Core之上的

Spark SQL:提供通過(guò)Apache Hive的SQL變體Hive查詢(xún)語(yǔ)言(HiveQL)與Spark進(jìn)行交互的API。每個(gè)數(shù)據(jù)庫(kù)表被當(dāng)做一個(gè)RDD,Spark SQL查詢(xún)被轉(zhuǎn)換為Spark操作。

Spark Streaming:對(duì)實(shí)時(shí)數(shù)據(jù)流進(jìn)行處理和控制。Spark Streaming允許程序能夠像普通RDD一樣處理實(shí)時(shí)數(shù)據(jù),通過(guò)短時(shí)批處理實(shí)現(xiàn)的偽流處理。

MLlib:一個(gè)常用機(jī)器學(xué)習(xí)算法庫(kù),算法被實(shí)現(xiàn)為對(duì)RDD的Spark操作。這個(gè)庫(kù)包含可擴(kuò)展的學(xué)習(xí)算法,比如分類(lèi)、回歸等需要對(duì)大量數(shù)據(jù)集進(jìn)行迭代的操作。

GraphX:控制圖、并行圖操作和計(jì)算的一組算法和工具的集合。GraphX擴(kuò)展了RDD API,包含控制圖、創(chuàng)建子圖、訪問(wèn)路徑上所有頂點(diǎn)的操作

4、Flink(分布式計(jì)算框架)

Flink是一個(gè)基于內(nèi)存的分布式并行處理框架,類(lèi)似于Spark,但在部分設(shè)計(jì)思想有較大出入。對(duì) Flink 而言,其所要處理的主要場(chǎng)景就是流數(shù)據(jù),批數(shù)據(jù)只是流數(shù)據(jù)的一個(gè)極限特例而已。

Flink VS Spark

Spark中,RDD在運(yùn)行時(shí)是表現(xiàn)為Java Object,而Flink主要表現(xiàn)為logical plan。所以在Flink中使用的類(lèi)Dataframe api是被作為第一優(yōu)先級(jí)來(lái)優(yōu)化的。但是相對(duì)來(lái)說(shuō)在spark RDD中就沒(méi)有了這塊的優(yōu)化了。

Spark中,對(duì)于批處理有RDD,對(duì)于流式有DStream,不過(guò)內(nèi)部實(shí)際還是RDD抽象;在Flink中,對(duì)于批處理有DataSet,對(duì)于流式我們有DataStreams,但是是同一個(gè)公用的引擎之上兩個(gè)獨(dú)立的抽象,并且Spark是偽流處理,而Flink是真流處理。

5、Yarn/Mesos(分布式資源管理器)

YARN是下一代MapReduce,即MRv2,是在第一代MapReduce基礎(chǔ)上演變而來(lái)的,主要是為了解決原始Hadoop擴(kuò)展性較差,不支持多計(jì)算框架而提出的。

Mesos誕生于UC Berkeley的一個(gè)研究項(xiàng)目,現(xiàn)已成為Apache項(xiàng)目,當(dāng)前有一些公司使用Mesos管理集群資源,比如Twitter。與yarn類(lèi)似,Mesos是一個(gè)資源統(tǒng)一管理和調(diào)度的平臺(tái),同樣支持比如MR、steaming等多種運(yùn)算框架。

6、Zookeeper(分布式協(xié)作服務(wù))

解決分布式環(huán)境下的數(shù)據(jù)管理問(wèn)題:統(tǒng)一命名,狀態(tài)同步,集群管理,配置同步等。

Hadoop的許多組件依賴(lài)于Zookeeper,它運(yùn)行在計(jì)算機(jī)集群上面,用于管理Hadoop操作。

7、Sqoop(數(shù)據(jù)同步工具)

Sqoop是SQL-to-Hadoop的縮寫(xiě),主要用于傳統(tǒng)數(shù)據(jù)庫(kù)和Hadoop之前傳輸數(shù)據(jù)。數(shù)據(jù)的導(dǎo)入和導(dǎo)出本質(zhì)上是Mapreduce程序,充分利用了MR的并行化和容錯(cuò)性。

Sqoop利用數(shù)據(jù)庫(kù)技術(shù)描述數(shù)據(jù)架構(gòu),用于在關(guān)系數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)和Hadoop之間轉(zhuǎn)移數(shù)據(jù)。

8、Hive/Impala(基于Hadoop的數(shù)據(jù)倉(cāng)庫(kù))

Hive定義了一種類(lèi)似SQL的查詢(xún)語(yǔ)言(HQL),將SQL轉(zhuǎn)化為MapReduce任務(wù)在Hadoop上執(zhí)行。通常用于離線分析。

HQL用于運(yùn)行存儲(chǔ)在Hadoop上的查詢(xún)語(yǔ)句,Hive讓不熟悉MapReduce開(kāi)發(fā)人員也能編寫(xiě)數(shù)據(jù)查詢(xún)語(yǔ)句,然后這些語(yǔ)句被翻譯為Hadoop上面的MapReduce任務(wù)。

Impala是用于處理存儲(chǔ)在Hadoop集群中的大量數(shù)據(jù)的MPP(大規(guī)模并行處理)SQL查詢(xún)引擎。 它是一個(gè)用C ++和Java編寫(xiě)的開(kāi)源軟件。 與Apache Hive不同,Impala不基于MapReduce算法。 它實(shí)現(xiàn)了一個(gè)基于守護(hù)進(jìn)程的分布式架構(gòu),它負(fù)責(zé)在同一臺(tái)機(jī)器上運(yùn)行的查詢(xún)執(zhí)行的所有方面。因此執(zhí)行效率高于Apache Hive。

9、HBase(分布式列存儲(chǔ)數(shù)據(jù)庫(kù))

HBase是一個(gè)建立在HDFS之上,面向列的針對(duì)結(jié)構(gòu)化數(shù)據(jù)的可伸縮、高可靠、高性能、分布式和面向列的動(dòng)態(tài)模式數(shù)據(jù)庫(kù)。

HBase采用了BigTable的數(shù)據(jù)模型:增強(qiáng)的稀疏排序映射表(Key/Value),其中,鍵由行關(guān)鍵字、列關(guān)鍵字和時(shí)間戳構(gòu)成。

HBase提供了對(duì)大規(guī)模數(shù)據(jù)的隨機(jī)、實(shí)時(shí)讀寫(xiě)訪問(wèn),同時(shí),HBase中保存的數(shù)據(jù)可以使用MapReduce來(lái)處理,它將數(shù)據(jù)存儲(chǔ)和并行計(jì)算完美地結(jié)合在一起。

10、Flume(日志收集工具)

Flume是一個(gè)可擴(kuò)展、適合復(fù)雜環(huán)境的海量日志收集系統(tǒng)。它將數(shù)據(jù)從產(chǎn)生、傳輸、處理并最終寫(xiě)入目標(biāo)的路徑的過(guò)程抽象為數(shù)據(jù)流,在具體的數(shù)據(jù)流中,數(shù)據(jù)源支持在Flume中定制數(shù)據(jù)發(fā)送方,從而支持收集各種不同協(xié)議數(shù)據(jù)。

同時(shí),Flume數(shù)據(jù)流提供對(duì)日志數(shù)據(jù)進(jìn)行簡(jiǎn)單處理的能力,如過(guò)濾、格式轉(zhuǎn)換等。此外,Flume還具有能夠?qū)⑷罩緦?xiě)往各種數(shù)據(jù)目標(biāo)(可定制)的能力。

Flume以Agent為最小的獨(dú)立運(yùn)行單位,一個(gè)Agent就是一個(gè)JVM。單個(gè)Agent由Source、Sink和Channel三大組件構(gòu)成

在這里插入圖片描述

Source:從客戶(hù)端收集數(shù)據(jù),并傳遞給Channel。

Channel:緩存區(qū),將Source傳輸?shù)臄?shù)據(jù)暫時(shí)存放。

Sink:從Channel收集數(shù)據(jù),并寫(xiě)入到指定地址。

Event:日志文件、avro對(duì)象等源文件。

11、Kafka(分布式消息隊(duì)列)

Kafka是一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng),它可以處理消費(fèi)者規(guī)模的網(wǎng)站中的所有動(dòng)作流數(shù)據(jù)。實(shí)現(xiàn)了主題、分區(qū)及其隊(duì)列模式以及生產(chǎn)者、消費(fèi)者架構(gòu)模式。

生產(chǎn)者組件和消費(fèi)者組件均可以連接到KafKa集群,而KafKa被認(rèn)為是組件通信之間所使用的一種消息中間件。KafKa內(nèi)部氛圍很多Topic(一種高度抽象的數(shù)據(jù)結(jié)構(gòu)),每個(gè)Topic又被分為很多分區(qū)(partition),每個(gè)分區(qū)中的數(shù)據(jù)按隊(duì)列模式進(jìn)行編號(hào)存儲(chǔ)。被編號(hào)的日志數(shù)據(jù)稱(chēng)為此日志數(shù)據(jù)塊在隊(duì)列中的偏移量(offest),偏移量越大的數(shù)據(jù)塊越新,即越靠近當(dāng)前時(shí)間。生產(chǎn)環(huán)境中的最佳實(shí)踐架構(gòu)是Flume+KafKa+Spark Streaming。

12、Oozie(工作流調(diào)度器)

Oozie是一個(gè)可擴(kuò)展的工作體系,集成于Hadoop的堆棧,用于協(xié)調(diào)多個(gè)MapReduce作業(yè)的執(zhí)行。它能夠管理一個(gè)復(fù)雜的系統(tǒng),基于外部事件來(lái)執(zhí)行,外部事件包括數(shù)據(jù)的定時(shí)和數(shù)據(jù)的出現(xiàn)。

Oozie工作流是放置在控制依賴(lài)DAG(有向無(wú)環(huán)圖 Direct Acyclic Graph)中的一組動(dòng)作(例如,Hadoop的Map/Reduce作業(yè)、Pig作業(yè)等),其中指定了動(dòng)作執(zhí)行的順序。

Oozie使用hPDL(一種XML流程定義語(yǔ)言)來(lái)描述這個(gè)圖。

http://m.risenshineclean.com/news/65693.html

相關(guān)文章:

  • 石家莊便宜做網(wǎng)站關(guān)鍵詞搜索方法
  • 網(wǎng)站后臺(tái)密碼忘記色盲測(cè)試圖第五版
  • 河南鄭州網(wǎng)站建設(shè)百度關(guān)鍵詞挖掘查排名工具
  • 網(wǎng)站開(kāi)發(fā)的目的 實(shí)習(xí)報(bào)告百度云搜索引擎入口盤(pán)搜搜
  • 企業(yè)信息港網(wǎng)站建沒(méi)怎樣自己開(kāi)發(fā)一款軟件
  • 網(wǎng)站技術(shù)規(guī)劃微信管理
  • 國(guó)外網(wǎng)站開(kāi)發(fā)技術(shù)現(xiàn)狀高平網(wǎng)站優(yōu)化公司
  • 寧波建網(wǎng)站公司店鋪在百度免費(fèi)定位
  • 杭州企業(yè)網(wǎng)站優(yōu)化短視頻營(yíng)銷(xiāo)常用平臺(tái)有
  • 魔法網(wǎng)站小程序開(kāi)發(fā)放單平臺(tái)大全app
  • 做外匯需要關(guān)注哪幾個(gè)網(wǎng)站企業(yè)產(chǎn)品推廣運(yùn)營(yíng)公司
  • 怎么查詢(xún)一個(gè)網(wǎng)站有沒(méi)有做競(jìng)價(jià)谷歌外鏈代發(fā)
  • 網(wǎng)站建設(shè)新聞中心百度快照客服電話
  • 天津行業(yè)建站長(zhǎng)春網(wǎng)站優(yōu)化流程
  • 網(wǎng)站編輯工具軟文廣告投放平臺(tái)
  • 怎么做視頻解析的網(wǎng)站如何設(shè)置友情鏈接
  • 抄襲網(wǎng)站案例seo查詢(xún)友情鏈接
  • 深圳有名的做公司網(wǎng)站廣州私人做網(wǎng)站
  • 紅杭州網(wǎng)站建設(shè)推銷(xiāo)廣告
  • 開(kāi)發(fā)網(wǎng)站開(kāi)發(fā)工程師附近的教育培訓(xùn)機(jī)構(gòu)有哪些
  • 浦東新區(qū)建設(shè)交通委網(wǎng)站鄭州seo線下培訓(xùn)
  • 青島網(wǎng)絡(luò)優(yōu)化seo 頁(yè)面
  • 多種語(yǔ)言獨(dú)立網(wǎng)站wordpress抖音廣告怎么投放
  • 無(wú)人高清影視在線觀看seo運(yùn)營(yíng)招聘
  • 佛山網(wǎng)站建設(shè)是哪個(gè)好東莞谷歌推廣
  • html5網(wǎng)站導(dǎo)航品牌策略怎么寫(xiě)
  • 做家教網(wǎng)站要多少錢(qián)google安卓手機(jī)下載
  • 河南省城鄉(xiāng)建設(shè)廳官網(wǎng)seo優(yōu)化中商品權(quán)重主要由什么決定
  • 網(wǎng)站設(shè)計(jì)流程包括百度指數(shù)app官方下載
  • 商標(biāo) 做網(wǎng)站 是幾類(lèi)谷歌seo優(yōu)化