網(wǎng)站建設(shè)高端培訓(xùn)目前引流最好的app
目錄
一、名稱解釋(8選5)
1.什么是大數(shù)據(jù)
2.大數(shù)據(jù)的5V特征
3.什么是SSH
4.HDFS(p32)
5.名稱節(jié)點(diǎn)
6.數(shù)據(jù)節(jié)點(diǎn)
7.元數(shù)據(jù)
8.倒排索引
9.單點(diǎn)故障
10.高可用
11.數(shù)據(jù)倉庫
二、簡答題
1.簡述Hadoop的優(yōu)點(diǎn)及其含義
2.簡述獨(dú)立模式、偽分布式模式和完全分布式模式部署Hadoop的區(qū)別
3.簡述HDFS的健壯性
4.簡述YARN基本架構(gòu)的組成部分及其作用
5.簡述不同類型ZNode的區(qū)別
6.簡述Hadoop高可用集群初次啟動(dòng)時(shí)的步驟
7.簡述Hive中分區(qū)和桶的作用
一、名稱解釋(8選5)
1.什么是大數(shù)據(jù)
如果從字面意思來看,大數(shù)據(jù)指的是海量數(shù)據(jù);
從大數(shù)據(jù)特點(diǎn)來看,大數(shù)據(jù)具有海量、流轉(zhuǎn)快、數(shù)據(jù)類型豐富及價(jià)值密度低等特點(diǎn);
如果從技術(shù)角度來看,大數(shù)據(jù)的戰(zhàn)略意義不僅在于掌握龐大的數(shù)據(jù),還包括對(duì)這些數(shù)據(jù)進(jìn)行有效處理;
換言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)盈利的關(guān)鍵在于提高對(duì)大數(shù)據(jù)的加工能力,通過加工技術(shù)實(shí)現(xiàn)數(shù)據(jù)增值
2.大數(shù)據(jù)的5V特征
大數(shù)據(jù)的特征包括大量(Volume)、真實(shí)(Veracity)、多樣(Variety)、低價(jià)值密度(Value)和高速(Velocity),這5個(gè)特征稱為大數(shù)據(jù)的5V特征,具體介紹如下
1.大量
大量是指大數(shù)據(jù)中的數(shù)據(jù)規(guī)模巨大,隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,用戶行為數(shù)據(jù)都可以被記錄,數(shù)據(jù)呈爆炸式增長,需要采集、存儲(chǔ)和計(jì)算的數(shù)據(jù)量能夠達(dá)到PB和EB級(jí),甚至是ZB級(jí)。
2.真實(shí) 真實(shí)是指大數(shù)據(jù)的質(zhì)量,大數(shù)據(jù)的內(nèi)容是與真實(shí)世界息息相關(guān)的,在一定程度上可以反映實(shí)際情況。雖然真實(shí)不一定代表準(zhǔn)確,但虛假數(shù)據(jù)營造出來的準(zhǔn)確一定不是真實(shí)的,這也是數(shù)據(jù)分析的基礎(chǔ)。
3.多樣 多樣是指大數(shù)據(jù)的數(shù)據(jù)類型和來源的多樣性,其中,數(shù)據(jù)類型的多樣性是指大數(shù)據(jù)的數(shù)據(jù)類型可以是結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)或非結(jié)構(gòu)化數(shù)據(jù);來源多樣性是指大數(shù)據(jù)的數(shù)據(jù)源可以是多種設(shè)備,包括服務(wù)器、移動(dòng)終端等。
4.低價(jià)值密度 低價(jià)值密度是指海量數(shù)據(jù)中有價(jià)值的內(nèi)容的密度相對(duì)較低,如何結(jié)合企業(yè)業(yè)務(wù)通過機(jī)器學(xué)習(xí)算法挖掘數(shù)據(jù)的價(jià)值,是大數(shù)據(jù)時(shí)代最需要解決的問題
5.高速
高速是指數(shù)據(jù)的增長速度和處理速度很快。每天,各行各業(yè)的數(shù)據(jù)庫都產(chǎn)生呈現(xiàn)爆炸式的增長。在許多場景下,數(shù)據(jù)都具有時(shí)效性。例如,搜索引擎要在幾秒內(nèi)呈現(xiàn)用戶所需的數(shù)據(jù)。當(dāng)系統(tǒng)面對(duì)快速增長的海量數(shù)據(jù)時(shí),必須高速處理,快速響應(yīng)。
3.什么是SSH
SSH是一種網(wǎng)絡(luò)協(xié)議,主要用于在不安全網(wǎng)絡(luò)上提供安全的遠(yuǎn)程登錄和其他安全網(wǎng)絡(luò)服務(wù)。它能夠加密網(wǎng)絡(luò)連接,確保在客戶端和服務(wù)器之間傳輸?shù)臄?shù)據(jù)不會(huì)輕易被竊取或篡改。SSH通常用來替代早期的Telnet和Rlogin等不安全的協(xié)議。
4.HDFS(p32)
HDFS是Hadoop Distributed File System的縮寫,中文稱為Hadoop分布式文件系統(tǒng)。它是Apache Hadoop項(xiàng)目的一部分,專為大規(guī)模數(shù)據(jù)集的處理而設(shè)計(jì),具有以下特點(diǎn):
1.存儲(chǔ)大文件 2.高容錯(cuò)性 3.簡單的一致性模型 4.移動(dòng)計(jì)算比移動(dòng)數(shù)據(jù)更經(jīng)濟(jì) 5.可移植性
5.名稱節(jié)點(diǎn)
NameNode是HDFS集群的名稱節(jié)點(diǎn),通常稱為主節(jié)點(diǎn)。如果NameNode由于故障原因而無法使用,那么用戶就無法訪問HDFS。也就是說,NameNode作為HDFS的主節(jié)點(diǎn),起著至關(guān)重要的部分
6.數(shù)據(jù)節(jié)點(diǎn)
DataNode是HDFS集群中的數(shù)據(jù)節(jié)點(diǎn),通常稱為從節(jié)點(diǎn),其主要功能如下:
-
存儲(chǔ)Block
-
根據(jù)NameNode的指令對(duì)Block進(jìn)行創(chuàng)建、復(fù)制、刪除等操作
-
定期向NameNode匯報(bào)自身存儲(chǔ)的Block列表及健康狀態(tài)
-
負(fù)責(zé)為客戶端發(fā)起的讀寫請(qǐng)求提供服務(wù)
7.元數(shù)據(jù)
MetaData用于記錄HDFS文件系統(tǒng)的相關(guān)信息,這些信息稱為元數(shù)據(jù),元數(shù)據(jù)的內(nèi)容包括文件系統(tǒng)的目錄結(jié)構(gòu)、文件名、文件路徑、文件大小、文件副本數(shù)、文件與Block的映射關(guān)系,以及Block與DataNode的映射關(guān)系等信息
8.倒排索引
倒排索引是文檔檢索系統(tǒng)中最常用的數(shù)據(jù)結(jié)構(gòu),被廣泛應(yīng)用于全文搜索引擎。倒排索引主要用來存儲(chǔ)某個(gè)單詞或詞組在一組文檔中的存儲(chǔ)位置的映射,提供了可以根據(jù)內(nèi)容查找文檔的方式,而不是根據(jù)文檔確定內(nèi)容,因此稱為倒排索引。帶有倒排索引的文件稱為倒排索引文件,簡稱倒排文件
9.單點(diǎn)故障
在HDFS集群中,NameNode是主節(jié)點(diǎn),它的運(yùn)行狀態(tài)決定著HDFS集群是否可用。然而在Hadoop設(shè)計(jì)之初,HDFS集群只能存在一個(gè)NameNode節(jié)點(diǎn),這種設(shè)計(jì)的缺點(diǎn)是NameNode節(jié)點(diǎn)一旦發(fā)生故障,就會(huì)導(dǎo)致HDFS集群不可用,這就是所謂的單點(diǎn)故障問題
10.高可用
為了解決單點(diǎn)故障問題,Hadoop 在更新迭代過程中允許一個(gè) HDFS集群中存在多個(gè)NameNode 節(jié)點(diǎn),其中一個(gè) NameNode 節(jié)點(diǎn)處于 Active(活動(dòng))狀態(tài),其他NameNode 節(jié)點(diǎn)處于 Standby(備用)狀態(tài)。處于 Active 狀態(tài)的NameNode 管理 HDFS 的元數(shù)據(jù)信息,并且與客戶端進(jìn)行交互;處于 Standby 狀態(tài)的NameNode 節(jié)點(diǎn)僅同步處于 Active狀態(tài)的 NameNode 節(jié)點(diǎn)管理的元數(shù)據(jù),一旦發(fā)現(xiàn)處于 Active 狀態(tài)的NameNode 發(fā)生故障,Hadoop 就會(huì)借助ZooKeeper 從多個(gè)處于 Standby狀態(tài)的 NameNode 中選舉出一個(gè)新的 NameNode 節(jié)點(diǎn),并將其狀態(tài)更改為 Active,從而確保整個(gè) HDFS集群可以正常運(yùn)行這就是所謂的 HDFS 高可用集群。
11.數(shù)據(jù)倉庫
數(shù)據(jù)倉庫是一個(gè)面向主題、集成的、相對(duì)穩(wěn)定和反映歷史變化的數(shù)據(jù)集合,用于企業(yè)或組織的決策分析。
二、簡答題
有的來自于書本,有的來自于AI(因?yàn)闀緝?nèi)容過多)
1.簡述Hadoop的優(yōu)點(diǎn)及其含義
“沉淀”往往是通過對(duì)技術(shù)實(shí)踐和經(jīng)驗(yàn)進(jìn)行總結(jié)和提煉,形成深刻的認(rèn)識(shí)和經(jīng)驗(yàn),從而提高技術(shù)水平和解決實(shí)際問題的能力。Hadoop 作為分布式計(jì)算平臺(tái),它能夠處理海量數(shù)據(jù)并對(duì)數(shù)據(jù)進(jìn)行分析。經(jīng)過多年的發(fā)展,Hadoop 已經(jīng)形成了以下幾點(diǎn)優(yōu)勢。 1.低成本
企業(yè)可以使用多臺(tái)廉價(jià)的計(jì)算機(jī)組建集群環(huán)境,通過分布式系統(tǒng)處理大規(guī)模數(shù)據(jù)集,而不是通過高性能的單臺(tái)計(jì)算機(jī)處理大規(guī)模數(shù)據(jù)集,并且 Hadoop 是開源大數(shù)據(jù)處理框架,這大幅降低了企業(yè)的使用成本。
2.高可靠性 Hadoop 自動(dòng)維護(hù)數(shù)據(jù)文件的多份副本,可以有效避免數(shù)據(jù)丟失的情況發(fā)生。
3.高容錯(cuò)性
若執(zhí)行計(jì)算的過程中某個(gè)計(jì)算機(jī)宕機(jī),那么 Hadoop 會(huì)自動(dòng)將該計(jì)算機(jī)上執(zhí)行的任務(wù)轉(zhuǎn)移到其他計(jì)算機(jī)上繼續(xù)執(zhí)行,以防任務(wù)執(zhí)行失敗。 4.高效率 Hadoop 可以高效地執(zhí)行并行計(jì)算,并且Hadoop 能夠在各個(gè)計(jì)算機(jī)之間動(dòng)態(tài)地移動(dòng)計(jì)算,以確保每臺(tái)計(jì)算機(jī)在執(zhí)行計(jì)算時(shí)可以最快速地獲取將要處理的數(shù)據(jù),以此提高計(jì)算效率。
5.高擴(kuò)展性 Hadoop 可以隨時(shí)通過添加更多的計(jì)算機(jī)增加集群的存儲(chǔ)和計(jì)算能力。
2.簡述獨(dú)立模式、偽分布式模式和完全分布式模式部署Hadoop的區(qū)別
Hadoop 支持多種部署模式,包括獨(dú)立模式(Local Mode)、偽分布式模式(Pseudo- Distributed Mode)和完全分布式模式(Fully-Distributed Mode)。
1.獨(dú)立模式 獨(dú)立模式是一種在單臺(tái)計(jì)算機(jī)的單個(gè)JVM進(jìn)程中模擬Hadoop 集群的工作模式,該模式部署的Hadoop 集群實(shí)際上并不屬于分布式文件系統(tǒng),而是直接讀寫本地操作系統(tǒng)的文件系統(tǒng),此模式部署的 Hadoop 通常用于快速安裝并體驗(yàn) Hadoop 的功能,并不適用于實(shí)際生產(chǎn)環(huán)境。
2.偽分布式模式 偽分布式模式是一種在單臺(tái)計(jì)算機(jī)的不同JVM進(jìn)程中運(yùn)行Hadoop 集群的工作模式,該模式部署的Hadoop 集群實(shí)際上是一個(gè)偽分布式系統(tǒng),因Hadoop 集群的所有守護(hù)進(jìn)程都運(yùn)行在一臺(tái)計(jì)算機(jī)中,并不能體現(xiàn)出分布式的特點(diǎn),所以偽分布式模式部署的Hadoop 通常用于在開發(fā)環(huán)境中進(jìn)行測試和調(diào)試,并不適用于實(shí)際生產(chǎn)環(huán)境。
3.完全分布式模式 完全分布式模式是一種在多臺(tái)計(jì)算機(jī)的JVM進(jìn)程中運(yùn)行 Hadoop 集群的工作模式,該模式部署的 Hadoop 集群屬于分布式系統(tǒng),因?yàn)?Hadoop 集群的每個(gè)守護(hù)進(jìn)程都運(yùn)行在不同的計(jì)算機(jī)中,所以完全分布式模式部署的 Hadoop 通??勺鳛閷?shí)際生產(chǎn)環(huán)境的基礎(chǔ)。
3.簡述HDFS的健壯性
HDFS(Hadoop Distributed File System)是Hadoop生態(tài)系統(tǒng)中的核心組件之一,它設(shè)計(jì)用于在商用硬件上運(yùn)行,處理大量數(shù)據(jù)。以下是HDFS的幾個(gè)關(guān)鍵特性,這些特性共同確保了其健壯性:
心跳機(jī)制:
-
HDFS中的數(shù)據(jù)節(jié)點(diǎn)(DataNode)會(huì)定期向名稱節(jié)點(diǎn)(NameNode)發(fā)送心跳信號(hào),以表明它仍然在線并且運(yùn)行正常。
-
如果名稱節(jié)點(diǎn)在預(yù)定時(shí)間內(nèi)沒有從某個(gè)數(shù)據(jù)節(jié)點(diǎn)接收到心跳,它會(huì)認(rèn)為該數(shù)據(jù)節(jié)點(diǎn)可能已經(jīng)失敗或無法通信,并標(biāo)記該節(jié)點(diǎn)為死亡狀態(tài)。
-
名稱節(jié)點(diǎn)隨后會(huì)安排該數(shù)據(jù)節(jié)點(diǎn)上的數(shù)據(jù)塊在其他數(shù)據(jù)節(jié)點(diǎn)上復(fù)制,以維持?jǐn)?shù)據(jù)的冗余度。
副本機(jī)制:
-
HDFS默認(rèn)為每個(gè)數(shù)據(jù)塊創(chuàng)建三個(gè)副本,并將這些副本分布在集群中的不同數(shù)據(jù)節(jié)點(diǎn)上。
-
副本放置策略考慮了機(jī)架感知,通常一個(gè)副本放在本地機(jī)架的一個(gè)節(jié)點(diǎn)上,另一個(gè)副本放在不同機(jī)架的節(jié)點(diǎn)上,第三個(gè)副本也放在另一個(gè)機(jī)架的節(jié)點(diǎn)上。
-
這種分布策略可以增強(qiáng)數(shù)據(jù)的可靠性和讀取性能,并且在發(fā)生單個(gè)節(jié)點(diǎn)或整個(gè)機(jī)架故障時(shí)保護(hù)數(shù)據(jù)。
數(shù)據(jù)完整性校驗(yàn):
-
HDFS在寫入數(shù)據(jù)時(shí)會(huì)為每個(gè)數(shù)據(jù)塊生成校驗(yàn)和(Checksum),并在讀取數(shù)據(jù)時(shí)驗(yàn)證這些校驗(yàn)和。
-
如果在讀取數(shù)據(jù)塊時(shí)校驗(yàn)和驗(yàn)證失敗,HDFS會(huì)從其他副本中讀取數(shù)據(jù)塊,并嘗試修復(fù)損壞的副本。
安全模式:
-
當(dāng)名稱節(jié)點(diǎn)啟動(dòng)時(shí),它會(huì)先進(jìn)入安全模式,在此模式下,名稱節(jié)點(diǎn)不會(huì)執(zhí)行任何數(shù)據(jù)塊的復(fù)制或刪除操作。
-
在安全模式下,名稱節(jié)點(diǎn)會(huì)收集各個(gè)數(shù)據(jù)節(jié)點(diǎn)的塊報(bào)告,確保系統(tǒng)中的副本數(shù)量符合配置要求。
-
只有當(dāng)足夠數(shù)量的數(shù)據(jù)塊報(bào)告被接收,并且所有必要的數(shù)據(jù)塊都有足夠的副本時(shí),名稱節(jié)點(diǎn)才會(huì)退出安全模式。
快照:
-
HDFS支持對(duì)文件系統(tǒng)的一部分進(jìn)行快照,這允許用戶在不影響正在進(jìn)行的操作的情況下,創(chuàng)建文件系統(tǒng)某個(gè)時(shí)間點(diǎn)的只讀副本。
-
快照對(duì)于數(shù)據(jù)備份、災(zāi)難恢復(fù)和實(shí)驗(yàn)性數(shù)據(jù)分析非常有用,因?yàn)樗鼈兲峁┝艘环N回滾到之前狀態(tài)的方法,而無需擔(dān)心數(shù)據(jù)丟失。
這些特性共同確保了HDFS即使在面臨硬件故障、網(wǎng)絡(luò)問題或其他系統(tǒng)異常時(shí),也能保持?jǐn)?shù)據(jù)的完整性和系統(tǒng)的穩(wěn)定性。
4.簡述YARN基本架構(gòu)的組成部分及其作用
YARN 基本架構(gòu)由 ResourceManager、ApplicationMaster、NodeManager 和 Container 組成,其中,ResourceManager 為全局資源管理器,負(fù)責(zé)整個(gè)系統(tǒng)的資源管理和分配;ApplicationMaster每個(gè)應(yīng)用程序特有的,負(fù)責(zé)單個(gè)應(yīng)用程序的管理;NodeManager 負(fù)責(zé)在節(jié)點(diǎn)上啟動(dòng)和管理Container(容器);Container 封裝了每個(gè)應(yīng)用程序使用的資源。
5.簡述不同類型ZNode的區(qū)別
在 ZooKeeper 中,每個(gè) ZNode 都是有生命周期的,其生命周期的長短取決于ZNode 的類型。ZNode 的類型主要分為持久節(jié)點(diǎn)(PERSISTENT)、臨時(shí)節(jié)點(diǎn)(EPHEMERAL)和順序節(jié)點(diǎn)(SEQUENTIAL)。
1.持久節(jié)點(diǎn) 持久節(jié)點(diǎn)是 ZoOKeeper 中最常見的一種 ZNode 類型,它的生命周期取決于用戶何時(shí)進(jìn)行刪除操作,持久節(jié)點(diǎn)被創(chuàng)建后,便會(huì)一直存在于 ZooKeeper 中,除非主動(dòng)刪除持久節(jié)點(diǎn)。
2.臨時(shí)節(jié)點(diǎn) 與持久節(jié)點(diǎn)有所不同,臨時(shí)節(jié)點(diǎn)的生命周期取決于客戶端會(huì)話??蛻舳藭?huì)話是指客戶端與 ZooKeeper 成功建立連接后創(chuàng)建的會(huì)話,若此時(shí)在 ZooKeeper 中創(chuàng)建臨時(shí)節(jié)點(diǎn),則在客戶端與 ZooKeeper 斷開連接時(shí),臨時(shí)節(jié)點(diǎn)便會(huì)被自動(dòng)清理。需要注意的是,臨時(shí)節(jié)點(diǎn)不能掛載子節(jié)點(diǎn),只能存儲(chǔ)數(shù)據(jù)。
3.順序節(jié)點(diǎn) 順序節(jié)點(diǎn)基于持久節(jié)點(diǎn)和臨時(shí)節(jié)點(diǎn)創(chuàng)建,因此可以將順序節(jié)點(diǎn)分為持久順序節(jié)點(diǎn)和臨時(shí)順序節(jié)點(diǎn)。在創(chuàng)建順序節(jié)點(diǎn)時(shí),默認(rèn)會(huì)在順序節(jié)點(diǎn)的基礎(chǔ)上設(shè)置一個(gè)不斷增加的序號(hào),該序號(hào)對(duì)于當(dāng)備順序節(jié)占的父節(jié)點(diǎn)來說是唯一的,這樣便于記錄父節(jié)點(diǎn)中每個(gè)子節(jié)點(diǎn)創(chuàng)建的先后順序。
6.簡述Hadoop高可用集群初次啟動(dòng)時(shí)的步驟
1.啟動(dòng)JournalNode
hdfs -- daemon start journalnode
2.格式化HDFS文件系統(tǒng)
hdfs namenode -format
3.同步NameNode
scp -r /export/data/hadoop/namenode/ hadoop2:/export/data/hadoop/
4.格式化ZKFC
hdfs zkfc -formatZK
5.啟動(dòng)HDFS
start-dfs.sh
6.啟動(dòng)YARN
start-yarn.sh
7.簡述Hive中分區(qū)和桶的作用
分區(qū):分區(qū)是指根據(jù)指定分區(qū)規(guī)則將表的整體數(shù)據(jù)劃分為多個(gè)獨(dú)立的數(shù)據(jù)進(jìn)行存儲(chǔ),每個(gè)獨(dú)立的數(shù)據(jù)看作一個(gè)分區(qū),每個(gè)分區(qū)存儲(chǔ)在HDFS文件系統(tǒng)的不同目錄。當(dāng)表分區(qū)后,便可以通過查詢某個(gè)分區(qū)獲取想要的數(shù)據(jù),從而避免全表掃描,提升查詢效率。
桶:桶是指根據(jù)指定分桶規(guī)則將表的數(shù)據(jù)隨機(jī)、均勻地劃分到不同的桶進(jìn)行存儲(chǔ),每個(gè)桶存儲(chǔ)在 HDFS文件系統(tǒng)的不同文件。為表創(chuàng)建桶的目的是有效避免數(shù)據(jù)傾斜,因分區(qū)雖然可以將表的數(shù)據(jù)劃分多個(gè)分區(qū),但是每個(gè)分區(qū)的大小可能不一致,即有些分區(qū)內(nèi)的數(shù)據(jù)量較大,而有些分區(qū)內(nèi)的數(shù)據(jù)量較小,當(dāng)查詢數(shù)據(jù)量較大的分區(qū)時(shí)速度會(huì)很慢,反之速度會(huì)很快,這就是數(shù)據(jù)傾斜。