中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁(yè) > news >正文

免費(fèi)建站自己的網(wǎng)址域名注冊(cè)查詢官網(wǎng)

免費(fèi)建站自己的網(wǎng)址,域名注冊(cè)查詢官網(wǎng),行業(yè)門戶網(wǎng)站建設(shè)費(fèi)用,網(wǎng)站建設(shè) 教學(xué)視頻大數(shù)據(jù)概念 大數(shù)據(jù):無(wú)法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)李和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。 大的概念是相對(duì)來(lái)說(shuō)的:目前來(lái)說(shuō)&#xff0…

大數(shù)據(jù)概念

大數(shù)據(jù):無(wú)法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)李和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。

大的概念是相對(duì)來(lái)說(shuō)的:目前來(lái)說(shuō),大數(shù)據(jù)的規(guī)模至少10T以上。
目前單臺(tái)主機(jī)一般只能存放1T左右的數(shù)據(jù),所以要進(jìn)行計(jì)算首先要進(jìn)行分布式存儲(chǔ),分開(kāi)到10臺(tái)電腦中進(jìn)行存儲(chǔ)。然后后面的計(jì)算也必須基于分布式的存儲(chǔ)結(jié)構(gòu)來(lái)進(jìn)行分布式運(yùn)算。

大數(shù)據(jù)特點(diǎn)

  1. 大量(Volume)
  2. 高速(Velocity)
  3. 多樣(Variety)
  4. 低價(jià)值密度(Value)

大數(shù)據(jù)應(yīng)用

  • 增加用戶粘性:進(jìn)行客戶畫像,推薦客戶喜歡的內(nèi)容。
  • 多臂試探:當(dāng)用戶畫像基本完成時(shí),嘗試推送其他內(nèi)容,并重新畫像。
  • 發(fā)現(xiàn)多個(gè)事務(wù)之間的潛在關(guān)聯(lián)性:比如紙尿布和啤酒。
  • 獲取商場(chǎng)的流量信息,分析運(yùn)營(yíng)情況。
  • 保險(xiǎn)/金融:挖掘潛在客戶,助力保險(xiǎn)行業(yè)精準(zhǔn)營(yíng)銷。

大數(shù)據(jù)不是用來(lái)開(kāi)發(fā)一個(gè)獨(dú)立的軟件,而且需要貼合其他軟件來(lái)疊加使用,助力軟件更加智能和貼合用戶需求。

業(yè)務(wù)分析

數(shù)據(jù)部門搭建數(shù)據(jù)平臺(tái),分析數(shù)據(jù)指標(biāo)。分析分為兩種,一種是離線數(shù)倉(cāng)分析,一種是實(shí)時(shí)分析。處理好后的展示環(huán)節(jié)交給前端處理。

大數(shù)據(jù)部門組織結(jié)構(gòu):

  1. 平臺(tái)組:搭建Hadoop、Flume、Kafka、HBase平臺(tái)
  2. 數(shù)據(jù)倉(cāng)庫(kù)組:ETL數(shù)據(jù)清洗、數(shù)據(jù)分析
  3. 實(shí)時(shí)組:實(shí)時(shí)指標(biāo)分析
  4. 數(shù)據(jù)挖掘組:算法工程師、推薦系統(tǒng)工程師、用戶畫像工程師
  5. 報(bào)表開(kāi)發(fā)組:javaEE工程師 + 前端工程師(非大數(shù)據(jù)部分)

Hadoop概述

Hadoop是什么

是一個(gè)分布式系統(tǒng)架構(gòu),Apache基金會(huì)所開(kāi)發(fā)的。主要解決海量數(shù)據(jù)的存儲(chǔ)和海量數(shù)據(jù)的分析計(jì)算問(wèn)題。Hadoop通常指一個(gè)更廣泛的概念,Hadoop生態(tài)圈(Hadoop, Hive, )
大數(shù)據(jù)之父:Doug Cutting,開(kāi)發(fā)了Lucene,一個(gè)搜索引擎,類似谷歌搜索引擎。為了在對(duì)Lucene進(jìn)行優(yōu)化升級(jí),提升面對(duì)大數(shù)據(jù)的查詢效率,結(jié)合谷歌發(fā)布的三篇論文,實(shí)現(xiàn)了DFS和MapReduce機(jī)制,使Nutch搜索引擎性能飆升。之后項(xiàng)目立項(xiàng)更名為Hadoop,從此Hadoop誕生了。
在這里插入圖片描述

Hadoop三大發(fā)行版本

  • Apache原始版本
  • 國(guó)外開(kāi)發(fā)的圖形化版本
  • 國(guó)內(nèi)的阿里云、騰訊云版本

Hadoop優(yōu)勢(shì)

  1. 高可靠性:有備份
  2. 高擴(kuò)展性:可以擴(kuò)展節(jié)點(diǎn)數(shù)量
  3. 高效性:Hadoop是并行運(yùn)算的
  4. 高容錯(cuò)性:能夠自動(dòng)將失敗的任務(wù)重新分配

Hadoop組成

  • Hadoop1.x:
    • HDFS數(shù)據(jù)存儲(chǔ)
    • MapReduce計(jì)算+資源調(diào)度
  • Hadoop2.x/3.x:
    • HDFS數(shù)據(jù)存儲(chǔ)
    • MapReduce計(jì)算
    • Yarn資源調(diào)度

HDFS架構(gòu)概述

  1. NameNode(nn): 存儲(chǔ)文件的元數(shù)據(jù),如文件名,文件目錄結(jié)構(gòu),文件屬性
  2. DataNode(dn): 存儲(chǔ)文件塊數(shù)據(jù), 以及校驗(yàn)和
  3. Secondary NameNode(2nn):每隔一段時(shí)間對(duì)NameNode元數(shù)據(jù)備份。

YARN架構(gòu)概述

  • 永久節(jié)點(diǎn):
    • ResourceManager(RM): 匯總所有資源信息
    • NodeManager(NM): 動(dòng)態(tài)收集當(dāng)前節(jié)點(diǎn)的資源情況
  • 任務(wù)節(jié)點(diǎn):
    • ApplicationMaster(AM): 單個(gè)任務(wù)運(yùn)行的管理員
    • Container: 容器,相當(dāng)于一臺(tái)獨(dú)立的服務(wù)器,里面封裝了任務(wù)所需要的資源,如內(nèi)存、CPU、磁盤、網(wǎng)絡(luò)等,類似一個(gè)小虛擬機(jī)。

MapReduce架構(gòu)概述

MapReduce有兩個(gè)階段。Map表示細(xì)分為子任務(wù),Reduce表示合并計(jì)算結(jié)果。細(xì)分任務(wù)的名稱為MapTask, 合并任務(wù)名稱為ReduceTask(規(guī)約)。MapReduce這個(gè)名稱概括了分布式系統(tǒng)進(jìn)行計(jì)算的基本過(guò)程。

HDFS、YARN、MapReduce三者關(guān)系

在這里插入圖片描述

大數(shù)據(jù)技術(shù)生態(tài)體系

在這里插入圖片描述

Hadoop搭建

創(chuàng)建模版機(jī)

  1. 最小化安裝
  2. 安裝一些必要軟件
  3. 修改ip為靜態(tài)ip
  4. 修改主機(jī)名和hosts映射文件
  5. 關(guān)閉防火墻
  6. 創(chuàng)建atguigu用戶,配置sudo權(quán)限
  7. 在/opt目錄下創(chuàng)建兩個(gè)子目錄
    • module安裝好的軟件
    • software安裝包
    • 修改module和software的所屬者和所屬組

使用xshell連接查詢虛擬機(jī)ip地址:

  • ip addr命令查看ip地址連接

安裝jdk和Hadoop

  1. 使用ftp將jdk傳輸?shù)絪oftware文件中
  2. 使用jar -zxfc解壓到module文件中
  3. 配置環(huán)境變量
    • profile.d目錄下聲明環(huán)境變量
    • #JAVA_HOME export JAVA_HOME=/opt/module/jdk1.8.0_212 export PATH=$PATH:$JAVA_HOME/bin

shell的補(bǔ)充

  • 父子shell項(xiàng)
    • 父類定義變量子類不能獲取:有辦法獲取,使用export 變量名將父類變量傳遞給子類shell
    • 子類定義變量父類不能獲取:獲取不了
  • 使用pstree命令可以查看進(jìn)程之間的父子關(guān)系
  • shell的三種執(zhí)行方式
    • 開(kāi)子bash的形式執(zhí)行,使用子類的shell的環(huán)境變量
      • bash + 腳本文件
      • chmod 777 腳本文件 + ./ 腳本文件
    • 在當(dāng)前bash中執(zhí)行,使用當(dāng)前shell的環(huán)境變量
      • . 或者 source 腳本文件
    • 一般情況下腳本都是開(kāi)子shell來(lái)執(zhí)行的,除了環(huán)境變量是父shell中運(yùn)行
http://m.risenshineclean.com/news/41337.html

相關(guān)文章:

  • 網(wǎng)站建設(shè)好以后怎么管理百度關(guān)鍵詞搜索量統(tǒng)計(jì)
  • 數(shù)據(jù)庫(kù)網(wǎng)站制作北京seo推廣系統(tǒng)
  • 搜索引擎優(yōu)化大致包含哪些內(nèi)容或環(huán)節(jié)河北seo推廣公司
  • 建一個(gè)素材網(wǎng)站多少錢杭州網(wǎng)站制作排名
  • 廣州市荔灣區(qū)疫情最新消息重慶可靠的關(guān)鍵詞優(yōu)化研發(fā)
  • 可以做婚禮鮮花布置的網(wǎng)站外貿(mào)推廣平臺(tái)哪個(gè)好
  • 工業(yè)企業(yè)網(wǎng)站建設(shè)費(fèi)教育培訓(xùn)網(wǎng)站官網(wǎng)
  • 寶安網(wǎng)站制作公司合肥網(wǎng)絡(luò)seo推廣服務(wù)
  • wordpress圖片站點(diǎn)網(wǎng)站制作網(wǎng)站推廣
  • it培訓(xùn)網(wǎng)站模板seo小白入門教學(xué)
  • 做棋牌網(wǎng)站建設(shè)哪家便宜免費(fèi)數(shù)據(jù)查詢網(wǎng)站
  • 免費(fèi)網(wǎng)站制作案例汽車宣傳軟文
  • 微擎如何做網(wǎng)站百度我的訂單app
  • 網(wǎng)站開(kāi)發(fā)用python嗎推廣策劃方案范文
  • 做網(wǎng)站要錢嗎sem優(yōu)化公司
  • 北京新冠最新情況最新消息百度seo2022新算法更新
  • 亞馬遜網(wǎng)是b2b還是b2c廈門網(wǎng)站seo外包
  • 江門網(wǎng)站制作培訓(xùn)網(wǎng)頁(yè)seo優(yōu)化
  • 品牌建設(shè)網(wǎng)站規(guī)劃網(wǎng)店?duì)I銷與推廣策劃方案
  • 做網(wǎng)站需要多少人中國(guó)十大電商公司排名
  • 網(wǎng)站商城定制網(wǎng)站建設(shè)哪個(gè)平臺(tái)可以免費(fèi)發(fā)廣告
  • 簡(jiǎn)潔企業(yè)網(wǎng)站源碼專注于seo顧問(wèn)
  • 揭陽(yáng)cms建站模板數(shù)據(jù)分析師35歲以后怎么辦
  • wordpress調(diào)用js函數(shù)魔方優(yōu)化大師官網(wǎng)下載
  • 網(wǎng)絡(luò)規(guī)劃設(shè)計(jì) 網(wǎng)站建設(shè)seo視頻教程百度網(wǎng)盤
  • wap網(wǎng)站建設(shè)公司新聞?lì)^條今天最新消息
  • 帝國(guó)網(wǎng)站管理系統(tǒng)入門教程百度排名點(diǎn)擊軟件
  • 企業(yè)做網(wǎng)站有用嗎簡(jiǎn)述如何對(duì)網(wǎng)站進(jìn)行推廣
  • 做槍版電影網(wǎng)站賺錢免費(fèi)二級(jí)域名平臺(tái)
  • 臺(tái)前做網(wǎng)站的公司廣告文案