dw做的網(wǎng)站與瀏覽器不匹配西安seo報(bào)價(jià)
大數(shù)據(jù)一詞最早指的是傳統(tǒng)數(shù)據(jù)處理應(yīng)用軟件無法處理的過于龐大或過于復(fù)雜的數(shù)據(jù)集。
現(xiàn)在,對“大數(shù)據(jù)”一詞的使用傾向于使用預(yù)測分析、用戶行為分析或者其他一些從大數(shù)據(jù)中提取價(jià)值的高級數(shù)據(jù)分析方法,很少用于表示特定規(guī)模的數(shù)據(jù)集。
定義
大數(shù)據(jù)是指規(guī)模巨大、種類繁多、產(chǎn)生速度快的數(shù)據(jù)集合,通常超出了傳統(tǒng)數(shù)據(jù)處理軟件工具的處理能力范圍。
大數(shù)據(jù)的特點(diǎn)主要可以歸納為以下幾個(gè)方面:
- Volume:數(shù)據(jù)量大,通常在 TB、PB 甚至 EB 級別。
- Velocity:數(shù)據(jù)的產(chǎn)生速度非???#xff0c;需要被實(shí)時(shí)處理。
- Variety:數(shù)據(jù)類型多,包含結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)。
- Veracity:數(shù)據(jù)的可靠性高。
- Value:數(shù)據(jù)包含的價(jià)值大。
大數(shù)據(jù)生態(tài)
數(shù)據(jù)采集
- 日志數(shù)據(jù)采集:
- Apache Flume:支持的場景更多(半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)采集)
- Logstash:ELK 場景推薦使用 Logstash,可以和 Elastic、Kibana 無縫集成
- Filebeat:性能更高
- 關(guān)系型數(shù)據(jù)庫數(shù)據(jù)采集:Sqoop、DataX、Canal、Maxwell、Debezium、FlinkCDC
數(shù)據(jù)存儲
- 分布式文件存儲系統(tǒng):Hadoop HDFS
- 數(shù)據(jù)庫系統(tǒng):Mongodb、HBase
- 消息隊(duì)列中間件:Kafka
數(shù)據(jù)計(jì)算
- 離線計(jì)算:Hadoop MapReduce、Spark
- 實(shí)時(shí)計(jì)算:Storm、Spark Streaming、Flink
數(shù)據(jù)分析
- 離線數(shù)據(jù)分析:Hive、Impala、Kylin
- 實(shí)時(shí)數(shù)據(jù)分析:ClickHouse、Druid、Doris
任務(wù)調(diào)度框架
- Apache Oozie
分布式資源管理
- Hadoop YARN
- Kubernates
- Mesos
管理和協(xié)調(diào)
- Zookeeper:分布式協(xié)調(diào)服務(wù)
- Apache Ambari:安裝、部署、配置和管理工具
學(xué)習(xí)路線
大數(shù)據(jù)生態(tài)的工具和技術(shù)組件雖然多,但是每類只需要重點(diǎn)學(xué)習(xí)一個(gè)就可以了。
可以按照下面的學(xué)習(xí)路線:
- 學(xué)習(xí) Hadoop,包括 HDFS、MapReduce、YARN 三個(gè)主要組件
- 了解 Hive
- 了解 Kafka
- 學(xué)習(xí) Spark 用于離線數(shù)據(jù)計(jì)算
- 學(xué)習(xí) Spark Streaming 或者 Flink 用于實(shí)時(shí)數(shù)據(jù)計(jì)算
- 了解 Oozie、Zookeeper、Ambari 的用法