福永網(wǎng)站推廣百度域名購買
Confluent Cloud 介紹
Confluent Cloud 是一個完全托管的 Apache Kafka 服務(wù),提供高可用性和可擴展性,旨在簡化數(shù)據(jù)流處理和實時數(shù)據(jù)集成。用戶可以輕松創(chuàng)建和管理 Kafka 集群,而無需擔心基礎(chǔ)設(shè)施的維護和管理。Confluent Cloud 支持多種數(shù)據(jù)源和目標,允許用戶在云環(huán)境中實現(xiàn)數(shù)據(jù)流的無縫傳輸和處理。此外,它還提供強大的工具和功能,如 Schema Registry、Kafka Connect 和 KSQL,使開發(fā)者能夠快速構(gòu)建和部署流處理應(yīng)用程序。通過 Confluent Cloud,企業(yè)可以更高效地利用實時數(shù)據(jù),推動業(yè)務(wù)創(chuàng)新和數(shù)字化轉(zhuǎn)型。
Confluent Cloud 旨在為開發(fā)者和企業(yè)提供一種簡單、高效的方式來構(gòu)建、部署和管理實時數(shù)據(jù)管道和流式應(yīng)用程序。以下是 Confluent Cloud 的幾個關(guān)鍵特點:
- 完全托管:Confluent Cloud 負責(zé)處理 Kafka 集群的維護和管理工作,包括配置、擴展、更新和故障恢復(fù),讓用戶可以專注于應(yīng)用程序的開發(fā)。
- 高可用性:提供高可靠性和容錯能力,確保數(shù)據(jù)流和應(yīng)用程序的穩(wěn)定運行。
- 可擴展性:根據(jù)需求自動或手動擴展資源,輕松應(yīng)對流量高峰。
- 安全性:提供加密、身份驗證和授權(quán)機制,保護數(shù)據(jù)安全和隱私。
- 性能優(yōu)化:自動優(yōu)化性能,包括負載均衡和分區(qū)管理,以提高數(shù)據(jù)處理效率。
- 成本效益:按使用量付費,無需預(yù)先投資昂貴的硬件和維護成本。
可觀測性對于 Confluent Cloud 尤為重要,它能夠提供對數(shù)據(jù)流和系統(tǒng)性能的深入洞察,實時跟蹤其性能指標,確保數(shù)據(jù)流的穩(wěn)定性和可靠性,及時發(fā)現(xiàn)并解決潛在問題,優(yōu)化資源分配,并保障業(yè)務(wù)連續(xù)性。通過監(jiān)控,可以獲得關(guān)鍵洞察,比如流量模式、延遲、錯誤率等,從而幫助維護服務(wù)質(zhì)量,預(yù)防系統(tǒng)故障,并支持數(shù)據(jù)驅(qū)動的決策制定。
觀測云
觀測云是一款專為 IT 工程師打造的全鏈路可觀測產(chǎn)品,它集成了基礎(chǔ)設(shè)施監(jiān)控、應(yīng)用程序性能監(jiān)控和日志管理,為整個技術(shù)棧提供實時可觀察性。這款產(chǎn)品能夠幫助工程師全面了解端到端的用戶體驗追蹤,了解應(yīng)用內(nèi)函數(shù)的每一次調(diào)用,以及全面監(jiān)控云時代的基礎(chǔ)設(shè)施。此外,觀測云還具備快速發(fā)現(xiàn)系統(tǒng)安全風(fēng)險的能力,為數(shù)字化時代提供安全保障。
部署 DataKit
DataKit 是一個開源的、跨平臺的數(shù)據(jù)收集和監(jiān)控工具,由觀測云開發(fā)并維護。它旨在幫助用戶收集、處理和分析各種數(shù)據(jù)源,如日志、指標和事件,以便進行有效的監(jiān)控和故障排查。DataKit 支持多種數(shù)據(jù)輸入和輸出格式,可以輕松集成到現(xiàn)有的監(jiān)控系統(tǒng)中。
登錄觀測云控制臺,在集成 -> DataKit 選擇對應(yīng)安裝方式,當前采用 Linux 主機部署 DataKit 。
指標采集
Confluent Cloud 指標集成配置
1、登陸 Confluent Cloud ,在 ADMINISTRATION 下選擇 Metrics 。
2、在 Metrics 頁點擊按鈕 New integration ,選擇監(jiān)控類型 Prometheus 。
3、點擊 Generate Cloud API key 按鈕,生成 API Key 。
4、Resources 選擇 All Kafka clusters,生成 Prometheus 的 scrape_configs 。
scrape_configs:- job_name: Confluent Cloudscrape_interval: 1mscrape_timeout: 1mhonor_timestamps: truestatic_configs:- targets:- api.telemetry.confluent.cloudscheme: httpsbasic_auth:username: H5BO.....password: RDCgMwguHMy.....metrics_path: /v2/metrics/cloud/exportparams:"resource.kafka.id":- lkc-xxxx
5、點擊頁面 Copy 按鈕進行內(nèi)容復(fù)制。
DataKit 采集器配置
由于 Confluent Cloud 能夠直接暴露 metrics url ,所以可以直接通過 prom 采集器進行采集。
進入 DataKit 安裝目錄下的?conf.d/prom
?,復(fù)制?prom.conf.sample
?為?confluent_cloud.conf
?。
cp prom.conf.sample confluent_cloud.conf
調(diào)整?confluent_cloud.conf
?內(nèi)容如下:
# {"version": "1.61.0-testing_testing-graphite-metric-set", "desc": "do NOT edit this line"}[[inputs.prom]]## Exporter URLs.urls = ["https://api.telemetry.confluent.cloud/v2/metrics/cloud/export?resource.kafka.id=lkc-xxxx"]source = "confluent_cloud"## Add HTTP headers to data pulling (Example basic authentication).[inputs.prom.http_headers]Authorization = "Basic QkXXXXXXXXXXXX"interval = "60s"
調(diào)整參數(shù)說明 :
- urls: 將 Confluent Cloud 復(fù)制的內(nèi)容調(diào)整下,拼接成 url ,如果有多個 kafka 資源,則用逗號分割。
- Authorization: 將用戶名和密碼轉(zhuǎn)化成 Basic Authorization 格式,可以使用轉(zhuǎn)化工具?在線生成Basic Auth、http基礎(chǔ)認證密碼生成、 basic access authentication在線生成、Basic Auth密碼在線解密--查錯網(wǎng)?。
- interval: 調(diào)整為 60s ,由于 Confluent Cloud API 限制,這個值不能小于 60s ,低于這個值將導(dǎo)致無法采集數(shù)據(jù)。
關(guān)鍵指標
confluent 指標集
指標名稱 | 描述 | 單位 |
---|---|---|
kafka_server_active_connection_count | 活躍認證連接數(shù) | count |
kafka_server_consumer_lag_offsets | 組成員提交的偏移量與分區(qū)的高水位標記之間的滯后量。 | count |
kafka_server_partition_count | 分區(qū)數(shù)量 | count |
kafka_server_received_bytes | 從網(wǎng)絡(luò)接收的客戶數(shù)據(jù)字節(jié)數(shù)的增量計數(shù)。每個樣本是自上一個數(shù)據(jù)樣本以來接收的字節(jié)數(shù)。計數(shù)每60秒采樣一次。 | byte |
kafka_server_received_records | 接收的記錄數(shù)的增量計數(shù)。每個樣本是自上一個數(shù)據(jù)樣本以來接收的記錄數(shù)。計數(shù)每60秒采樣一次。 | count |
kafka_server_request_bytes | 指定請求類型通過網(wǎng)絡(luò)發(fā)送的總請求字節(jié)數(shù)的增量計數(shù)。每個樣本是自上一個數(shù)據(jù)點以來發(fā)送的字節(jié)數(shù)。計數(shù)每60秒采樣一次。 | byte |
kafka_server_request_count | 通過網(wǎng)絡(luò)接收的請求數(shù)的增量計數(shù)。每個樣本是自上一個數(shù)據(jù)點以來接收的請求數(shù)。計數(shù)每60秒采樣一次。 | count |
kafka_server_response_bytes | 指定響應(yīng)類型通過網(wǎng)絡(luò)發(fā)送的總響應(yīng)字節(jié)數(shù)的增量計數(shù)。每個樣本是自上一個數(shù)據(jù)點以來發(fā)送的字節(jié)數(shù)。計數(shù)每60秒采樣一次。 | byte |
kafka_server_rest_produce_request_bytes | Kafka REST產(chǎn)生調(diào)用發(fā)送的總請求字節(jié)數(shù)的增量計數(shù)。 | byte |
kafka_server_retained_bytes | 集群保留的字節(jié)數(shù)當前計數(shù)。計數(shù)每60秒采樣一次。 | byte |
kafka_server_sent_bytes | 通過網(wǎng)絡(luò)發(fā)送的客戶數(shù)據(jù)字節(jié)數(shù)的增量計數(shù)。每個樣本是自上一個數(shù)據(jù)點以來發(fā)送的字節(jié)數(shù)。計數(shù)每60秒采樣一次。 | byte |
kafka_server_sent_records | 發(fā)送的記錄數(shù)的增量計數(shù)。每個樣本是自上一個數(shù)據(jù)點以來發(fā)送的記錄數(shù)。計數(shù)每60秒采樣一次。 | count |
kafka_server_successful_authentication_count | 成功認證的增量計數(shù)。每個樣本是自上一個數(shù)據(jù)點以來成功認證的數(shù)量。計數(shù)每60秒采樣一次。 | count |
場景視圖
登錄觀測云控制臺,點擊「場景」 -「新建儀表板」,輸入 “Confluent Cloud ”, 選擇 “Confluent Cloud 監(jiān)控視圖”,點擊 “確定” 即可添加內(nèi)置視圖。
監(jiān)控器(告警)
Kafka 消息堆積
滯后量過大,表示消費者無法及時處理消息。
Kafka 分區(qū)創(chuàng)建太高
每個分區(qū)都會占用一定的磁盤空間,并且需要維護其狀態(tài)信息。過多的分區(qū)會增加磁盤和網(wǎng)絡(luò)I/O的負載,進而導(dǎo)致 Kafka 的性能下降。
Kafka 服務(wù)認證成功次數(shù)過高報警
認證次數(shù)過高,可能存在帳號被攻擊的行為。
總結(jié)
Confluent Cloud 是一個由 Confluent 提供的全托管 Apache Kafka 服務(wù),通過觀測云對 Confluent Cloud 進行全面可觀測性,實時跟蹤其性能指標,確保數(shù)據(jù)流的穩(wěn)定性和可靠性,及時發(fā)現(xiàn)并解決潛在問題,優(yōu)化資源分配,并保障業(yè)務(wù)連續(xù)性。