阿里云監(jiān)控使用手冊(cè)
云監(jiān)控使用手冊(cè) ,云監(jiān)控/使用手冊(cè)使用手冊(cè)產(chǎn)品介紹云監(jiān)控簡(jiǎn)介云監(jiān)控作為云服務(wù)的監(jiān)控管理入口,能讓您快速了解各產(chǎn)品實(shí)例的狀態(tài)和性能。云監(jiān)控從站點(diǎn)監(jiān)控、云服務(wù)監(jiān)控、自定義監(jiān)控三
云監(jiān)控

使用手冊(cè)
,云監(jiān)控/使用手冊(cè)
使用手冊(cè)
產(chǎn)品介紹
云監(jiān)控簡(jiǎn)介
云監(jiān)控作為云服務(wù)的監(jiān)控管理入口,能讓您快速了解各產(chǎn)品實(shí)例的狀態(tài)和性能。云監(jiān)控從站點(diǎn)監(jiān)控、云服務(wù)監(jiān)控、自定義監(jiān)控三個(gè)方面來為您提供服務(wù)。通過云監(jiān)控管理控制臺(tái),您可以看到當(dāng)前服務(wù)的監(jiān)控項(xiàng)數(shù)據(jù)圖表,清晰了解服務(wù)運(yùn)行情況。并通過設(shè)置報(bào)警規(guī)則,管理監(jiān)控項(xiàng)狀態(tài),及時(shí)獲取異常信息。
如果您已經(jīng)開通了阿里云相關(guān)產(chǎn)品(ECS云服務(wù)器、RDS關(guān)系型數(shù)據(jù)庫(kù)等),那么您可以直接登錄云監(jiān)控控制臺(tái),查看相關(guān)實(shí)例的監(jiān)控狀態(tài)(ECS需要一鍵安裝云盾插件)。目前我們?yōu)槟峁?種云服務(wù)監(jiān)控,其他云服務(wù)監(jiān)控近期也將接入云監(jiān)控,敬請(qǐng)期待。
如果您需要了解自己的站點(diǎn)可用性和響應(yīng)時(shí)間,可以開啟云監(jiān)控站點(diǎn)服務(wù)來獲取站點(diǎn)的可用性和響應(yīng)時(shí)間。站點(diǎn)監(jiān)測(cè)既可以監(jiān)測(cè)ECS服務(wù)器上的站點(diǎn),也可以監(jiān)測(cè)非阿里云服務(wù)器上的站點(diǎn)。在站點(diǎn)監(jiān)測(cè)欄中添加監(jiān)測(cè)站點(diǎn),并選擇需要的監(jiān)控項(xiàng),便可成功開啟站點(diǎn)監(jiān)測(cè)功能。
如果云服務(wù)監(jiān)測(cè)和站點(diǎn)監(jiān)測(cè)依然滿足不了您的監(jiān)控需求,您還可以安裝云監(jiān)控SDK,自定義監(jiān)控項(xiàng)。自定義監(jiān)控項(xiàng)信息同樣可以以圖表的形式展示在云監(jiān)控控制臺(tái)。我們?yōu)槟峁┝嗽敿?xì)的自定義使用文檔
獲取監(jiān)控信息分為兩種方式,登錄云監(jiān)控管理控制臺(tái)直接查看信息和調(diào)用OpenAPI獲取監(jiān)控?cái)?shù)據(jù)信息。
云監(jiān)控控制臺(tái)模塊包括一下

名詞解釋

1
,云監(jiān)控/使用手冊(cè)
名詞解釋
這些名詞是云監(jiān)控的關(guān)鍵概念。
【監(jiān)控項(xiàng)】: 用戶設(shè)置或者系統(tǒng)默認(rèn)的監(jiān)控?cái)?shù)據(jù)類型,例如站點(diǎn)監(jiān)控的Http監(jiān)控默認(rèn)有兩個(gè)監(jiān)控項(xiàng)
【監(jiān)控點(diǎn)】: 監(jiān)控項(xiàng)的一個(gè)實(shí)例。如針對(duì)www.aliyun.com這個(gè)站點(diǎn)的http監(jiān)控,實(shí)際包含兩個(gè)監(jiān)控點(diǎn)http.response & http.status。對(duì)于ECS云主機(jī)有11個(gè)監(jiān)控項(xiàng),所以一臺(tái)云主機(jī)默認(rèn)有11個(gè)監(jiān)控點(diǎn)。
【維度】: 定位監(jiān)控項(xiàng)數(shù)據(jù)位置的維度,例如磁盤IO這個(gè)監(jiān)控項(xiàng),通過實(shí)例和磁盤名稱兩個(gè)維度可以定位到唯一的監(jiān)控點(diǎn)位置。 在自定義監(jiān)控中,目前維度用“字段信息表示”。
【規(guī)則】: 規(guī)則是一個(gè)條件; 例如“CPU使用率>=50”是一個(gè)規(guī)則; 10臺(tái)ECS服務(wù)器中有7臺(tái)可用也是一個(gè)規(guī)則,“可用服務(wù)器比例>=70”。
【事件】: (本版本中“事件”是隱性的,沒有展現(xiàn)給使用者) 當(dāng)一個(gè)監(jiān)控點(diǎn)上,規(guī)則條件滿足時(shí),產(chǎn)生一個(gè)事件。例如CPU使用率達(dá)到60,滿足“CPU使用率>=50”這一規(guī)則的條件,則產(chǎn)生一個(gè)事件。 多個(gè)事件滿足一個(gè)規(guī)則的條件,可以產(chǎn)生一個(gè)新的事件。例如站點(diǎn)監(jiān)控由兩個(gè)探測(cè)點(diǎn),只有一個(gè)探測(cè)點(diǎn)探測(cè)到目標(biāo)站點(diǎn)不可用,不滿足“不可用探測(cè)=2”規(guī)則,不產(chǎn)生“雙探測(cè)不可用”事件,不會(huì)觸發(fā)報(bào)警。只有兩個(gè)探測(cè)點(diǎn)同時(shí)探測(cè)某一站點(diǎn)不可用,產(chǎn)生一個(gè)“雙探測(cè)不可用”事件,進(jìn)而觸發(fā)報(bào)警。
【事件級(jí)別】:(本版本中“事件級(jí)別”沒有展現(xiàn)給使用者) 事件的影響分級(jí)。 可以通過嚴(yán)重程度來劃分,不同的級(jí)別報(bào)警通道不同。 可以通過已知處理方法和未知處理方法來劃分,已知處理方法的時(shí)間可以自動(dòng)處理,未知處理方法的通知聯(lián)系人人工處理。
【報(bào)警】: 由事件驅(qū)動(dòng)的一個(gè)通知?jiǎng)幼?,通過特定形式通知報(bào)警聯(lián)系人或服務(wù)。
【報(bào)警聯(lián)系人】: 報(bào)警消息的接收人,包含手機(jī)、旺旺(淘寶)、郵件。
【報(bào)警組】: 一組報(bào)警聯(lián)系人,可以包含一個(gè)或多個(gè)“報(bào)警聯(lián)系人”。在報(bào)警設(shè)置中,均通過“報(bào)警組”發(fā)送報(bào)警通知。對(duì)應(yīng)每一個(gè)監(jiān)控點(diǎn),根據(jù)預(yù)先設(shè)定的報(bào)警方式在到達(dá)報(bào)警閾值時(shí)向報(bào)警組成員發(fā)送報(bào)警消息。
【報(bào)警方式】: 異常通知用戶的手段。包括短信、旺旺、郵件等。
快速上手
快速開始
快速開始
當(dāng)您進(jìn)入云監(jiān)控控制臺(tái)后,您會(huì)看到在頁(yè)面的頂端看到 概覽,站點(diǎn)監(jiān)控,云服務(wù)監(jiān)控,自定義監(jiān)控,報(bào)警聯(lián)系人,5個(gè)頁(yè)面信息
初次使用,您可以先瀏覽一下名詞解釋,對(duì)云監(jiān)控產(chǎn)品的一些關(guān)鍵概念的術(shù)語(yǔ)有所了解。
初次使用,請(qǐng)您先進(jìn)入報(bào)警聯(lián)系人 輸入您的報(bào)警聯(lián)系人和報(bào)警組信息,后面定義報(bào)警規(guī)則的時(shí)候會(huì)用到。
然后,您可以進(jìn)入站點(diǎn)監(jiān)控,為您需要監(jiān)控的站點(diǎn)新建監(jiān)控項(xiàng)。 進(jìn)入云服務(wù)監(jiān)控

,查看您已開通的云服務(wù)的使2
,
云監(jiān)控/使用手冊(cè)
用情況和運(yùn)行狀態(tài)。 您還可以通過自定義監(jiān)控,自行上報(bào)數(shù)據(jù),設(shè)置監(jiān)控項(xiàng)。
目前云監(jiān)控支持查看三十天內(nèi)的歷史監(jiān)控?cái)?shù)據(jù),不支持?jǐn)?shù)據(jù)導(dǎo)出功能。如果您需要查看更長(zhǎng)時(shí)間的歷史數(shù)據(jù)或?qū)С鰯?shù)據(jù),可使用OpenAPI 功能,獲取監(jiān)控?cái)?shù)據(jù)并存儲(chǔ)。
概覽
概覽
目前云監(jiān)控提供站點(diǎn)監(jiān)控、云服務(wù)監(jiān)控和自定義監(jiān)控三種服務(wù)。
云監(jiān)控概覽頁(yè)如下圖所示,目前云服務(wù)監(jiān)控提供8種服務(wù)監(jiān)控,隨后將會(huì)有更多云服務(wù)監(jiān)控。您購(gòu)買一個(gè)云服務(wù)實(shí)例后,云監(jiān)控便默認(rèn)開啟了監(jiān)控服務(wù),您可以到云監(jiān)控對(duì)應(yīng)的服務(wù)頁(yè)面查看實(shí)例的監(jiān)控信息,并對(duì)其設(shè)置相應(yīng)的報(bào)警規(guī)則。
概覽頁(yè)名詞解釋
q 監(jiān)控項(xiàng):自定義監(jiān)控的監(jiān)控項(xiàng)數(shù)量,自定義監(jiān)控是沒有顯性監(jiān)控點(diǎn)概念,自定義監(jiān)控的靠維度(字段信息)來定位監(jiān)控點(diǎn)
監(jiān)控點(diǎn):站點(diǎn)監(jiān)控的監(jiān)控點(diǎn)和云服務(wù)監(jiān)控ECS監(jiān)控點(diǎn)數(shù)量
實(shí)例數(shù)量 云產(chǎn)品受監(jiān)控的實(shí)例個(gè)數(shù)
報(bào)警規(guī)則:通過設(shè)置報(bào)警規(guī)則,當(dāng)監(jiān)控項(xiàng)超出報(bào)警閾值和重試次數(shù)后,會(huì)觸發(fā)告警通知
報(bào)警:目前處于報(bào)警狀態(tài)的監(jiān)控項(xiàng)
數(shù)據(jù)不足:該監(jiān)控點(diǎn)沒有足夠數(shù)據(jù)上報(bào),無法判斷被監(jiān)控的站點(diǎn)或者服務(wù)的狀態(tài)
暫停:用戶保留該監(jiān)控,但是暫停該監(jiān)控項(xiàng)或者監(jiān)控點(diǎn)數(shù)據(jù)上報(bào),暫停狀態(tài)屬于正常狀態(tài)。不再觸發(fā)報(bào)警規(guī)則
q q q q q q
注意 :您只有設(shè)置了報(bào)警規(guī)則以后,才會(huì)在監(jiān)控項(xiàng)觸發(fā)報(bào)警規(guī)則時(shí)收到報(bào)警信息。否則無論監(jiān)控項(xiàng)數(shù)據(jù)發(fā)生何種變化,您都只能自行查看,無法收到報(bào)警信息。
站點(diǎn)監(jiān)控
站點(diǎn)監(jiān)控

站點(diǎn)監(jiān)控可以對(duì)目標(biāo)站點(diǎn)服務(wù)的可用性以及響應(yīng)時(shí)間進(jìn)行監(jiān)控。系統(tǒng)已經(jīng)默認(rèn)預(yù)置了8種監(jiān)控類型,包括http監(jiān)3
,
云監(jiān)控/使用手冊(cè)
控、ping監(jiān)控、tcp監(jiān)控、udp監(jiān)控、DNS監(jiān)控、pop監(jiān)控、smtp監(jiān)控、ftp監(jiān)控。其中每種監(jiān)控類型里面包含了兩個(gè)監(jiān)控項(xiàng):status和responsetime。
每個(gè)用戶最多可以設(shè)置200個(gè)站點(diǎn)監(jiān)控。
從2015年7月9日起,使用站點(diǎn)監(jiān)測(cè)功能需進(jìn)行云監(jiān)控產(chǎn)品服務(wù)認(rèn)證,未認(rèn)證用戶無法新建監(jiān)測(cè)站點(diǎn)
點(diǎn)擊進(jìn)行認(rèn)證 點(diǎn)擊認(rèn)證幫助
1 監(jiān)控類型

2 創(chuàng)建站點(diǎn)監(jiān)控和報(bào)警
點(diǎn)擊站點(diǎn)管理,進(jìn)入站點(diǎn)監(jiān)控頁(yè)面

點(diǎn)擊創(chuàng)建站點(diǎn),添加新的監(jiān)測(cè)點(diǎn)
4
,
云監(jiān)控/使用手冊(cè)
創(chuàng)建監(jiān)控點(diǎn) 表單描述
1) 監(jiān)控點(diǎn)名稱: 為您的監(jiān)控點(diǎn)輸入個(gè)性化的名稱
2) 監(jiān)控地址: 您要監(jiān)控的地址,對(duì)http來說,就是一個(gè)網(wǎng)站的地地址,對(duì)域名解析來說,就是某一個(gè)域名等等。
3) 監(jiān)測(cè)頻率: 站點(diǎn)監(jiān)控探測(cè)引擎多長(zhǎng)時(shí)間執(zhí)行一次探測(cè)任務(wù),并上報(bào)數(shù)據(jù)的頻率。默認(rèn)為5分鐘,請(qǐng)謹(jǐn)慎選擇1分鐘,過于頻繁的探測(cè)可能會(huì)導(dǎo)致對(duì)方服務(wù)屏蔽您的賬號(hào)。
4) 分布式探測(cè)點(diǎn) 目前部署了兩個(gè)監(jiān)測(cè)點(diǎn),可以分別從杭州和青島對(duì)您設(shè)置的目標(biāo)服務(wù)進(jìn)行監(jiān)測(cè),您也可以只選擇從其中一個(gè)監(jiān)測(cè)點(diǎn)進(jìn)行探測(cè)。(后續(xù)會(huì)支持更多監(jiān)測(cè)點(diǎn),包括海外的監(jiān)測(cè)點(diǎn))
5) 高級(jí)設(shè)置
不同的監(jiān)控類型會(huì)有一些高級(jí)選項(xiàng)
a. http監(jiān)控:
i. 請(qǐng)求方法,http標(biāo)準(zhǔn)的請(qǐng)求方法,getposthead,其中post支持提交內(nèi)容。
ii. 提交內(nèi)容,只對(duì)post請(qǐng)求方法有效,輸入您的目標(biāo)服務(wù)能夠識(shí)別的內(nèi)容。
iii.匹配響應(yīng)內(nèi)容,您期望探測(cè)目標(biāo)網(wǎng)站返回什么樣的內(nèi)容。
iv. 匹配方式:選擇匹配,則如果網(wǎng)站返回內(nèi)容匹配您期望的內(nèi)容報(bào)警;選擇不匹配,則如果網(wǎng)站返回內(nèi)容不匹

配您期望的內(nèi)容報(bào)警。5
,云監(jiān)控/使用手冊(cè)
v. Cookie:您期望探測(cè)目標(biāo)網(wǎng)站需要的cookie,key:value形式,多個(gè)cookie以半角分號(hào)分隔。
vi. http請(qǐng)求頭信息:您期望探測(cè)目標(biāo)網(wǎng)站需要的http header信息,key:value形式,多個(gè)header以半角分號(hào)分隔。
b. ping監(jiān)控: 您可以使用ping監(jiān)控服務(wù)來檢測(cè)目標(biāo)服務(wù)的網(wǎng)絡(luò)延遲。
c. Tcp監(jiān)控: 監(jiān)控地址的端口是不是連通的。另外,您也可以配置請(qǐng)求內(nèi)容和期望的響應(yīng)內(nèi)容。如果配置了這兩項(xiàng)內(nèi)容,則不匹配時(shí)會(huì)報(bào)警。內(nèi)容支持16進(jìn)制字節(jié)碼和文本兩種形式
i. 16進(jìn)制字節(jié)碼。如:0xcf,0x0f,0x85,0x85
ii. 文本。系統(tǒng)內(nèi)容會(huì)對(duì)文本內(nèi)容進(jìn)行轉(zhuǎn)換,請(qǐng)注意空格等容易出錯(cuò)的字符。
d. Udp監(jiān)控: 監(jiān)控某地址的udp服務(wù),因?yàn)閡dp協(xié)議的特性,必須要為udp配置請(qǐng)求和響應(yīng)內(nèi)容,否則udp探測(cè)將永遠(yuǎn)成功。
i. 16進(jìn)制字節(jié)碼。如:0xcf,0x0f,0x85,0x85
ii. 文本。系統(tǒng)內(nèi)容會(huì)對(duì)文本內(nèi)容進(jìn)行轉(zhuǎn)換,請(qǐng)注意空格、換行符等容易出錯(cuò)的字符。
e. DNS監(jiān)控: 監(jiān)控域名的可用性和響應(yīng)時(shí)間,并獲得各種域名記錄列表,支持域名輪詢(RR)。通常只需要默認(rèn)選擇查詢類型A.
f. POP監(jiān)控: 監(jiān)控POP3協(xié)議的接收郵件服務(wù)器,填寫正確的地址、端口,如果配置用戶名密碼,則會(huì)驗(yàn)證用戶名密碼。請(qǐng)注意頻率,如果頻率太快,有可能會(huì)導(dǎo)致對(duì)方服務(wù)屏蔽您的賬號(hào)。請(qǐng)依據(jù)對(duì)方服務(wù)選擇是否使用完全連接。
g. Smtp監(jiān)控: 監(jiān)控SMTP協(xié)議的發(fā)送郵件服務(wù)器,填寫正確的地址、端口,如果配置用戶名密碼,則會(huì)驗(yàn)證用戶名密碼。請(qǐng)注意頻率,如果頻率太快,有可能會(huì)導(dǎo)致對(duì)方服務(wù)屏蔽您的賬號(hào)。請(qǐng)依據(jù)對(duì)方服務(wù)選擇是否使用完全連接。
h. ftp監(jiān)控:驗(yàn)證Ftp服務(wù)是否正常以及延遲情況。
約定
a. 每個(gè)創(chuàng)建成功的監(jiān)控點(diǎn)會(huì)形式兩個(gè)監(jiān)控指標(biāo),一個(gè)是狀態(tài)status,一個(gè)是響應(yīng)時(shí)間responsetime。對(duì)所有的狀態(tài)來說,我們約定,http小于400的狀態(tài)碼為正常(對(duì)需要匹配內(nèi)容的服務(wù),如果服務(wù)狀態(tài)正常,但內(nèi)容不匹配,我們也認(rèn)為是不正常。),大于等于400的狀態(tài)為異常(有可能是服務(wù)響應(yīng)內(nèi)容不匹配您預(yù)置的期望值)。
b. 響應(yīng)時(shí)間單位是毫秒millisecond。
c.對(duì)于可用性圖表,每小時(shí)計(jì)算一次。可用性的計(jì)算是根據(jù)您的設(shè)置的HTTP探測(cè)頻率來定的,若您設(shè)置的頻率是1分鐘,那么在一個(gè)小時(shí)內(nèi)就會(huì)探測(cè)60次,然后會(huì)計(jì)算其中探測(cè)成功的次數(shù)。
d. 對(duì)于ping監(jiān)控,目前沒有可用性統(tǒng)計(jì),我們展示的是某統(tǒng)計(jì)周期內(nèi)的丟包率和響應(yīng)時(shí)間的平均值統(tǒng)計(jì)。
e. 監(jiān)控點(diǎn)創(chuàng)建成功后,站點(diǎn)監(jiān)控后臺(tái)會(huì)啟動(dòng)相應(yīng)的探測(cè)任務(wù), 按您指定的頻率探測(cè)并上報(bào)數(shù)據(jù)給云監(jiān)控后臺(tái),進(jìn)行分析和報(bào)警服務(wù)。

添加報(bào)警規(guī)則6
,

云監(jiān)控/使用手冊(cè)
設(shè)置站點(diǎn)監(jiān)控的監(jiān)控點(diǎn)后,會(huì)彈出窗口提示站點(diǎn)監(jiān)測(cè)添加成功,選擇設(shè)置報(bào)警規(guī)則按鈕,可進(jìn)入報(bào)警規(guī)則設(shè)置。如果不進(jìn)行設(shè)置,可后續(xù)在站點(diǎn)管理頁(yè)添加報(bào)警規(guī)則。
創(chuàng)建報(bào)警規(guī)則表單詳細(xì)描述:
對(duì)狀態(tài)碼和響應(yīng)時(shí)間設(shè)置范圍(ping協(xié)議設(shè)置丟包率),當(dāng)不在范圍內(nèi)時(shí),即為超出閾值。
設(shè)置通知對(duì)象:
1) 重試幾次報(bào)警:您可以選擇連續(xù)幾次超過閥值報(bào)警,默認(rèn)是三次,通常偶然因素會(huì)導(dǎo)致狀態(tài)不對(duì)或者服務(wù)響應(yīng)超時(shí),連續(xù)三次以上更能代表服務(wù)工作不正常,減少誤報(bào)的情況。
2)報(bào)警方式 多檢測(cè)點(diǎn)獨(dú)立報(bào)警:任一檢測(cè)點(diǎn)異常時(shí)都會(huì)發(fā)生一次報(bào)警 多檢測(cè)點(diǎn)組合報(bào)警:xxx.status狀態(tài)類報(bào)警采用所有檢測(cè)點(diǎn)都異常才報(bào)警,ping.loss丟包率及xxx.responsetime響應(yīng)時(shí)間類報(bào)警采用多檢測(cè)點(diǎn)取平均值進(jìn)行報(bào)警
4) 聯(lián)系人通知組:云賬號(hào)報(bào)警聯(lián)系人。
3 查看監(jiān)測(cè)數(shù)據(jù)
可以查看可用性和響應(yīng)時(shí)間
4 站點(diǎn)監(jiān)控所有監(jiān)控項(xiàng)

7
,云監(jiān)控/使用手冊(cè)
請(qǐng)查看監(jiān)控項(xiàng)參考手冊(cè)
5 站點(diǎn)監(jiān)控返回狀態(tài)碼說明
以下是對(duì)查看HTTP監(jiān)測(cè)報(bào)警歷史中,云監(jiān)控自定義報(bào)警值(狀態(tài)碼)的說明


以下是HTTP常見狀態(tài)碼說明,按ctrl F快速查找狀態(tài)碼

8
,
云監(jiān)控/使用手冊(cè)

9