DNS服務器集群
DNS服務器集群解決方案林天山中國電信福建公司泉州分公司 泉州 362000 建設DNS集群的必要性 建 建設DNS集群的必要性泉州電信城域網現(xiàn)有3臺DN S服務器,其中DN S
DNS服務器集群解決方案林天山
中國電信福建公司泉州分公司 泉州 ?。常叮玻埃埃啊 〗ㄔODNS集群的必要性 建 建設DNS集群的必要性泉州電信城域網現(xiàn)有3臺DN S服務器,其中DN S1和DN S2作為本地授權解析服務器,同時也開放了遞歸查詢,DNS3作為Cache服務器,僅提供遞歸查詢。泉州撥號PPPoE用戶的DNS服務設置由局方指定,主用服務器使用省DNS服務器“fj-DNS.fz.fj.cn”,備用服務器為泉州本地服務器中的DNS2和DNS3,當主用服務器1 s內沒有響應,查詢將轉向泉州本地服務器。網吧等專線用戶大多數(shù)主用服務器還是DNS1。早期為使3臺DN S負載均衡,通過人工配置進行區(qū)域劃分,用戶域名查詢流量被分擔到3臺DN S上。由于歷史原因,DN S1的知名度遠高于其他幾臺,因此導致DNS1的CPU利用率持續(xù)上升,因此將其上的晉江和石獅的撥號用戶流量轉移到DN S2和DN S3,并且更換了D N S2和DN S3的服務器。由于機器性能的限制,3臺服務器的CPU忙時利用率均超過85,2009年春節(jié)前后甚至超過了95。圖1是2009年春節(jié)期間3臺服務器CP U負載情況,灰色為低于85的部分。從圖1可以看出,雖然3臺DN S服務器的CPU負載已經基本均衡,但在業(yè)務忙時,仍然難以滿足業(yè)務需要,需要及時進行擴容。對服務器的擴容可以通過購買更強的服務器實現(xiàn),但隨著業(yè)務繼續(xù)發(fā)務器實現(xiàn),但隨著業(yè)務繼續(xù)發(fā)展,無限制地購買更高性能的服務器造成的浪買更高性能的服務器造成的浪費可想而知。同時,對于固定IP地址用戶,我時,對于固定IP地址用戶,我們很難像對撥號IP地址用戶那樣動態(tài)調整DNS IP地址,即使是撥號用戶,一旦服務器故障,由于沒戶,一旦服務器故障,由于沒有熱備份保護,絕大部分寬帶業(yè)務將會中斷。理想的應用模式應當是:理想的應用模式應當是:對外公布一個IP地址,內部通過多個服DNS IP地址,內部通過多個服務器建立集群,只需要隨著業(yè)務發(fā)展增加集群只需要隨著業(yè)務發(fā)展增加集群內服務器數(shù)量。保留2臺服務器作為非集群備份(兼做本地授權服務器)。一個良好的集群系統(tǒng)應當具有以下特點。⑴可靠性:避免單點故障,不管是網絡還是服務器硬件故障均不中斷業(yè)務。⑵完整性:當某一臺DNS進程發(fā)生故障,可以自動從集群中退出。⑶可擴展性:可以通過逐步增加服務器來滿足業(yè)務發(fā)展的需要,避免一次購買大容量設備造成的巨大成本壓力。目前福建電信集中DNS服務器即采用了集群方式,各地市均將主用DNS指向省DNS,本地DNS作為備用。從全省的角度看,需要建立兩個異地DNS集群才能確保DNS的安全。單集群方式可能帶來的隱患是:由于各地市DNS性能和安全性不足,當省DNS出現(xiàn)故障時,本地DNS流量將迅速增加以致不堪重負。因此從確www. ttm . com.cn 83
,
保本地寬帶業(yè)務的角度,有必要在泉州建立一個新的DNS集群系統(tǒng)。

O S P F進程,將DN S服務器模擬成雙接口路由器,將服務進程的監(jiān)聽端口設置在Lo o p b a c k地址上,通過OS P F 等值路由(Equal Cost Multi-Path,E C M P)實現(xiàn)流量均衡。當網絡中斷或服務器硬件故障、操作系統(tǒng)死機時,OSPF將快速收斂。當服務器進程出現(xiàn)故障時,可以通過監(jiān)控進程關閉Loopback接口,利用OSPF LSA迅速切換服務器。這種方案原理比4層交換機要簡單很多,因此可靠性相對較高。采用這種方式最好是無狀態(tài)的連接,因為如果是基于狀態(tài)的連接,很可能導致連接的先后兩個包發(fā)給集群內不同的服務器。對于DN S這樣的應用,查詢非常簡單,通過UDP一問一答就可以完成,因而可以采用此方案。如果必須使用狀態(tài)連接,如DN S的區(qū)傳送,則必須確保一個連接的所有后續(xù)包都發(fā)給同一臺服務器。思科路由器可以通過CEF實現(xiàn)基于流分發(fā)的需求,Juniper也可以實現(xiàn)類似的功能。
這個方案顯然適用于授權DNS服務器,也就是沒有遞歸查詢的情況。如果需要遞歸查詢的時候可能還存在問題。對一般應用來講,大多數(shù)都是遞歸查詢,如果DN S發(fā)出的遞歸查詢
無法保證返回結果到同一臺服務器,那么這個方案就只能應用于本地授權解析服務器。
可以考慮兩個解決辦法:一是測試CE F是否可以保留遞歸查詢的流狀態(tài);二是通過參數(shù)指定D N S 遞歸查詢,通過服務器的集群內部IP地址發(fā)出,這樣由于集群內部IP地址的惟一性,就可以確保查詢結果的正確返回。其他如Telnet、SNMP等通信由于需要確定訪問某一臺服務器,因此也必須通過集群內部IP地址訪問。
建設DNS集群的方案
2.1 ?。磳咏粨Q機方案
集群解決方案有很多種,一般采用4層交換機或專門的集群軟件實現(xiàn)通用系統(tǒng)的集群,目前大多數(shù)省級DN S 集群系統(tǒng)采用了這個方案。
如圖2所示,為實現(xiàn)集群,采用了2臺4層交換機。這是業(yè)界普遍采用的方案,主要優(yōu)點是方案成熟,可以實現(xiàn)靈活的均衡策略。缺點是設備投資較大,且設備的可靠性對系統(tǒng)影響很大。對于DN S這種應用來說,4層交換機的很多特性實際并不是很重要,可以考慮更加廉價、簡單、可靠的方案。
方案比較
對比上述兩種方案,4層交換機方案優(yōu)點是方案成熟,但投資較大,從實際運行情況看,穩(wěn)定性似乎還不盡如人意;OSPF等值路由方案主要優(yōu)點是投資小,原理簡單可靠,可擴展性好,便于實現(xiàn)無縫升級,但缺乏在現(xiàn)網大規(guī)模的應用經驗。
考慮到目前已經確定由省公司集中建設全省DN S服務器,各地均將首選域名服務器指向省DN S,各地市D N S服務器僅作為備用服務器和授權服務器使用。泉州電信本地DN S擴容選擇OSPF等值路由方案,這既避免了
2.2?。希樱校频戎德酚煞桨?/p>
考慮到成本因素,筆者建議采用OSPF等值路由實現(xiàn)DNS集群的解決方案,組網架構如圖3所示。
該方案基本思路是,在服務器上設置Loopback地址為服務器對外公開地址,物理網卡IP地址設置成集群內部IP地址,使用開源軟件Zebra來啟用
84 Tele co m munica Tions Technology / 2010·1
,


www. ttm . com.cn 85
,
沒有升級,主機OS P F路由軟件沒有使用原版Ze b r a,而是采用了其Fo r k 版本——Quagga(Version 0.98.6)。方案中Loopback地址在Freebsd中可用Clonable Interface實現(xiàn),Linux中可以用Dummy接口實現(xiàn)。
配置成Stub Area,路由表只有4行,加載OSPF路由進程對PC服務器的系統(tǒng)性能影響是很小的。
不夠均衡,由于測試用戶較少,少量用戶如網吧發(fā)出的DN S請求可能遠大于其他人,但當投入現(xiàn)網應用時,因為用戶數(shù)量較大,從統(tǒng)計意義上看,用戶就可以均衡地分布到各DNS上。
OSPF收斂時間可能比較長,由于D N S服務器只有一個物理接口,當該接口鏈路中斷時,OSPF路由收斂時間為30~40 s,而DNS服務進程掛死導致的監(jiān)控程序Shutdown Dummy接口則可以在1 s內收斂。解決的辦法有兩個:一是修改OSPF Hello和Dead Interval,從而降低收斂時間;二是啟用服務器另外一個物理網卡,使鏈路中斷信息能夠迅速發(fā)布出去。
⑵DNS服務器配置
D N S 服務器配置基本不需要改變,只需打開對兩個接口的DN S請求監(jiān)控即可:
listen-on {
59.56.221.246; # service address, bound to lo1
66.66.66.82; # unicast address, for service checking
};
⑴OSPF配置
為避免過多的路由信息進入Zebra OSPF服務器,我們新建了一個OSPF Area,并配置成Stub Area,由骨干路由器下發(fā)一條缺省路由即可。另外需要注意的是OSPF Router-ID,由于缺省Router-ID是選擇較小的IP地址,如果3臺測試服務器均使用虛擬接口IP地址59.56.221.246作為Router-ID,將可能導致路由振蕩。
主機OSPF配置如下:router OSPF
OSPF router-id 66.66.66.82 network 59.56.221.246/32 area 0.0.0.5
n e t w o r k 66.66.66.82/29 a r e a 0.0.0.5
area 0.0.0.5 stub!
OSPF正常建立后,可以看到由于
⑶測試結果
通過將現(xiàn)網中的3個小節(jié)點用戶的D N S服務器指向59.56.221.246,測試D N S集群使用情況,功能完全正常,負載也可以分擔到3臺測試服務器上。從測試情況看,Juniper M320路由器采用流方式分發(fā)路由,也就是對某個IP 地址,后續(xù)包都會發(fā)往同一個DN S服務器,經測試,TC P連接也可以正常建立。
⑸測試總結
通過測試表明,采用OSPF ECMP 方式可以有效實現(xiàn)DN S業(yè)務集群,同時由于基于流的轉發(fā)方式,未來基于T C P的連接也可以考慮用這種方式實現(xiàn)集群。
根據測試情況,我們開始在現(xiàn)網部署DN S集群系統(tǒng),集群包括4臺PC 服務器,安裝RedHat Linux 5企業(yè)版和

⑷現(xiàn)網應用之前需要考慮的問題
基于流分發(fā)負載的方式導致負載
86 Tele co m munica Tions Technology / 2010·1
,
Quagga(Version 0.98.6)。
對外服務的是虛擬I P 地址,各服務器網卡的物理I P 地址為11.22.33.245~251。4臺服務器部署在東海和普明兩個核心機房。從網絡上看,4臺服務器和兩臺核心路由器在一個VLAN廣播域內,OSPF域內兩臺核心路由器分別作為DR和BD R。各物理IP地址與核心路由器建立OSPF鄰接關系,由于集群內各服務器到核心路由器均為等值路由,因此可以實現(xiàn)等值路由轉發(fā),從而實現(xiàn)DN S的負載分擔。4臺服務器和相關的網絡設備均采用動態(tài)冗余備份方式進行保護,并且物理上分屬兩個異地機房,系統(tǒng)可靠性有了質的提升。圖4為2008年9月12-20日集群內各服務器DNS請求數(shù)量分布情況。
從圖4可以看到各服務器間流量實現(xiàn)了有效的均衡。從CPU負載看,即使高峰期間每秒8 000次以上的查詢量,各服務器CPU峰值也在7左右,足以滿足未來很長一段時間的需要。
在日常維護中,單臺服務器故障可以自動退出集群,維護人員可以不必介入,即使出現(xiàn)意外情況沒有退出集群,也可以很容易地通過關閉交換機端口實現(xiàn)強制退出。傳統(tǒng)方式則必
須修復服務器或將故障DN S服務器IP 地址轉移到別的服務器上。
系統(tǒng)的監(jiān)控可以通過城域網網管nslookup方式對物理IP地址和虛擬IP地址進行定時檢測。同時通過性能采集程序每5 min采集相關流量、CPU等信息,通過圖形系統(tǒng)進行展示。
采用集群服務器后,泉州電信對DNS服務器進行了重新規(guī)劃。原有3臺服務器中,DNS3退網,DNS1、DNS2保留作為授權服務器,不再提供除本地域名和反向域名解析外的其他解析服務,所有用戶域名解析請求均由集群DNS完成。
采用集群方式不僅帶來性能和可靠性的提升,還大大提高了安全性。
⑴集群服務器只承擔Cache-Only Server角色,無需對泉州電信以外的用戶提供服務,因此可以在出口路由器上拒絕所有來自泉州以外的對集群服務器的域名訪問請求,這大大提高了抗攻擊能力。原有DN S服務器同時承擔遞歸和非遞歸查詢服務,相關策略難以實施。
⑵集群服務器采用了虛擬IP地址(公開)和物理IP地址(內部使用)的模式,對用戶可見的是虛擬I P 地址,實際遞歸查詢的是物理IP地址,
這可以避免DN S S p o o f i n g攻擊的發(fā)生。對于⑴所述問題,由于所有對泉州以外的交互均由物理IP地址發(fā)起,因此對于虛擬IP地址的所有訪問均可拒絕。
結合⑴、⑵情況,現(xiàn)有系統(tǒng)可能的風險只剩下本地用戶攻擊和來自泉州外部的針對物理IP地址的源端口為53的UD P包攻擊,總體風險大大降低。

結束語
目前泉州電信已經將所有寬帶用戶的DN S配置規(guī)范到了省DN S和本地集群系統(tǒng)上,經過一年多的運行,表明集群系統(tǒng)完全可以達到電信級的可靠性。從性能上看,新PC 服務器性能將比原有DN S所用Su n服務器有很大提高;從投資看,購買PC服務器比Sun工作站也便宜很多,擴展也更容易。由于采用了OS P F等值路由進行負載均衡,還節(jié)省了4層交換機的投資。在大量節(jié)省建設資金的情況下,將滿足較長一段時間的D N S 查詢需要,有效提高了系統(tǒng)的穩(wěn)定性和安全性。
如對本文內容有任何觀點或評論,請發(fā)E-mail至editor@ttm.com.cn。
全球最長最快的鐵路在中國通車
武廣鐵路客運專線于?。玻埃埃埂∧辍。保病≡隆。玻丁∪照酵ㄜ嚭?,乘坐火車來往于兩地之間的乘客可以節(jié)?。贰。璧穆眯袝r間。這是迄今為止全球最長的350?。耄恚璧母咚勹F路,并使用了CTCS L3列控系統(tǒng)。諾基亞西門子通信提供的先進數(shù)字鐵路通信GSM-R系統(tǒng)為乘客享受快速安全的旅行體驗提供了強力保障?!?/p>
武廣線沿線地形復雜,橋梁隧道多,技術標準高,施工難度大。諾基亞西門子通信提供了完整的GSM-R解決方案,在不到1年的時間內,順利建成了滿足CTCS L3要求的高速鐵路隧道GSM-R覆蓋系統(tǒng),確保了隧道內外GSM-R端到端的整體網絡質量,有力保障了列控業(yè)務的平滑、順暢。
惠普幫助企業(yè)優(yōu)化云應用成本
惠普近日推出HP?。茫欤铮酰洹。粒螅螅酰颍宓亩囗椫匾鰪姽δ?,以幫助企業(yè)更好地管控云應用中的變動成本問題。
云計算憑借其彈性特征吸引了眾多用戶,因為計算資源可以按照需求擴展或縮減。企業(yè)若發(fā)現(xiàn)應用程序性能下降,可以通過購買更多的云計算資源解決問題,但是企業(yè)這樣做卻不一定能獲得性能的提升,反而可能會產生不可預計的成本。
HP?。茫欤铮酰洹。粒螅螅酰颍宄杀究刂坪停龋小。牛欤幔螅簦椋恪。裕澹螅衄F(xiàn)已上市。HP Cloud?。粒螅螅酰颍逵桑撤N不同的成本控制解決方案組成,并通過HP軟件即服務方式提供給客戶。
www. ttm . com.cn 87