IPSAN 效能會不如local disk array?

先說一下,也許很多人不知道什麼叫IPSAN,其實它就是我們一般稱的 iSCSI。很多人都說IPSAN的效能會不如本機的磁碟陣列卡或是本機外接的儲存設備。一般來說,我會說這個答案是對的。但是說IPSAN的效能一定不如本機的磁碟陣列,這我也絕對不同意,因為我真的可以用 SDS(如 TrzeNAS 或 NexentaStor)實做出來效能比起本機的磁碟陣列卡或是外接磁碟櫃效能好很多的一個IPSAN的儲存設備。

為什麼大部分的IPSAN的效能會不如本機磁碟陣列卡或是外接磁碟陣列?絕對不是因為很多IPSAN都只有Gb的網路介面,其實現在有很多的IPSAN都提供10Gb的網路介面,但是實際上介面速度跟儲存設備能夠提供的速度是兩回事,這是很多人的盲點。很多人都以為說,只要儲存設備提供了10Gb的網路介面,就可以真的跑到10Gb的傳輸速度, 這是一個天大的錯誤。是否真的能夠跑得到10Gb的傳輸速度,還是得要看儲存設備它的IO的能力,是否真的能夠達到這麼高。一輛跑車可以在德國無速限高速公路跑到時速250公里以上,並不是因為他的輪子很會跑,而是他的引擎很會跑。

而且IPSAN還可以利用MPIO(Multi-path Input Output)的方式同時驅動兩個或以上的網路介面去做存取,只要你的儲存設備效能夠快,網路的頻寬基本上不會是太大的問題。這是使用IPSAN可以得到的好處,也是本機的儲存陣列沒有辦法達成的地方。同時它還可以多台主機透過網路共用一套儲存設備,減少每台主機都要採購儲存空間及不必要的浪費,同時也可以藉由這樣的方式,提升整個儲存的可靠度,並減少備份所需要花費的時間與成本。

給大家一個題目思考一下,一個儲存設備,不管是 IPSAN或本機的磁碟陣列,IOPS (Input/Output per second)可以達到100,000,這樣的儲存設備算不算好?

廣告

儲存設備的RAID Group該怎麼設定呢?

RAID 有那些?

先提一下,傳統的儲存設備做RAID層級,有所謂RAID 0/1/2/3/4/5/6,常見的大概就是RAID 0/1/5/6,或者是做RAID10/50/60。一些特殊的公司的產品就會有特殊做RAID的方式例如說做RAID3(如EMC 的VNX 儲存設備),或是做RAID4(如NetApp 的FAS儲存設備)。ZFS儲存設備的 RAID,就分成stripe, mirror, RAIDZ1/Z2/Z3,相當於傳統的 RAID 0/1/5/6/7(目前其實未真有定義) 。但因為ZFS的儲存是以一個資源池的概念做定義,所以相對上也有較多類似傳統RAID 10/50/60。

那種 RAID 層級比較好?

就我的認知,這個其實沒有標準答案的! 每個人其實都應該是依自己的實際使用狀況跟實際使用環境,去設計不同的RAID group,給自己的應用程式。一般我們建置給客戶的環境 ,部分都是建類似傳的R50或是R60,見識如傳統的R10的客戶其實很少,主要原因是客戶成本的考量居多。如果客戶建置R10的話,它的實際可用空間跟一般建置R50來比,大概只有R50的一半左右;但是建置R10的效能一定會比R50來的好,安全性來得高嗎? 其實並不見得!

有沒有不會壞掉的RAID建置?

請問有沒有不會壞掉的儲存設備?

所以,

備份很重要

備份很重要

備份很重要

備份很重要

備份很重要

 

儲存設備如何防範病毒與勒索軟體的入侵

這幾天大概全台灣或是全世界的MIS人員都忙翻了,為什麼呢?因為一個來自於美國NSA(現在有人說北韓,反正就是系統漏洞)的勒索軟體大規模的侵犯全世界的電腦,只要你跑的是Windows的作業系統,幾乎無一倖免; 其實資訊安全是重要的一環,但是很多時候使用者的使用情況,是MIS工程師無法想像的。

第一線的防護

5/12開始就陸陸續續有傳出新的一個勒索軟體的消息,第一線的防護應該要怎麼做?這個有裕笠科技的專業,大家如果有興趣可以去看一下它的連結,我就不多提了

http://ns2.ublink.org/viewtopic.php?f=27&t=5954

第二線的防護 / 補救

我們主要是做儲存解決方案的,當然就是做儲存方面相關的一些防護措施或者是補救方式來作討論。首先第一道當然就是個人端的電腦,因為大部分的感染途徑都是從這裡發動第一波攻擊,只要有某個人點了來路不明的勒索軟體連結之後,大概很快的全公司的網路就全部通通會中毒了。病毒的散播不在我們這個討論! 我們要討論的是如何去防範被病毒加密之後,或者是人為的疏失誤砍了,或者是其他的硬體因素導致檔案不見的情況,我們可以怎麼去補救。其實大家會說的都是勤備份!

備份!! 備份!! 備份!!

的確,要保護你重要的資料不二法門,就是勤做備份備份。這分兩個部分,如果公司裡面一些個人的重要資料是放在個人電腦裡,這時候可能需要詢問公司是否有集中式的儲存空間,可以去作為備份的空間。 如果有的話可以使用Windows 內建的robocopy,或者是其他的一些免費的檔案複製軟體。若是沒有,可能自己要想辦法利用其他的儲存媒體,例如隨身碟來作備份的空間。

自動化的儲存及資料保護

但若是企業內有集中式的儲存空間但是備份要有每個人去運作恐怕執行上會有困難因為人總是健忘的。所以在我們的儲存解決方案中除了傳統的robocopy的方式以外,也可以透由我們另外提供的TFSync 或者syncthing 來做即時的資料防護,或者是日常的備份作業;同時結合上儲存設備內部的快照機制,可以讓資料儲存在媒體上有更好的一個資料防患。

儲存設備內建防毒

當然如果儲存媒體內部就有內建防毒的機制那就更好了! 像我們的儲存設備 NexentaStor 以及 TrzeNAS都有內建的防毒,但是防毒總不可能可以防一輩子,也不可能有100%的方式防毒,所以做好必要的補救措施才是關鍵。

客戶的實際案例: 一小時內25 TB的資料轉移

先前有提到有一個客戶有25 TB的資料使用量,因為系統太過老舊所以要做整個機器的升級,引起非常多人的好奇跟討論,為什麼要做這件事?這次就來把詳細的情形說清楚。

緣起

先來把這個客戶的儲存設備背景資料做個介紹:

客戶是2010年買的Nexenta,一開始只是買小量的16 TB;為了效能的考量,所以我們選擇用單顆是1TB的硬碟,並且把這16顆硬碟規劃成一個儲存池(storage pool),姑且我們叫他 vol1 ;用了大約3年之後,空間不夠了客戶希望在擴充這個機器的使用空間,所以我們就再擴增了16 TB,但這時候的1TB硬碟已經很難買到。所以跟客戶討論完之後,我們改用單顆2 TB的硬碟作為新的儲存池,姑且我們叫他vol2,就這樣一路用到去年。

發想與難題

年初因為客戶的機器用了7年,有些原有的設備廠商已經不再維護,例如硬碟櫃;在跟客戶討論完之後,我們就決定了請客戶買一套新的儲存,我們把原先所有的資料轉移到新的儲存上,並且控制最短的停機時間,讓RD的工程師不至於因為資料轉移而造成太大的工作停止負擔。

準備

新的儲存是一座48 TB的儲存,用的是單顆2TB的硬碟做成一個儲存池,姑且我們叫他 vol;這時候問題來了,我們要怎麼樣達到新舊儲存設備切換可以控制在一個小時之內完成?因為這除了牽涉到新舊儲存設備的更換,還有是客戶端的NIS主機上面帳號以及設定的切換。資料的轉移部分,我們是使用自行開發的VRP程式,除了可以快速的把資料轉移到另一個設備去以外,還可以接續上次傳完之後,跟下一次的資料轉移中間的資料異動差異,VRP只有傳遞轉移的異動區塊,就可以把所有異動的資料,轉移到第二座儲存,這也是為什麼這個客戶可以在一個小時之內,把所有資料轉移的事情做完的主要大功臣。

實作與驗證

實際的操作過程中,很順利的我們最後一次的資料轉移,總共花不到20分鐘。當然在這20分鐘內,我們把所有的工程師的連線全部都斷線,以避免RD工程師再有新的資料寫進舊的儲存設備去。在做完最後一次異動的資料轉移之後,我們接著把所有客戶NIS的設定做完修正之後,重新派送,再把原本舊的儲存設備的網路實體連線到新的儲存設備去,整個的轉移就完成了!! 轉移的過程前前後後其實不到30分鐘,再把環境的驗證跟資料的驗證時間加起來,全部就是在一個小時之內完成,達成了客戶希望我們在一小時之內完成的目標。

如果你對VRP的使用還是有問題,可以請你去參考我們另外針對VRP所寫的一篇。

https://infowizeblog.wordpress.com/2017/04/22/%E8%B3%87%E6%96%99%E5%BF%AB%E9%80%9F%E4%BA%A4%E6%8F%9B-vrpvolume-replication-package/

資料快速交換 – VRP(Volume Replication Package)

自己的程式自己寫!

在我們接觸的客戶環境底下,很多時候是需要提供一個高速、安全、穩定的資料備份或者備援方案;而且客戶的資料動輒幾TB,或者是幾十TB,檔案的數量更是異常的多,從一兩千萬個到幾億個都有,再加上為了即時的資料救援而作的資料快照,總數加起來更是不得了!傳統的檔案複製或者是備份的方案,都已經沒有辦法符合。為了這樣的需求, 我們也花了非常非常多的精力與時間在尋找與測試,於是有了 VRP 的開發!

一般市售的儲存設備,對於自身的資料保護或者是備份,都有一定的方案;但是如果碰到是異機或者是異種平台,大部分的設備多只是支援自家的資料互相備份,而且很多還是只能以檔案的格式做資料複製,當檔案數量非常多的時候,這樣的方式就會造成非常大的系統的負載,不只降低的原有儲存設備的效能,同時也降低了資料複製的可靠性。 而比較高階或者是一些進口品牌,就會有自己額外的資料複製方式,通常是以區塊格式做資料複製,如 NetApp 的 SnapVault 或 SnapMirror,EMC 的SnapView 等。而這些設備,有的時候會因為原有自身系統資源不足,而導致資料的複製速度異常的慢,甚至失敗;也有些時候會因為儲存系統本身的新舊韌體版本不相容而導致失敗。我們為了能夠解決像這樣的問題,同時為了能夠跨不同的平台,於是開始開發VRP,讓VRP能夠在 TrzeNAS 與 NexentaStor ,甚至未來新開發的 SDS(Software Defined Storage)上快速地交換資料。

VRP是一個可以跨NexentaStor與TrzeNAS的資料交換神器,VRP是威傑科技在NexentaStor以及TrzeNAS上面獨立開發的一個拿來做資料交換的工具。我們可以很輕易的在NexentaStor把一整個Volume,或者是一個Folder,或者甚至是一個目錄,拿來做快速的資料搬移到另外一台NexentaStor或者是TrzeNAS,反之,從 TrzeNAS 上也可以作相同的事情到 NexentaStor 或另一台 TrzeNAS。VRP的使用有什麼樣的好處?VRP的資料交換是只會傳遞異動的區塊,所以它可以利用很小的頻寬,傳遞非常大量的資料。也因此他可以拿來做非常有效的資料備援,或者是備份的機制。以下是我們的一個客戶實際案例

Himax case study

VRP是利用NexentaStor 或 TrzeNAS的內部引擎,可以快速識別兩個副本之間的文件和目錄差異。通過查找兩個副本之間的差異,避免了傳統備份軟體在增量備份期間對差異文件的掃描過程,將備份處理的資料區塊轉移到另一座NexentaStor 或 TrzeNAS儲存,減少了對新增和異動資料處理所需的時間。實際的客戶使用經驗來看,備份的時間可以大幅減少到約只有原本備份時間的二十分之一,異動資料的傳輸量約只有原本備份資料的0.1%。除此之外透過VRP傳遞過去的資料,是完整的檔案;當使用者不小心誤刪了原有的檔案,系統管理員可以直接從另外一台儲存設備上直接把檔案複製回來,大幅提高了資料的可用性,降低了系統的錯誤率,即使是人為的錯誤。

VRP也可以使用在新舊設備的資料交換上。客戶使用的設備年代已久,硬體廠商已經不再支援的情況下,客戶要用新設備去替換掉原有的舊設備,如何能夠降低客戶在做新舊設備更換時候所受到的影響, 就是一個非常重要的課題了。先前的幾個客戶系統轉移的經驗,25TB的實際使用量,可以在一小時內完成設備的更換;最近一個新的專案正在進行中是36 TB的使用量,預計也是在一小時甚至30分鐘內要完成設備轉移 。

儲存設備的快照真的不能拿來當純備份嗎?

之前我PO的一篇文章提到,儲存設備的快照不應該拿來當成備份使用;但是儲存設備的快照,真的不適合拿來當備份用嗎?當然不是這樣的!! 但是儲存設備作快照份數多,真的一定要把主要的儲存跟備份用的儲存分開!!

實際案例

以下分享一個我的客戶,實際上如何透過兩種不同的儲存以及快照技術,來達到本機備份備援,以及異地/機備份備援的方式,如下圖一:

Himax case study
(圖一:客戶主要儲存與備份設備架構圖)

如上圖示可以看到,這個客戶在台北、新竹跟台南三個點都各有一個大的辦公室,每一個點辦公室的主要儲存設備,都是我們公司的NexentaStor,作為他們研發人員設計工具產出的資料主要目的地。但是人總有不小心的時候,而且這一個客戶又是一家上市公司,基於各方面的規範,他們必須要做到本地備份以及異地備份,來應付日常研發人員的工作需求,以及上市公司的規範。 但是作為備份的設備,一般的規劃都會是一個冷資料儲存的裝置,大部分都會選擇用磁帶作為備份的設備。但是磁帶的備份曠日費時,尤其是在資料需要回存的時候,時間更是一個最大的考量;同時資料回存的時候,如果需要回存的資料量非常龐大,對於主要的儲存設備,需要挪出額外的空間又是一個很大的負擔。 為了解決備份問題,同時考量設備可以有最大的使用性,因此,我們跟客戶提出用我們公司的另一產品 TrzeNAS 當成備份及異地備份的儲存設備。這樣的設計,可以達到

  1. 資料的快速一致性。
  2. 資料的高度可用性。
  3. 快速地資料複製。
  4. 無痛地資料回存。

 

透過我們開發的 VRP(Volume Replication Package),可以快速地把資料在本地端備份,並且在很短的時間內立刻複製一份到另一座 TrzeNAS,然後再快速地複製到異地的 TrzeNAS 上,立刻達成了D-D-D 的3(份)D備份效果。因為資料都是在 Disk 上,所以當使用者不小心誤刪了資料時,可以非常快速地從 Disk 上回復,實際測試,平均一分鐘可以回存約200GB到500GB的資料量,甚至到TB等級的資料;由於是由 VRP 執行資料備份作業,在本地端幾乎可以達到與主要儲存設備備份資料無時差;又因為全部是在 Disk 上作業,當資料需要回存時,並不需要額外的儲存空間來儲放回存資料。

 

 

 

何謂 VRP (Volume Replication Package)

VRP是利用 Nexenta 與 TrzeNAS 的內部引擎,快速識別兩個Snapshot副本之間的文件和目錄差異。通過查找兩個Snapshot副本之間的差異,避免了傳統備份軟體在增量備份期間對差異文件的掃描過程,從而將備份處理的資料區塊轉移到另一座Nexenta 或 TrzeNAS存儲,減少了對新增和異動資料處理所需的時間。實際的客戶使用經驗來看,備份的時間可以大幅減少到約只有原本備份時間的百分之一,異動資料的傳輸量約只有原本備份資料的0.1%

儲存設備的快照是否可以拿來當成備份用途?

快照不是免費的!!!!

快照不是免費的!!!!

快照不是免費的!!!!

因為很重要,所以要說三次!

很多人以為快照是一個備份的方案,其實快照並不是用來作備份的。我們俗話說,救急不救窮,快照就是屬於救急的一個方案。你想看看如果你的檔案,被使用者不小心刪除了,而且刪除的檔案是一、二千個,簡單說就是一個目錄,那你要怎麼樣可以快速的把使用者的檔案存回到他的原本目錄去呢?這時候快照就派上用場了! 快照就像是時光回溯機一樣,你可以在不同的時間點,根據不同的用途去做檔案系統的快照。但是既然他是快照,就是有所謂的使用期限的;換句話說,你在短時間內的檔案這個是有效益的,放長的時間來看,這就是一個無效益的檔案,所以他跟備份是一點關係也沒有的。

錯誤的示範

然而很多人卻誤解了快照的用意。反正快照的處理方式非常快速,而且非常的精簡,他可以用大約不到原始檔案的千分之一空間,儲存跟原本一模一樣的檔案數量與容量 ,於是在小聰明的MIS管理下,快照就成了備份的一個項目了,而且只有這個備份。這就造成的像我的一個客戶的實際案例,如下圖一:

GMT snapshot usage

(圖一:folder 的總使用量與真正資料跟快照資料分別使用量)

 

各位可以看到,這個的總使用空間大約是13.3TB,真正的資料量其實還不到9TB, 有大約4.5TB都是快照佔用的空間。大家可能會覺得很奇怪,快照不是佔用的空間很少嗎?為什麼在這個案例中快照佔用那麼大的空間?那是因為這個客戶把快照當成備份在使用,他的快照的保留份數,日常的日快照保留90天,也就是90份。另外呢! 針對異動量很大的日間的工作目錄,他每個小時又做一份快照,而這一份快照一天24小時有24份,這樣的快照要再保留7天,所以各位可以算一下他的快照份數其實是超過400份。而且快照的期間是超過90天,當然他的快照使用空間會很大量!因為這是一個錯誤的使用,客戶應該是要把快照跟備份分開來!

GMT volume IO

(圖二:客戶的volume存取每秒資料存取量,並非是少量存取)

GMT snapshot hourly

(圖三:客戶的folder 異動量,並非是少量異動)