自分の写真データを確実に守るための保管方法を考える
数年前までは写真の保存先といえば外付けHDDを使うというのが定番でしたが最近では、NASやクラウド、デジタルフォトアルバムなど様々なストレージが登場しています。
これらの新しい(最近使われることが多くなってきた)ストレージは自動でアルバム化してくれたり、写真を共有するのが便利になったり、バックアップの支援機能が付いていたりと外付けHDDに比べて様々な便利機能が付いているのですが、データの安全性は何が一番なのでしょう?
そこで今回は「データの安全性」に着目しながら、個人レベルで大量の写真データ(1TB以上を想定)を安全に管理していく方法について、データ損失率などのシミュレーションをしながら私の実際の運用方法も踏まえて考えてみようと思います。
結論から言えば1つのストレージ(RAID構成だったとしても)だけで管理するのではなく、必ず2つ以上の方法を組み合わせてバックアップをしながら使う事が大事です。1つのストレージで管理することの危険性や組み合わせる機器はどんなものがよいの?ってことも考えてみます。
趣味や仕事で日々大量の写真を撮る人向けを想定しているので中~上級者向けの内容になるかと思います。もっと手軽に写真を管理したいという場合は下記のエントリーなんかも参考にしてみてください。もちろん、写真に限らず動画などのデータ管理している人にも。
今回の記事、文字ばっかりなのに非常に長くなってしまいました。覚悟して読んで下さいw
写真はどこに保管するのが一番安全なのか?
今回は1TB以上の大容量データ(RAWデータや動画含む)を管理していくことを想定しているため、保管先のストレージとして外付けHDDとNASをメインに考えつつ、補助的にクラウドストレージを使うことを想定しておきます。
バックアップ無しは論外
この記事を読んでいる方なら大丈夫かと思いますが、バックアップ無しで大事なデータを運用するというのは問題外です。
データが飛ぶのが怖いからNASやデータセンター向けの高級HDDを使って安心している人がたまにいますが、どんな高級なHDD(SSD)を使っても壊れるときは壊れます。単に確率が低いだけです。どんなHDDでも壊れた場合はデータがゼロになります。(HDDの復旧サービスで運良くデータを取り戻せる場合もありますが、10万とか20万は軽く飛んでいき完全に戻る保証もありません)
消えては困る大事なデータは必ずバックアップを作り、「二重以上の状態」を保ちながら保存するのが大事です。
RAIDやNASも単体運用では完璧じゃないよ
さすがにバックアップ無しで安全だと思う人は少ないですが、意外と多いのはRAID(レイド)や(RAIDを構築した)NASを使って管理していればデータの安全性は完璧だと思っている人です。
HDD単体運用に比べればかなり安全性は高まりますが(後述)、これも本来のバックアップとはちょっと意味合いが違ってきます。RAIDの詳しい説明は割愛しますが、普通の人が使うRAIDのモードはRAID1とRAID5の2つです。ざっくり説明するとこんな感じ。
RAID1は2台のHDDを1セットとして運用し、まったく同じデータを2台のHDDにミラーリングしながら保管する方法。片方のHDDが壊れてももう片方のHDDに同じデータが残っているのでデータ損失の確立が極めて低い方式です。RAID1の運用であればデータは常に二重の状態なので非常に安全性が高いです(一方でHDD容量の効率が50%と低い)。
RAID5は3台以上のHDDを1セットとし、データをすべてのHDDに分散して保管しつつ、どれか1台が壊れてもいいように、保護用のデータ(パリティ)をそれぞれのHDDに分散して保管しておく方法です。通常は4台以上のHDDで構成することが多く、そのうち1台のHDDが壊れたとしても、(4台構成なら)残り3台のHDDに保管されているパリティを使って失われた1台のHDD情報を復活させることができます。データを複数のHDDに分散して読み書きするためデータ転送速度が速くなるメリットもあります。
RAID1、RAID5以外のRAID
データの安全性を高めるために使われるRAIDのモードはRAID1、RAID5が一般的ですが、例えばRAID5の2台まで壊れても大丈夫バージョンのRAID6などいくつか種類があるので興味があれば調べてみましょう。
また、RAIDは基本的にすべてのHDDを同一容量、同一機種のHDDで揃える必要がありますが、メーカーによっては異なる容量のHDDを使ってRAID(と同様のシステム)を組めるものもあります。SynologyのSHR(Synology Hybrid Raid)やDroboのBeyond RAIDなどが有名。SHRは私も使ってますが、別容量、別メーカーのHDDが使えるのでお財布にも優しいです。
RAID5は復旧時がウィークポイント
NASは2本以上のHDDを使うものが多くデフォルトではRAID構成で使うことになります。(違う設定にもできる)
中でも特に注意したいのはRAID5での運用です。HDD容量も効率的に扱えるし、データの冗長性もある(HDD1台までなら壊れてもデータなくならない)のでそれだけで完璧だ!と思ってしまいがちですがRAID5にも欠点があります。
RAID5運用で1台のHDDが壊れてしまった場合、そのHDDを新しいものに入れ替え、残りのHDDに分散して保管してあるパリティを使って新しいHDDを含めてデータの再構築(リビルド)をするのですが、このデータ再構築はすぐ終わるものではなく、最近の数TBクラスのHDDなら24時間以上かかることを覚悟しなければなりません。
リビルド中はHDDが常に稼働してデータの読み書きをしているため、HDDにかかる負荷もいつもより大きめ。万が一この24時間の間に残りのHDDに異常が生じてしまうとRAID崩壊という最悪の状態となり全データ喪失に繋がります(業者に頼んでも復旧できる保証はなく、通常のHDD故障よりもさらに高額)。諸刃の剣という感じですね。
RAID5はデータ二重状態ではなく、1.5重くらいのイメージだと思っていた方が良いです。
---
ということですべてのストレージにはメリットだけでなく、デモリットもあるよということを理解して、自分の環境に合った保管先を選ぶ必要があります。
NASと外付けHDDはどっちが安全なのか考える
TBクラスの大容量の写真の保管先として個人で使うために現実的なのは外付けHDD(or 内蔵HDD)かNASでの運用だと思うので、外付けHDDとNASを組み合わせた時のメリット(運用の楽さ、コストなど)とデータ損失リスクを簡単に見積もってみようと思います。
10TBのデータを保管する最適なストレージ構成とは?
ざっくりした条件ですが、今回は計算を簡単にするために
という仮の条件を作って考えてみます。
1/3,000というのは3,000日に1回必ず壊れるという意味ではなく、1日1回、3,000枚入りのカード(2,999枚がアタリ、1枚がハズレ)から1枚引いて、アタリが出ればセーフということ(カードはまた戻す)。出現率1/3,000のガチャを毎日回すということですね。
5年で46%のHDDに異常がでる設定
確率1/3,000だと、1年運用したときにHDDが死ぬ確率は”毎日アタリを引き続ける以外”なので「1 - (2,999/3,000)356」。約11%の確率でHDDに異常が出る計算となります。2年で22%、3年で31%、5年で46%、10年で70%の確率でHDDが壊れます。運がいい人なら10年間毎日アタリを引き続けられますが、運が悪い人だとHDD運用開始日からハズレを引く(HDDが死ぬ)可能性もあるということを理解しておきましょう。
はじめの1~2年の故障率は実際より高めな気がしますが、5年で半分くらい異常がでるというのは常時HDDを使っているなら結構肌感覚に近い気がします。たまにしかHDD使わない(or 低負荷で使う)人の場合もっと確率低くなるでしょうが。(現実的には経時で故障率は上がるだろうし、運用環境によっても異なるのであくまで仮の条件として話を進めていきます)
保管するデータのサイズは10TBで、コスパの高い4TBのHDDを使う事を基本にして考えてみます。NASは4ベイの入門機を使うことにしましょう。
実際にはHDDの故障以外のリスクもありますよ
今回はHDDの故障によるデータ損失を中心に考えていきますが、データ損失が起きるのはHDDの故障だけとは限りません。
例えば、外付けHDDの電源や基板で障害が生じて運悪く読めなくなったり、NAS本体が壊れたりとか、棚から落ちて物理的に壊れるとか。(外付けHDDの基板やNAS本体が壊れただけなら、HDDの中身は無事なことが多いです。HDDだけ取り出して直接読み出したり、別のNASに付け替えれば復活できる。運悪く中身も死亡することもあるけど)
また、それより多いのが人為的な操作ミスでしょうか。障害が起きたことに動揺して正常なデータを消してしまったり、アプリケーションの設定を間違っていたり、RAID構成で安心しきっていて1本目のHDD故障に気付かなかったりなど、操作が煩雑になるほど人為的なミスが入り込む余地が大きくなりますのでご注意を。
追記:ウイルスやマルウェアによる被害も
ランサムウェアによる被害もあるよねっという話もチラホラ聞こえたので追記しておきます。ランサムウェアは一時期話題になったWannaCryなど、コンピューターウイルスの一種でPCのデータをすべて暗号化して読み出せなくしつつ、解除して欲しければ身代金を払えというやつです。こういう被害もデータ損失とほとんど同じ状態になってしまいますね。本文中にもいくつか追記しています。
今回の計算はあくまで思考実験
今回の「どっちが安全?」については(仮の条件を元にした)HDDの故障のみを考えた思考実験ということでよろしくお願いします。(記事内ではHDD以外のリスクについてもある程度言及していますが)
普段漠然と考えているデータの安全性をある程度数字で見えるようにしてみようというのが趣旨です。
あと、確率の計算は結構ざっくりで見落としている条件などあるかもしれないのでご容赦を。しっかり計算したら数倍程度の誤差はあるかもしれなけど、10倍とか100倍の誤差は無いと思うというレベル。あくまで参考程度にお楽しみくださいませ(重大なミスがあったら教えてください。統計もっと勉強しておけば良かったw)
1.HDD単体で運用する場合
まずは基本的にやっちゃダメなHDD単体(バックアップ無し)での管理を行う場合を考えてみましょう。
10TBのデータを格納するのに必要なHDDは4TB x 3本です。だいたい4TBのHDDは1万円ちょいですので必要なコストは3~4万円。3台程度なら常時PCに繋ぎっぱなしでも大丈夫な数ですので運用も非常に楽ちんです。
【Amazon.co.jp限定】WD HDD 内蔵ハードディスク 3.5インチ 4TB WD Blue WD40EZRZ/AFP2 SATA6Gb/s 5400rpm 2年6ヶ月保証 (FFP)
損失リスクは1/1,000
データ損失リスクは故障率1/3,000のHDDが3つですから、あなたが明日どれかのHDDのデータを失うリスクは1/1,000です。(「1 - (2,999/3,000)3 ≒ 1/1,000」)
1年とかでなく、「明日」壊れる確率が1/1,000ね。
10年運用すれば97%の確率でデータロス
安いし運用も楽ですが、1/1,000の世界で1年運用してデータ損失する確率は「1-(999/1,000)^356」なので31%、2年で52%、3年で67%、5年で84%、バックアップなしで10年運用すると97%の確率でどれかのHDDは死亡する計算です。
HDD単体の故障率が1/3,000だとかなり低いように思えますが、HDDが増えると故障率は上昇することを理解しておきましょう。(すべて稼働中として)10台のHDDを使っているなら明日どれかのHDDが壊れるリスクは約1/300。1年以内にどれかのHDDが壊れる確率は70%です。
ヤバいでしょ?
台数が増えればミスも増える
5台、10台とHDDの台数が増えていった場合、常にパソコンに繋いでおくことも難しいため、HDDの抜き差しが増えたり、バックアップ操作が煩雑となるため人為的なミスが入り込む余地も増えてきますね。
2.NAS(RAID5)単体で運用する場合
次は4ベイのNAS単体(RAID5構成)で保管する場合を考えてみます。
4ベイNASで10TBのデータをRAID5で格納する場合、4TBのHDDが4台必要です(12TBぶんの容量を使える)。*既に10TBのデータがあるなら最初から6TBx4くらいの余裕が欲しいけど
必要なコストはHDD4台分の4万円と、NAS本体の価格。4ベイNASも最近は入門モデルも出ていて、だいたい3万円くらいから。トータルで7万円程度のコストです。
HDDをNAS専用の高級なものにするともっと高くなりますが、個人レベルで使うなら普通のHDDでも十分な感じがしています(個人的に普通のとNAS用のを両方使って試してるけど数年使って今のところ普通のやつでも不自由してない)。
【Eコマース限定モデル】NETGEAR ReadyNAS 214 4ベイ デスクトップ型 Diskless 【3年保証】家庭用 個人 SOHO RN21400-100AJS
NAS本体のコストがかかってしまいますが、NASにデータを入れておくとデータの冗長性を作れるだけでなく、複数端末からの共有や、外出先からのデータ参照、さらなるバックアップの自動化など多くのメリットがあります。
NASって何?という人はこちらもどうぞ
損失リスクは1/562,500
RAID5なので明日1台のHDDが壊れてもまったく問題ありません。夜も安心して寝られます。ただし、ある日突然NASから聞き慣れないビープ音が発せられて、異常である事に気付きます*。HDDの故障が発生した合図です。
*NASの場合、軽微な異常を早期に察知してHDDが壊れる可能性が高まっているとお知らせしてくれる事もあります(もちろん前触れ無しに壊れることもある)。私の使ってるSynologyのNASだとS.M.A.R.T情報を見てHDDの健康状態を常に監視してくれています。
ビープ音が発せられてかなり焦りますが、まだこの状態ではデータが失われていないし、システムも稼働中。すぐに新しいHDDを用意してリビルド(データ再構築)して元の状態に直せばまったく問題ありません。1台目のHDDが明日壊れる確率はHDDが1本増えたのでちょっと上がって「1-(2,999/3,000)4 ≒ 1/750」です。
データ復旧のスピードが勝負
もし手元に交換用のHDDを用意していてすぐに交換すると、リビルドにかかる時間を24時間だと考えれば、リビルド中にさらに別のHDDが壊れる確率は同じく「1-(2,999/3,000)4 ≒ 1/750」。これが失敗するとRAID崩壊起こして全データ喪失すると考えれば結構現実的な数字です。
現実的には交換用のHDDが手元にない場合の方が多いでしょう。Amazonお急ぎ便で1日余分にかかった場合はHDD3台で運用しているので、その間の24時間の故障率は1/1,000。リビルドと合わせて復旧まで2日なら「1-{(999/1,000) x (749/750) }≒ 1/428」でリビルド失敗します。もし、モタモタして新しいHDD入手まで1週間かかったとすると、その1週間+復旧までにRAID崩壊する確率は1/120まで上昇します。
データ喪失するには最初の1台が故障してからさらにもう一台故障しなければならないので、すぐにHDDを入れ買えた場合で(1/750)2 = 1/562,500 、HDD入手まで1週間かかった場合でも約1/90,000なので個人で運用していればそうそう当たることはなさそうですが。
5,000人いれば96%の確率でRAID崩壊が起きる
単純にHDD故障の計算だけすればまず当たりそうもない確率になりましたが、1本目が壊れてから復旧するまでの数日というのはバックアップ無しで外付けHDDを運用しているのと同じ極めて不安な状況です。(バックアップなしでHDD運用というのはこの状態が毎日続くので正気の沙汰とは思えません)
また、個人で運用していると1/562,500という確率はまず大丈夫だろうという感じですが、562,500日(1540年間)絶対にデータが飛ばないというわけではなく、毎日56万枚のカードから1枚引いて、1枚入っているハズレを引かないことを祈るゲームです。
10年でデータ喪失率2.1%
大きな数で考えてみるとこの数字はさらに現実味を帯びてきます。
4ベイRAID5運用中に1年以内にRAID崩壊する確率は「1-(562,499/562,500)365 ≒ 1/1,540(0.065%)」です(障害時にすぐにHDDを取り替えた場合)。このまま10年運用するとデータを失う確率は0.65%になります。
もう少し現実的に、新しいHDDを準備するのに3日、その後リビルド(復旧まで計4日)とすると、明日の障害が原因でRAID崩壊する確率は約1/173,000。1年だと0.21%、10年だと2.1%です。
このくらいの確率なら許容できるという人もいるかも知れませんね。10年運用して98%はOKということはRAID崩壊するよりNASのほうが先に壊れる確率の方が高そうです。(NASだけ壊れるなら中のデータは生きていることが多いはず。運悪く死ぬこともあるけど)
大きな数で考えてみると…
もっと人数を増やしてみましょう。
もし100人のカメラマンが4本のHDDでRAID5オンリーで運用していると、予備のHDDを準備して万全な体勢をとっていたとしても、そのうち最低1人が「1年以内に」RAID崩壊崩壊する確率は約6%、1000人なら48%、5000人が運用していると96%の確率でどこかのカメラマンは涙をのむという計算になります。(私の計算が正しければ…)
日本のプロカメラマンだけでも数万人いるはず。仮にこの人たちが全員RAID5オンリー運用すると(計算上は)結構な人が1年以内にデータを全損失させることになり万全とは言えない感じです。
RAID5のみの運用はバックアップ無しのHDD運用に比べれば遙かに安全ですが、完全ではないことに注意しましょう。
一つのミスで全データ喪失は辛い
しかもRAIDの場合、復旧中に他のHDDが死亡すると全データ喪失になる可能性が高いです。
障害時にたった2~3日とはいえ1つのミスでデータ全喪失が起こる可能性があることを考えれば仕事で扱うような重要データを保管する用途としてはRAID5オンリーというのは個人的には不安が残ります。私ならリビルド中不安で寝れないと思うw(HDD単体運用に比べれば遙かに安全ではありますが)
RAID5はバックアップではなく、無停止でデータ管理体制を維持できる便利ストレージくらいの認識を持っていた方が良いかも知れません。
現実にはコストの問題もありますし、この確率を見て納得できるかどうかを考えてみましょう。
ちなみに、年末ジャンボ宝くじで100万円当たる確率が1/100,000らしいです。
3.HDD2台 or 2ベイNASでミラーリングして運用する場合
次に、NASを使わず、HDD2台1組としてミラーリング(同期)しながら使う場合を考えてみましょう。2ベイNASのRAID1もほぼこの状況と言えます。
10TBのデータを保管するのに必要なコストは本番用HDD(4TB)が3本とバックアップ用のHDDが3本の計6台。計6~7万円のコストです。HDDの容量効率が50%なのでHDDのコストがかさみます。4ベイNASよりちょっと安い程度ですね。
あまり現実的ではないですが、2ベイNASをRAID1構成にして3台使うのもアリでしょう。(6ベイNASで2台1組x3で運用することもできる)。コストはHDD6万円に2ベイNASが1台2万円x3なので計12万円ほど。
損失リスクは1/3,000,000
損失リスクは6台のHDD中、明日最初のHDDが壊れる確率は1/500です(すべて稼働中とする)。1年間運用していていずれかのHDDが壊れる確率は52%です。
すぐに交換用HDDを使ってミラーリングを復活させるとすると、この場合は単純なデータコピーでバックアップは復活しますね。
仮に100MB/sでデータをコピーすると4TBのコピー完了までに約12時間かかります。壊れたHDDと対になっているバックアップ用HDDがこの半日の間に壊れる確率を1/6,000とすると、よっぽど運が悪くない限りデータ損失は回避できそうです。
HDD2台でミラーリングしていて、障害時すぐに対応出来るなら明日データ損失を起こすのは約1/3,000,000です。(実際には復旧中に関係ない他のHDDが壊れることもあるのでもう少し確率は上がると思うけど無視することにするw)
1年以内にデータを失う確率は1/8,200(0.012%)。同じ状況で10年運用してもデータ損失リスクは0.12%。50年運用して0.61%なのでかなり安全性が高まりました。
しかも、運悪くデータ損失を起こしてしまっても、残りのHDDの中に残っているデータは分離された状態で残ったままです。万が一の事態でもデータ全喪失が起きないという安心感はありますね。
もちろん、1台目のHDDが壊れて、バックアップを作り直しているのをモタモタしていればその間はバックアップ無しの状態なのでリスクはどんどん上がっていきますが。
30,000人いると97%の確率でデータ喪失
さすがにここまで来ればまず大丈夫たと思うかもしれませんが、大人数で考えてみると結構現実的な数字になります。
2台のHDD同期では1年以内にデータを失う確率は1/8,200なので、100人が同じことをすると1.2%、1000人だと8.7%、10,000人だと70%、30,000人だと正しくバックアップしていても97%の確率で最低一人はHDDの故障が原因で涙をのむ計算です。1年以内にね。
ここに操作ミスなど他の要因も入ってくるのでマクロで考えるとかなり大きな数になりそうです。
日本の写真撮っている人の主流のバックアップ方法はこれだと思いますが、写真人口が数百万人だとすると正しくバックアップしていても年間でかなりの人がデータ喪失を経験する計算です。
人為的ミスとタイムラグが心配
この計算はミスなく運用者が完璧なバックアップ操作を行った場合の値です。HDD同期を手動で運用する場合、ミラーリング用のアプリケーション(FreeFileSyncなど)を自分でインストールし、正しく設定しながら同期させ、障害時も自分で復旧しなければなりません。
Free File Syncの使い方はコチラでどうぞ!
PC操作に慣れている人なら問題なくこなせると思いますが、HDDの台数も多くなりますし、不慣れな人だとアプリケーションの設定をミスって正常なデータを消してしまったり、同期が取れていると思って放置してたら実は数ヶ月前から同期が止まっていたことに気付かなかったり、障害時に慌てて誤った操作をしてしまうなど、人為的なミスが発生する要因が非常に多いことに注意しましょう。(慣れていない人の場合、操作を誤る確率はHDDの故障率よりもずっと高いと思います)
また、RAID1でなければリアルタイム同期はちょっと難しいので、1日1回のバックアップだとするとその24時間の間に入ってきたデータはバックアップ無し状態なので、プチ喪失する確率はグッと上がります。
HDD故障によるデータ損失の確率だけ考えれば、コストも低いし個人レベルならとりあえずここまでやっておけば通常は十分(ただし多少PC周りの知識は必要)という感じでしょうか。
4.NAS+外付けHDDで運用する場合
つづいて、メインストレージをNASにして、バックアップデータをHDDに保管する場合を考えてみましょう(逆でも良いけど)。
通常、NASにはUSBポートが付いていて、外付けHDDを接続しそこにバックアップデータを保管することができます。また、NAS専用のアプリケーションを使って自動でスケジューリングしながらバックアップできるため、初心者にも比較的優しいシステムです。
かかるコストは4ベイNAS+4TBx4で約7万円、バックアップ用に6TBのHDDを2台使う事にすると、1.5万x2で3万円程度、トータルで12万円くらいのコストです。(4TBx3でも良かったですが、4ベイNASのUSBポートは2個なことが多いので)
WD HDD 外付けハードディスク 6TB USB3.0 ハードウェア暗号化 自動データバックアップ 3年保証 My Book WDBBGB0060HBK-JESN( PS4 / PS4pro 対応)
損失リスクは77万年に1回
NASに障害が生じて明日RAID崩壊を起こす確率は、HDDをすぐに入れ替えた場合で先ほど同じ1/562,500です。これでもまだバックアップ用6TB HDDにデータが残っているので復旧可能。
これら残った2つの6TB HDDのいずれかが故障する確率は1日あたり約1/1,500です。バックアップデータを再びNASに戻す作業に3日かかった場合、作業中にバックアップデータが喪失する確率は1/500。明日RAID崩壊してさらにバックアップも死ぬ確率は1/562,500 x 1/500 ≒ 1/281,250,000(77万年に1回)となり、HDDの故障だけ考えるなら完全に無視しても良いくらいの確率になります。
NAS+外付けHDDなら10年運用してHDD故障が起因のデータ損失は0.0013%、100年でも0.13%です。とりあえずここまでやっておけばお仕事レベルでもかなり安全といえそうです。
しかもNASにデータが入っていれば複数端末での共有など別のメリットもあるのが嬉しいところ。
100万人レベルだと泣く人が出てくる
ただし、こんな77万年に1回くらいの確率でも100万人が同じ方法で作業をすると最低1人は1年以内に73%の確率でデータ損失を経験します。
ちなみに、年末ジャンボ宝くじで1等7億円が当たる確率が1/20,000,000。
ランサムウェア対策もできる
ランサムウェアに感染する場合パソコンが感染することが確率としては一番大きいと思います。このとき、PCから見ることのできるドライブはNASであっても感染対象になり得るのですが、NASに繋いだ外付けHDDは設定次第でPCから隠すことも可能です。
そこにバックアップを作ればランサムウェアの魔の手から逃れられる確率はグッと上がります。さらに、数世代分のバージョン管理をできるとさらに良いですね。もっと大事なのは変なメール開かない、PCやNASのOSを最新版にしておくということですが。
5.NAS+NASで運用する場合
メインストレージをNAS(RAID5)にして、バックアップもNASにした場合は当然ながらさらに安全になります。NASを2台揃えるとなると初期投資も大きくなりますが、より高性能なNASに更新したタイミングに、古いNASはバックアップ専用にしてしまうといったことも考えられるでしょう。
同じメーカー同士のNASなら専用アプリケーションで高度な連携ができることも魅力です。
損失リスクは8億7千万年に1回
NAS単体のRAID崩壊確率が 1/562,500なので、二つのNAS(RAID5)が続けて死ぬ確率はだいたい1/316,000,000,000くらいで、8.7億年に1回くらいの確率です。 もうこうなると人類が1回滅んで新人類が生まれてもう一回滅ぶくらいの間安全にデータ運用ができそうですw
このくらいの確率になってくると、100万人がこの方法でデータ管理を運用していてもHDDの連続故障によって一人以上が1年以内にデータを飛ばす確率は0.1%です。1億人運用しても1年以内にデータを飛ばす人が出てくる確率は10%。このレベルに当たってしまったらもう流石に諦めるしかないという感じですね。
6.外付けHDDで3重バックアップ
これまでは2つのストレージでバックアップをとることを考えてきましたが、HDDで3重バックアップ状態を作るのもアリでしょう。RAID1のNAS+外付けHDDのバックアップもほぼ同じです。
2台のHDDは常時通電させて同期させておき、もう一台は1週間や1ヶ月に1度の頻度でバックアップさせるといったことをすれば、3台目のHDDの寿命はさらに延びるでしょう。NAS+NASに比べればコストがかからないのも魅力ですね。
10TBのデータを4TBのHDDで3重バックアップするには3x3の9台のHDDが必要です。初期コストは9~11万円くらい。
損失リスクは3,200万年に1回
この9台のうちいずれかが明日壊れる確率は1/334。HDD2台と同じようにすぐに新品HDDと取り替えて、12時間かけてデータを移した場合、この間にのこり2台のバックアップ用HDDが同時に故障する確率は1/36,000,000。よって、3台のHDDで3重バックアップしていて、HDDの連続故障でデータが無くなる確率は1/12,000,000,000(3,200万年に1回)。(他のHDDの故障は考えないことにする)
NAS+NASには敵いませんがこのレベルでもHDD故障によるデータ損失は無視して良い感じです。(計算合ってるか自信なくなってきたけど...)、
7.外付けHDD+クラウドでバックアップ
10TBのデータでバックアップ先をクラウドにするというのはかなり大変ですが、不可能ではないレベルにはなってきているでしょうか。Amazonプライム会員なら今のところAmazon driveのプライムフォトがRAWでも無制限で使えるため、理論上は10TBのデータを無料でクラウドに入れておけます(アップロード完了まで数週間単位でかかりそうだけど)。
プロバイダのアップロード制限にさえ引っかからなければHDD3台分のとプライム会員費(年間4,980円)でバックアップ環境が作れます。しかもクラウドの場合、専門のエンジニアがデータの冗長性を確保してくれているはずなので、突然のデータ損失リスクはほとんど考えなくて良いでしょう。(サービス停止リスクは十分あり得るけど大手なら半年とか1年前から告知してくれるはず)
有料のクラウドサービスを使う場合は10TBで毎月5000円~1万円(年間5~10万円くらい)がコストの目安です。
クラウド周りの話は下記エントリーもどうぞ!
操作ミスに気をつけて
プライムフォトを使えば完璧にも見えるバックアップ環境ですが、クラウドからネット回線を使ってデータを引き出す場合、TBクラスのデータではDL完了まで数週間かかる可能性があったりと機動性に欠ける部分があります。
また、先日下のリンク先のような記事が話題にもなりましたが、同期アプリケーションの挙動をしっかり理解しておかないと操作ミスであっさりデータを失うといったことも十分考えられます。個人的には10TBクラスのデータのバックアップ先としてクラウドを使うにはあと数年先かなといったところ。
1TB以下のデータ量ならメインのバックアップ先として十分アリな気がしています。
他の損失リスクの方が遙かに大きくなるよ
NAS+外付けHDDやNAS+NAS、HDD3重での運用なら正しく運用している限りデータ損失に遭うリスクはほとんど無視しても良さそうです。
このクラスになると正しく運用していればデータ全損失することは考えにくいですが、ワリと現実的なのが雷などのサージ電流によるNASや外付けHDDなどコンセントに繋がっている機器全体に対する障害。また、データ書き込み中の停電なども考えられるでしょう。
電子レンジやドライヤー使いまくってブレーカー落としちゃうとかたまにありますよね。サージ電流が入ったり、書き込み中に停電が起きてもHDDのデータが必ず死ぬということではありませんが、可能性としてはあるのでご注意を。
UPSがだいぶ手軽になってるよ
これらのリスクにはUPS(無停電装置)を使うのが良いでしょう。例えば私の使ってるSynologyのNASはUPSと連動して自動で安全にシャットダウンできる機能がついていたりします。UPSを使う事でサージ電流にも強くなるります(完全には防げないらしい)。
かなり専門的な機器な気がしますがNASに使う程度のものだとAmazonで数千円で売っているので導入してみるのは悪くないと思います。私も7000円くらいで買ったCyberPower CP550JPを使っているのですが、わざとブレーカー落としてもぜんぜん大丈夫でした。7000円で雷の日の安心を買えるなら良い投資です。
Synologyだとスマホに通知もしてくれるのでUPS側に問題が起きるとお知らせもしてくれて安心。
火災に遭うリスクはRAID崩壊と同程度
どんなにデータをバックアップしていても、1カ所でバックアップをしていると家や事務所が火事になってバックアップもろとも死んでしまったり、洪水、津波などによってデータが一気に失われるリスクもあります。
例えば、2017年に東京都で発生した火災件数は4,205件(東京消防庁のHPより)。東京都の世帯数は2017年12月1日時点で約7,100,000世帯(東京都総務局統計部のHPより)だそうです。
明日あなたの家が火事になる確率は1/616,300。RAID5でデータ飛ばす確率とだいたい同じです。マンションなどで上下左右斜めの家が火事になる確率まで考えると約1/68,000で、NAS単体運用で1週間かけてのんびり復旧させたときにRAID崩壊起こす確率より高くなります。(すべての火災が家で起きている訳じゃないと思うけど)
適切なバックアップをしている場合、実はこう言ったリスクのほうがデータ損失が高いといえるのかもしれません。実際に数年前、私の住んでいるマンションで火災が発生してヒヤッとした記憶があります。
最強のバックアップとは何か?
ここまで様々なパターンのデータ運用をシミュレーションしてみましたが、火災や洪水などのリスクも考えれば同一事務所内でのバックアップはHDD2台の同期、またはNAS+HDDで十分で、それ以上安全性を高めても事務所ごとやられるリスクの方が高い事が分かります。
これらの災害には1つのバックアップを遠隔地に置いておくという方法でしか対処できないので、同一事務所内ではバックアップは2重まで、もう一つのデータはクラウドか別の場所(実家、会社、貸倉庫など)に置いておくのがベストな選択になるのかと思います。
HDDで三重バックアップするなら3つめは遠くに置いておくのが良さそうです。
ぼくの考えたさいきょうのバックアップ環境
ということで、私は現在写真の元データなど絶対に消えては困るデータについては、NASをメインストレージにして、バックアップ先をHDDに設定して事務所内で管理。
さらに直近数ヶ月から1年程度のホットなデータはAmazon driveにもバックアップして、更新の少ない古い大量の写真データは別途HDDに入れて実家(北海道)に送ってます。
他にもスマホの写真を同期したりいろいろやってるのですが、私のデータ管理の中核に位置するのがNASです。
第三のバックアップはクラウドと実家に
事務所内で「NAS+HDD」とし、第三のバックアップは「クラウド(または実家にHDD送る)」といった体制なら、(Amazonのデータセンターがどこにあるのかわかりませんが)明日東京湾からゴジラが出現しても私の写真データはすぐに死ぬことがありませんw
写真データより私自身が死ぬ確率の方が遙かに大きいと思う。どうあがいたって100年に1回くらいの確率で死ぬからね、人間は。
事務的なデータなど元データに比べて軽く、データ変更の頻度も高いものは、以前メインで使っていた4ベイのNASをバックアップ専用にしてバージョン管理しながらバックアップしつつ、GoogleドライブやOneDriveにバックアップしています。
全部の写真データをNASにバックアップしないのはコスト的な問題。。
NASに集中させると便利
自分できちんと運用できる人ならHDD2台で同期しつつ、クラウドにもデータを上げるということを自動化できるでしょうからそれが最も低コストで楽な運用方法だと思います。さらに技術力のある人なら自分でファイルサーバー立てて運用した方がメリットあると言う人もいるでしょうか。
私も以前はHDDを複数使ってFree File Syncなどで自動同期させていたのですが、一昨年くらいからNASを本格的に使い始めてから、もうメインストレージはNASでいいやって思っちゃいました。私の写真データはすべてNAS(Synology DS1517+)に入っています。
自動化+監視が個人的には最強
NASにデータが入るとNAS専用のアプリケーションを使って、外付けでも、クラウドでも、パソコンでもあらゆるストレージと自動でデータ同期できるので超絶便利。メインのNASにさえデータ突っ込んでおけばあとは全部自動でNASがデータ管理してくれます(一部NAS - PC間でFree File Syncも使ってる)。
完全に自動でやってくれるというのがポイント。私は毎日決まったボタンを押すということだけでも面倒で「今日はいいか...」という気持ちになってしまうダメ人間なので、強制的に自動で決まった時間にバックアップしてくれるというのは助かるし、これこそコンピュータがやるべき仕事だと思います。
バックアップが失敗したとか、HDDに異常が出たといったアラートはアプリ入れればスマホにプッシュ通知してくれるし、メールでも教えてくれるのでミスを見落とす心配もかなり少ない。ネット経由からすべての写真データにアクセスできるので出張中の急な仕事対応もできるし。
10GbEも現実的になってきた
唯一、データの転送速度が有線のLANで繋いだときで約110MB/sとUSB3.0接続のHDDより遅いことがネックだけど、LightroomでRAW扱うくらいならほとんど問題ない程度の速度です。(4Kの動画編集やマルチトラック編集するならちょっと不足するかも)
最近は10GbEも身近になってきて、先日私もDS1517+に拡張カード差して10G化しました。10Gスイッチはようやく安くなってきたネットギアのGS110MX-100JPS。
Synology DiskStation DS1517+ メインメモリ8GB 5ベイNASキット CS6893 DS1517+(8GB)
NETGEAR スイッチングハブ ギガ 8ポート マルチギガ対応10Gアップリンク hub 永久保証 GS110MX-100JPS
ベンチマークとったらシーケンシャル900MB/s超えてて、SATA接続のSSDより速くて最高。
HDD同期運用よりコストはかかりますが、HDD増えすぎてゴチャゴチャしたり、うっかりミスって消す、手動の要素が多いといったデメリットを払拭できたので、私にとっては価値のある投資だと思っています。
ランサムウェアへの対策
上でも何度か触れましたが、PCの全データが暗号化されるランサムウェアへの感染対策を考えたときも1カ所にすべての写真を保管するのはかなりハイリスクです。PCに繋がっているストレージすべてに被害が及ぶので。
私の場合は実家にオフラインのHDDを逃していたり、PCからクラウドに上げるのではなく、NAS - NAS間でバックアップしたりとある程度対策をしていますが、この辺りはもう少し考える余地がありそうですね。
何より大事なのは変なメール開かない、PC、NASのOSを常に最新版にしておくといったことでしょうか。最近はNASに感染するランサムウェアも出てきているようなので、NASのセキュリティアップデートの頻度も結構重要です。
まとめ:様々なリスクを考えて環境構築しよう
ということでHDDの突然の故障に対するリスクについて、シミュレーションをしてみました。
普通の人であればHDD2台でのバックアップでもほとんどの場合問題無さそうですが、一本を遠隔地に置いておきたいと考えると、データ更新時に何度も別の場所からバックアップHDDを取り寄せて、更新してまた戻すということをしないといけないのでやや面倒。
HDDだけ使うなら、手元で2台同期で運用しておき、3つめのバックアップは別の場所に置いておき、年に数回HDDを取り寄せて中身更新というのが現実的な気がします。
外付けHDDだけで万全の体制を敷くならHDD3重は必要なのかなと。
NAS+外付けHDD、クラウドのハイブリッドがバランス良い
個人的に最も効率が良いと思っているのはRAID5 NAS+(外付けHDD+クラウド)ハイブリッド方式で、自宅(事務所)内ではNAS単体で運用しておき、万が一に備えてバックアップ用のデータをHDDに入れておき別の場所に保管でしょうか。
4ベイNAS+外付けHDDで12万円、外付けHDD3重で10~11万円くらいなのでコストもそんなに変わらない感じです。
別の場所に保管してしまうとバックアップデータの更新がやりづらくなってしまうため、更新頻度の高いホットなデータはクラウドにバックアップをとっておき、更新頻度の低いアーカイブデータは年に数回HDDを取り寄せてデータ更新するのがコストと利便性、安全性のバランスが良くてベストだと思います。
NASが正しく運用していてRAID崩壊する確率と火災に遭う確率は同程度(今回の計算では)なので、これ以上同一の場所でバックアップを重ねるより外に出してしまった方が安全性は高まりそうです。
さらに万全にするなら同一の場所でNAS+外付けHDD(NASに繋いでおけるなら自動でバックアップしてくれるので手間がかからない)をしつつ、さらに第三のバックアップを外に出しておくといった感じですね(私はこれをやってる)。
コストはかかるけどNAS同士なら、自宅と実家の両方にNASを置いておき、ネット回線を通じて常にデータ同期しながら使うということも可能でこれが最強な気もします(まだやったことない)。
---
ということで1万字を余裕で超えてダラダラ書いてしまいましたが、今回言いたかったのは「最低でもデータは常に2重にしておくこと。絶対に消えては困るデータはさらに別の場所に。」と言うことで140字以内にまとまりますw
なんかNAS推しの内容になってしまいましたが、今回の記事はどっかの企業コラボというわけでなく単純に私がNAS使い始めたらマジで便利で外付けHDD管理には戻れないわ…、でもNASのリスクも考えましょうねという感想を記事にしただけです。
安心して夜寝られるバックアップ環境を作りましょう。
NAS関連の記事はこちらにまとめておきますね(こっちはSynologyさんとのタイアップなのでかなりSynology推しなのですが、私も普通に愛用していて特別ヨイショしてるしてるつもりはありません・・・)