EBS Snapshot 保留策略：Retention / Lifecycle 最佳實務與常見坑

先講一句比較刺耳的： 你 Snapshot 留越久，不代表越安全；很多時候只是把風險從「資料遺失」變成「無限累積、也沒人會還原」。真正可靠的備份策略不是「全部都留」，而是 你知道哪些該留多久、要怎麼還原、誰要負責。

1) Snapshot 成本怎麼累積？為什麼它常常變成「慢性肥胖」

EBS Snapshot 多數情況看起來不嚇人，原因是它不像 NAT 或流量費那樣跳很快。但 Snapshot 會在你不注意的地方一直長：例行備份、測試環境、臨時快照、遷移前留一份、某次故障後留證據… 等你回頭看，已經是一堆「沒人敢刪」的歷史遺跡。

更現實的是，Snapshot 通常沒有「自然死亡」機制——除非你自己定策略、定規則、定責任，不然它會一直在那裡，直到你某天被帳單提醒。

我建議把 Snapshot 分成三種「性質」，然後每種只做一個簡單的保留規則。你不需要一開始就做得很細，但你要讓團隊有一致的共識：哪些是短期、哪些是中期、哪些是長期。

這種 Snapshot 目的很單純：今天更新出事、想回到昨天的狀態。它不是用來當「長期備份」的。如果你短期都留一年，那通常代表你根本沒有長期策略，全部混在一起了。

有些問題是「過了兩週才發現」，例如資料被某個 job 慢慢寫壞，或某個設定改了才慢慢出問題。這時候你要的是中期回溯能力，但同樣不需要無限留。

長期保留通常是為了合規或稽核，而不是「怕被罵」。常見的作法是做稀疏化（比如每月一份），讓你有歷史切片，但不會把每天都留著。

Checklist（先回答這些就夠了）：

Snapshot 的清理最怕的是「想省錢結果踩雷」。最常見的誤判是看到很多 Snapshot 就全刪，但其中可能混著你真正需要的里程碑備份。另一種誤判是： 把 Snapshot 當成唯一備份，所以不敢刪任何一份。

如果你真的要動手清，建議順序是「先刪最不可能出事的」，把風險壓到最低：

如果你只想先知道「哪裡最肥」： 先做一次掃描，把 Snapshot 的大宗來源（哪個環境、哪個 owner、哪個專案）抓出來，再去談 retention 才不會變成全公司大辯論。

先抓出最肥的 Snapshot 群組，再談 retention

不需要先手動翻一整排 Snapshot。掃描後你會更快知道「哪個群組最該先處理」，也比較好跟團隊對齊保留策略。

開始掃描了解偵測機制

免責聲明：本文用於協助理解 Snapshot 成本與保留策略設計，非 AWS 官方文件；實際作法請依你組織的 RTO/RPO、合規要求與風險承受度調整。