1) 症狀:它通常不是爆炸,而是「慢慢長」
EBS Snapshots 很少突然暴增到嚇人,它更常是「每週多一點、每月多一點」。 你可能會先看到這些狀況:
- Storage 類別的成本在緩慢上升,但你覺得業務流量沒有成比例成長。
- 有大量快照找不到 owner:標籤不齊、或 instance/volume 早就不存在。
- 備份排程一直在跑,但 retention(保留天數)沒人敢動。
- 專案換人或搬遷後,舊環境留下的快照變成「誰都不敢刪」。
2) 為何會花錢:快照不是「一份檔案」,而是一段長期累積的歷史
快照的直覺很容易誤導人:很多人以為就是「把整顆磁碟複製一份」。 實務上,你越頻繁做快照、越久不清理、或 volume 的變更量越大,它就越容易累積成一筆你沒預期的 storage 成本。 換句話說:你在買的是『可回復的歷史』,歷史越長越細,就越貴。
3) 常見來源:快照黑洞通常從哪裡來
(A)排程備份沒設生命週期:永遠只加不減
很多團隊一開始先把備份做起來(合理),但後續沒把生命週期補上。 於是你每天都在新增快照,但從來沒有刪除流程,成本就會用「慢慢長」的方式出現。
(B)專案/環境淘汰了,快照留下來
你把 instance 刪了、volume 刪了,但快照還在。 這類最難處理,因為你很難從資源本身反推用途;最後通常變成:「先不要動」。 但不動的代價就是它一直算錢,而且沒人承認自己是 owner。
(C)大磁碟 + 高變更量:你以為只是備份,結果是在記錄大量變更
某些 workload(例如資料處理、快取、寫入密集)磁碟變更量本來就大。 你如果還每天做快照、保留很久,就會很快把 storage 成本堆起來。
(D)跨帳號/跨區複製:為了合規或備援,成本自然要算進去
有些快照是刻意跨帳號或跨區複製(例如備援或合規)。這本來就是成本的一部分。 真正需要注意的是:你是否把「該做的」跟「順手一起做的」分開,避免把無用的歷史也複製到另一邊。
4) 工具能提供什麼:掃描輸出會怎麼幫你縮小範圍
快照成本的痛點通常不是你不會刪,而是你不知道「刪了會不會出事」。 掃描的價值在於:先把可疑快照(例如過舊、缺 owner、或明顯超出合理保留期)列成清單, 讓你可以用一個可控的方式逐步處理,而不是一次面對上千個 snapshot ID。
- 標出「疑似遺留」的快照(例如太舊、缺標籤、關聯資源已不存在)
- 提示你優先處理順序(先處理最舊/最可疑/最不可能用到的)
- 把「保留策略缺口」變成可追蹤的工作項(例如需要補 lifecycle/retention)
5) 下一步:怎麼處理才安全(你要的是省錢,不是把備份搞壞)
快照最安全的處理方式通常是:先定策略、再清遺留。 先把「以後要怎麼留」講清楚,才不會刪完一輪後又在下個月長回來。
- 先把 retention 定出來:不同環境(prod/stage/dev)保留期本來就不一樣。
- 先從缺 owner、關聯資源已不存在的快照下手(最常是遺留)。
- 先做分批清理:一次刪一小段(例如最舊的 10%),觀察再繼續。
- 把 lifecycle 補上:你不想每個月都靠人工刪快照維生。