Cludex|AWS 雲端成本黑洞偵測器 Cludex
Cost Holes / Storage

成本黑洞:EBS Snapshots(快照)

快照這種東西很有「保險」的味道:你越怕出事,就越想多留幾份;而且留著也不會立刻痛。 真正開始痛,通常是幾個月後你才發現它已經變成一筆固定支出,而且沒人知道哪些能刪、哪些不能刪。 這頁把快照成本拆成可操作的角度:你怎麼察覺、錢怎麼來、常見來源在哪、掃描會看到什麼、下一步怎麼做才安全。

EBS snapshots cost hole illustration

1) 症狀:它通常不是爆炸,而是「慢慢長」

EBS Snapshots 很少突然暴增到嚇人,它更常是「每週多一點、每月多一點」。 你可能會先看到這些狀況:

  • Storage 類別的成本在緩慢上升,但你覺得業務流量沒有成比例成長。
  • 有大量快照找不到 owner:標籤不齊、或 instance/volume 早就不存在。
  • 備份排程一直在跑,但 retention(保留天數)沒人敢動。
  • 專案換人或搬遷後,舊環境留下的快照變成「誰都不敢刪」。

2) 為何會花錢:快照不是「一份檔案」,而是一段長期累積的歷史

快照的直覺很容易誤導人:很多人以為就是「把整顆磁碟複製一份」。 實務上,你越頻繁做快照、越久不清理、或 volume 的變更量越大,它就越容易累積成一筆你沒預期的 storage 成本。 換句話說:你在買的是『可回復的歷史』,歷史越長越細,就越貴。

最常見的成本放大器: 沒有保留策略(retention)、一直做排程備份、而且 volume 本身也在長。 不是你做快照錯,而是你沒有定「多久以前的歷史不需要」。

3) 常見來源:快照黑洞通常從哪裡來

(A)排程備份沒設生命週期:永遠只加不減

很多團隊一開始先把備份做起來(合理),但後續沒把生命週期補上。 於是你每天都在新增快照,但從來沒有刪除流程,成本就會用「慢慢長」的方式出現。

(B)專案/環境淘汰了,快照留下來

你把 instance 刪了、volume 刪了,但快照還在。 這類最難處理,因為你很難從資源本身反推用途;最後通常變成:「先不要動」。 但不動的代價就是它一直算錢,而且沒人承認自己是 owner。

(C)大磁碟 + 高變更量:你以為只是備份,結果是在記錄大量變更

某些 workload(例如資料處理、快取、寫入密集)磁碟變更量本來就大。 你如果還每天做快照、保留很久,就會很快把 storage 成本堆起來。

(D)跨帳號/跨區複製:為了合規或備援,成本自然要算進去

有些快照是刻意跨帳號或跨區複製(例如備援或合規)。這本來就是成本的一部分。 真正需要注意的是:你是否把「該做的」跟「順手一起做的」分開,避免把無用的歷史也複製到另一邊。

4) 工具能提供什麼:掃描輸出會怎麼幫你縮小範圍

快照成本的痛點通常不是你不會刪,而是你不知道「刪了會不會出事」。 掃描的價值在於:先把可疑快照(例如過舊、缺 owner、或明顯超出合理保留期)列成清單, 讓你可以用一個可控的方式逐步處理,而不是一次面對上千個 snapshot ID。

  • 標出「疑似遺留」的快照(例如太舊、缺標籤、關聯資源已不存在)
  • 提示你優先處理順序(先處理最舊/最可疑/最不可能用到的)
  • 把「保留策略缺口」變成可追蹤的工作項(例如需要補 lifecycle/retention)

5) 下一步:怎麼處理才安全(你要的是省錢,不是把備份搞壞)

快照最安全的處理方式通常是:先定策略、再清遺留。 先把「以後要怎麼留」講清楚,才不會刪完一輪後又在下個月長回來。

務實做法(命中率高):
  • 先把 retention 定出來:不同環境(prod/stage/dev)保留期本來就不一樣。
  • 先從缺 owner、關聯資源已不存在的快照下手(最常是遺留)。
  • 先做分批清理:一次刪一小段(例如最舊的 10%),觀察再繼續。
  • 把 lifecycle 補上:你不想每個月都靠人工刪快照維生。
先掃描 EBS Snapshots 黑洞,抓出最可疑的遺留快照
連接 AWS 後只做讀取掃描,不會刪資源、不會改設定。你會更快知道哪些快照可能超出合理保留期、哪些缺 owner、以及下一步該怎麼補保留策略。
免責聲明:此頁為成本結構與排查思路整理,非 AWS 官方定價文件;實際計費依 AWS Billing/Cost Explorer 顯示為準。任何刪除前,請先確認備份/還原流程與合規要求。