EC2 成本異常怎麼排查：最常見原因清單 + 第一輪定位流程

先把問題問對： 「EC2 變貴」到底是 單價變貴（規格/方案/計費模式）、還是 用量變多（台數/時間/流量/磁碟）？你先分清楚這兩種，排查速度會差很多。

Step 1：先釘出暴增時間與型態（不要直接衝去看所有 instance）

你要先確認它是「某一天跳起來」還是「慢慢變陡」。跳起來通常是變更造成：部署、Auto Scaling、Instance type 改了、Spot 中斷後回到 On-Demand。慢慢變陡常常是遺留或膨脹：磁碟變大、snapshot 越留越多、流量/請求逐步上升。

這是最直覺的一種：測試環境忘記關、某個 stack 重複建立、或是同一個服務在不同環境各跑一套卻沒人認領。特徵是：費用有明顯階梯、而且從那天開始就維持在更高水平。

你把上限拉高是為了防爆流量，但如果你的 scaling policy 或指標設錯，擴上去之後就回不來。很多「成本異常」其實是「擴容變成日常」。

有時候是有人把機器升級救火，救完沒降回來；或是改了家族/平台（例如不小心換成更貴的選項）。這種特徵是：台數沒變，但單台成本變了。

你原本跑 Spot 很便宜，但中斷後 fallback 到 On-Demand（或策略改了），成本就會突然變得像「你沒做什麼，但就是變貴」。

這種最常讓人走冤枉路：你盯著 instance 看半天，最後發現真正的大頭是磁碟容量增加、 snapshot 沒清、或流量繞路（NAT、跨 AZ/跨區）。 EC2 常常只是「載體」，錢花在它身邊。

Checklist（第一輪就做這些就夠了）：

最常見的誤判是「只看 CPU」。CPU 低不代表省錢；很多機器是記憶體/網路型、或是備援用途。第二個誤判是「急著縮小」：你還沒釐清是不是週期性尖峰，就把規格砍到剛好，結果一遇到尖峰就爆。省錢當然重要，但你要先確定你省的是浪費，而不是省掉穩定性。

手動排查一定做得到，但最花時間的是：你不知道該先看哪一台、哪一個 AZ、哪一個 cost driver。掃描的好處是先把可疑來源用一致的格式列出來，讓你直接從 top 幾項開始追，而不是在清單裡盲找。

先掃描，快速縮小 EC2 成本異常的可疑範圍

連接 AWS 後只做讀取掃描，不會刪資源、不會改設定。你會更快知道該先查哪一類原因（台數/規格/周邊成本/流量）。

開始掃描了解偵測機制

免責聲明：本文為排查方法分享，非 AWS 官方定價文件；實際計費依 AWS Billing/Cost Explorer 顯示為準。進行調整前，請先確認服務重要性與回滾方案。