新成員加入與排錯¶
加一台 appliance 進 Security Group 擴充效能,理論上很簡單:接線 → Orchestrator 自動佈建 → 成員上線。但實務上常卡住。這篇用一個真實案例帶你看完整排錯思路。
正常流程:Auto-provisioning¶
新成員加入時,Orchestrator 會自動把它佈建成與群組一致:
graph LR
A[接上 Orchestrator 埠] --> B[Orchestrator 偵測新成員]
B --> C[重新 image 成<br/>群組相同版本 + JHF]
C --> D[同步整組設定]
D --> E[成員 attach 進群組<br/>狀態變 UP]
過程中成員會自動重開機一到數次,這是正常的 —— 它正在被佈建、對齊版本。一般幾分鐘到十幾分鐘會收斂成 UP。
正常 vs 異常的判斷
- 正常:重開幾次後,
asg stat -v該成員變 UP,asg monitor不再跳動。 - 異常:超過 ~20–30 分鐘還在不停重開、狀態起不來,或一直 DETACHED。
實戰案例:新成員卡在 DETACHED + 一直重開¶
情境:把一台 RMA 換回來的 appliance 加進 SG,放了一晚還是沒加入,console 一直重開。
排錯步驟¶
① 確認是「真的在重開」還是「凍住」
比對 console 連續兩次的開機畫面,看 PID 有沒有變。PID 一直變 = 真的在反覆重開(不是 hang)。若每次都停在 Running start_tor_sgm: 後馬上 INIT: Sending processes the TERM signal → 重開,就是 reboot loop。
② 看 Orchestrator 的 log
PUDE(Port Up/Down Event)一直 DOWN = Orchestrator 連到該成員的下行埠一直斷。
③ 看群組視角
④ 依序排查根因
| 順序 | 檢查 | 動作 |
|---|---|---|
| 1 | 實體層 | 重插 / 更換 Orchestrator ↔ 成員的線材、光模組(DAC/optic);比對規格與正常成員一致;看 link 燈;換埠測試 |
| 2 | Orchestrator 埠設定 | 確認該 logical port 對應的實體埠 admin/status UP,且正確指派到這個 SG |
| 3 | 版本一致性 | console 進該成員 show version all,比對群組版本(RMA 機出廠版本常不同) |
最可能的根因與解法¶
版本不一致是頭號嫌疑
RMA 換回來的機器出廠版本幾乎一定跟群組不同。若 Image Auto-Clone 沒能順利把它對齊到群組版本,就會卡 DETACHED + reboot loop。
解法:用與群組相同版本的 Gaia ISO對該成員做 clean install,裝完不要跑完整 First Time Wizard、不要設成 standalone gateway,接回 Orchestrator 埠讓它重新佈建 attach。(確認群組的 show smo image auto-clone state 為啟用。)
特定版本的已知缺陷:sk169764
sk169764 描述一個特定版本(R80.20SP / R80.30SP)的缺陷:成員 reboot 後卡 Detached,開機出現 FWD refresh failed 與 Waiting for cluster to start (0)...(10)...,已在 R80.30SP JHF Take 73 修正。若你的版本相符且症狀吻合,套用對應 JHF;其他版本則依上方版本對齊流程處理,或開 TAC。
處理時的小技巧¶
- 想讓它停止空轉好操作:先把成員從 Orchestrator 埠拔掉,或在 SMO 上把該成員 detach,它就不會一直被叫去重開。
- 版本一致卻還 DETACHED:在 SMO 上把成員 remove 再重新 add,重啟佈建;仍不行就開 TAC,附上 console log、
asg stat -v、asg diag verify結果。
排錯心法總結¶
重開超過 30 分鐘 + DETACHED + PUDE DOWN
↓
先排實體層(線 / 光模組 / 埠)
↓ 實體 OK
比對版本 → 不一致就用相同版本 clean install 再 attach
↓ 版本一致仍不行
SMO remove/add 重佈建 → 還不行 → 開 TAC(附 cpinfo + asg 輸出)
版本提醒
Auto-provisioning 流程在 R81.10 ~ R82.10 一致;新版佈建穩定度與錯誤訊息可讀性持續改善。實際的 clean install 步驟與版本相容性以對應版本的 Maestro Admin Guide 與相關 sk 為準。
小結¶
- 新成員由 Orchestrator auto-provisioning 對齊版本,過程會重開幾次(正常)。
- 卡 DETACHED + 一直重開 = 異常,依序查:實體層 → 埠設定 → 版本一致性。
- 最常見根因是版本不一致,用相同版本 clean install 再 attach。
- 救不回就開 TAC,附 console log、
asg stat -v、asg diag verify。