跳轉到

新成員加入與排錯

加一台 appliance 進 Security Group 擴充效能,理論上很簡單:接線 → Orchestrator 自動佈建 → 成員上線。但實務上常卡住。這篇用一個真實案例帶你看完整排錯思路。

正常流程:Auto-provisioning

新成員加入時,Orchestrator 會自動把它佈建成與群組一致:

graph LR
    A[接上 Orchestrator 埠] --> B[Orchestrator 偵測新成員]
    B --> C[重新 image 成<br/>群組相同版本 + JHF]
    C --> D[同步整組設定]
    D --> E[成員 attach 進群組<br/>狀態變 UP]

過程中成員會自動重開機一到數次,這是正常的 —— 它正在被佈建、對齊版本。一般幾分鐘到十幾分鐘會收斂成 UP。

正常 vs 異常的判斷

  • 正常:重開幾次後,asg stat -v 該成員變 UPasg monitor 不再跳動。
  • 異常:超過 ~20–30 分鐘還在不停重開、狀態起不來,或一直 DETACHED

實戰案例:新成員卡在 DETACHED + 一直重開

情境:把一台 RMA 換回來的 appliance 加進 SG,放了一晚還是沒加入,console 一直重開。

排錯步驟

① 確認是「真的在重開」還是「凍住」

比對 console 連續兩次的開機畫面,看 PID 有沒有變。PID 一直變 = 真的在反覆重開(不是 hang)。若每次都停在 Running start_tor_sgm: 後馬上 INIT: Sending processes the TERM signal → 重開,就是 reboot loop

② 看 Orchestrator 的 log

sx_netdev handle_pude_event: Called for logical port - 10700 status DOWN

PUDE(Port Up/Down Event)一直 DOWN = Orchestrator 連到該成員的下行埠一直斷

③ 看群組視角

asg stat -v       # 該成員顯示 DETACHED(沒接上群組 fabric)
asg monitor       # 觀察是否一直 attach↔detach 跳動

④ 依序排查根因

順序 檢查 動作
1 實體層 重插 / 更換 Orchestrator ↔ 成員的線材、光模組(DAC/optic);比對規格與正常成員一致;看 link 燈;換埠測試
2 Orchestrator 埠設定 確認該 logical port 對應的實體埠 admin/status UP,且正確指派到這個 SG
3 版本一致性 console 進該成員 show version all,比對群組版本(RMA 機出廠版本常不同)

最可能的根因與解法

版本不一致是頭號嫌疑

RMA 換回來的機器出廠版本幾乎一定跟群組不同。若 Image Auto-Clone 沒能順利把它對齊到群組版本,就會卡 DETACHED + reboot loop。

解法:用與群組相同版本的 Gaia ISO對該成員做 clean install,裝完不要跑完整 First Time Wizard、不要設成 standalone gateway,接回 Orchestrator 埠讓它重新佈建 attach。(確認群組的 show smo image auto-clone state 為啟用。)

特定版本的已知缺陷:sk169764

sk169764 描述一個特定版本(R80.20SP / R80.30SP)的缺陷:成員 reboot 後卡 Detached,開機出現 FWD refresh failedWaiting for cluster to start (0)...(10)...,已在 R80.30SP JHF Take 73 修正。若你的版本相符且症狀吻合,套用對應 JHF;其他版本則依上方版本對齊流程處理,或開 TAC。

處理時的小技巧

  • 想讓它停止空轉好操作:先把成員從 Orchestrator 埠拔掉,或在 SMO 上把該成員 detach,它就不會一直被叫去重開。
  • 版本一致卻還 DETACHED:在 SMO 上把成員 remove 再重新 add,重啟佈建;仍不行就開 TAC,附上 console log、asg stat -vasg diag verify 結果。

排錯心法總結

重開超過 30 分鐘 + DETACHED + PUDE DOWN
先排實體層(線 / 光模組 / 埠)
   ↓ 實體 OK
比對版本 → 不一致就用相同版本 clean install 再 attach
   ↓ 版本一致仍不行
SMO remove/add 重佈建 → 還不行 → 開 TAC(附 cpinfo + asg 輸出)

版本提醒

Auto-provisioning 流程在 R81.10 ~ R82.10 一致;新版佈建穩定度與錯誤訊息可讀性持續改善。實際的 clean install 步驟與版本相容性以對應版本的 Maestro Admin Guide 與相關 sk 為準。

小結

  • 新成員由 Orchestrator auto-provisioning 對齊版本,過程會重開幾次(正常)。
  • 卡 DETACHED + 一直重開 = 異常,依序查:實體層 → 埠設定 → 版本一致性
  • 最常見根因是版本不一致,用相同版本 clean install 再 attach。
  • 救不回就開 TAC,附 console log、asg stat -vasg diag verify