ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [유지보수] 정기PM의 의미와 가상 인프라 PM 작업 순서
    Virtualization Infra/Server 2023. 11. 13. 12:51

    Intro

    정기PM(Periodic Preventive Maintenance) 이란?
    Physical/Logical/Virtual 서버들의 안정적이고 연속성 있는 운영을 위해서, 정기적으로 실시하는 장애 예방 활동을 말한다.

    정기PM의 목적 
    오랜시간 지속적으로 서비스한 HW 및 각종 시스템들의 전원을 재부팅하여 메모리 초기화와 운영 환경의 연속성을 확인하고,  서비스 영향도를 고려해 진행하지 못했던 각종 드라이버, 펌웨어, 보안 패치/업그레이드 및 신규서비스 추가 작업을 진행하기 위함이다.

     

     

    Procedure

    PM 순서

    1) DRS(Distributed Resource Scheduler) / HA (Hight Availability) 설정 해제
    2) 관리서버 /중요 VM 백업 및 스냅샷 생성
    3) 재기동할 호스트 비우기 (vMotion 진행)
    4) 호스트 유지보수 모드 설정 및 재기동  
    5) 관리서버 패치/재기동
    6) 인프라 서비스 확인

     

     

    DRS/HA의 의미와 PM 작업 시 설정 해제하는 이유

    DRS(Distributed Resource Scheduler)는 동일 클러스터 내에 호스트들이 Hot Migration을 통해 비슷한 수준의 리소스를 사용하도록 Scheduling 해주는 VMware의 기술로서 관리자의 개입을 최소화 하여 운영할 수 있다.


    HA(High Availability)는 동일 클러스터 내의  호스트 중 장애 호스트가 발생하였을 경우 관리자의 수동 개입 없이, 운영중이던 VM이 즉시 종료되고 다른 호스트로 Cold Migration되는 기술이다.


    PM작업 시 DRS/HA 기능 설정을 해제시키는 이유는 작업 대상 호스트를 비우기 위해 VM을 다른 호스트로 재배치 할 때, 작업 대상 호스트로 VM이 다시 migration 되는 상태를 방지하기 위해서이다. 

     

     

    관리서버/중요 VM 백업 및 스냅샷 생성

    가상화 인프라의 관리서버는 AD(Active Directory), DB(DataBase), CS(VMware Connection Server), vCSA(VMware  vCenter Server Appliance)의 Main 서버와 기업의 수요에 따른 GPU, WSUS, Portal, NSX 등의 Sub 서버로 구성된다.

    관리서버는 주로 스냅샷 생성 방식으로 백업을 진행하는데, 이는 서비스 영향도를 고려하여 그동안 진행하지 않았던 패치/업그레이드 혹은 보안취약점 조치 등의 작업을 함께 진행하면서 혹시 모를 시스템 충돌에 의한 시스템 정상화가 불가능한  상황을 대비하기 위함이다.

    연결서버(Connection Server)의 경우 장애 상황을 대비하여 보통 이중화 이상의 구성을 하는데, 이 서버들은 약 20분 간격으로 서로의 데이터를 복제하여 주고 받으며 동일한 수준의 데이터를 보유하는 LDAP 동기화를 진행한다. 그래서 스냅샷 복구를 할 경우 일부의 서버만 복구하게 되면 LDAP 동기화가 깨지면서 연결서버의 서비스를 정상화시키는 것이 불가능할 수 있다. 그렇기 때문에 CS서버의 경우 시간차이가 거의 나지 않도록 스냅샷을 생성해주는것이 중요하다.

     

    또한 연결서버의 경우 문제 발생 시 신규 구축이 필요할 수 있기 때문에, 만약을 대비하여 구성 정보 백업 및 데스크탑 풀 설정 백업을 해두는것을 권고한다. 또한 데스크탑 풀 별로 할당된 VM과 사용 권한까지 데스크탑 풀 시스템 정보에서 데이터 다운로드를 통해 백업을 해두는것이 좋다. 그리고 만약 데스크탑 풀 별 전원정책이 "수행안함"설정이 아니라면 "전원정책 수행안함" 상태로 변경해두어야 종료 해 두었던 VM이 예상하지 못한 순간에 다시 시작되는것을 방지할 수 있다. 그리고 데스크탑 풀에 스토리지가속화 기능을 사용하고 있다면 작업 시간에 예외처리가 될 수 있도록 함께 설정하도록 한다.  

     

     

    재기동할 호스트 비우기

    모든 관리서버/ 사용자 VM을 종료하고 PM을 진행하는 경우가 아니라고 하면, 우선 현재 클러스터 내 최소한의 운영에 필요한 리소스를 커버할 수 있는 호스트의 수량을 계산한다. 그리고 사용중인 VM은 작업 대상이 아닌 호스트로 Hot migration하여 서비스를 유지하면서 비워진 호스트에 대해 순차적으로 재기동을 진행한다.

     

     

    호스트 유지보수 모드 전환 및 재기동

    운영중인 클러스터 내의 리소스가 타이트한 인프라의 경우 호스트를 한대씩 비우고 재기동 하는것이 좋다. 그리고 호스트 재기동 시 종료(Shutdown)를 하게 되면 DC(DataCenter)에 방문하여 서버 전원을 켜야 하는 불상사가 발생할 수 있으므로 전원 작업 시 주의해야 한다.

     

     

    관리서버 패치/재기동

    관리서버들 중 윈도우 서버의 경우 그동안 서비스 영향도를 고려해 진행하지 못했던 윈도우 업데이트 또는 보안취약점 조치를 함께 진행하는 경우가 많다. 이때 자체 WSUS가 있는 경우 WSUS에서 필요한 윈도우 업데이트를 내리거나, 잠시 인터넷에 연결되도록 예외처리하여 윈도우 업데이트를 받아오도록 한다.

    윈도우 업데이트는 '패치파일 다운, 패치 진행, 재부팅 과정에서 패치 반영' 이렇게 3가지 단계로 나뉘며 패치 진행 시에는 서버가 평소보다 리소스를 많이 차지하기 때문에, 현재 호스트의 리소스가 여유있지 않다면 1대씩 순차적으로 진행하는 것을 권장한다. 

     

     

    인프라 서비스 확인

    모든 물리/가상 서버에 대해 재기동 및 패치 작업을 완료하였다면 마지막으로 사용자 정상 접속 여부를 확인한다. 인프라가 정상인 상태로 확인되면 작업을 위해 진행했던 모든 설정(DRS/HA 설정)들을 원복해준다.  

     

     

Designed by Tistory.