인텔 서버 시스템에서 결함 회복력 부팅(FRB)이 어떻게 작동하는지 이해하거나 부팅 실패 시나리오에서 적절한 FRB 기능을 검증하는 것이 필요합니다
원인:
FRB는 부팅 중 하드웨어 장애가 발생하면 자동으로 활성화되며, 여기에는 프로세서 BIST 장애, POST 타임아웃, 시스템 정지 등이 포함됩니다. FRB 동작을 이해하면 부팅 문제와 시스템 복구 작업을 진단하는 데 도움이 됩니다
해결책:
결함 회복 부팅(FRB)은 하드웨어 고장이 발생해도 인텔 서버가 성공적으로 부팅되도록 돕는 자동 복구 시스템입니다. FRB는 부팅 과정의 서로 다른 단계를 보호하는 세 가지 수준으로 작동합니다
BMC(베이스보드 관리 컨트롤러)는 FRB 레벨 1, 2, 3을 구현합니다. 기본 부트스트랩 프로세서(BSP)가 부팅 과정을 완료하지 못하면 FRB는 대체 프로세서를 사용해 부팅을 시도합니다.
FRB-1
멀티프로세서 시스템에서 BIOS는 멀티프로세서(MP) 테이블과 ACPI APIC 테이블에 애플리케이션 프로세서를 등록합니다. BSP가 시작하면, 애플리케이션 프로세서(AP)가 일정 시간 내에 초기화를 완료하지 못하면 비기능으로 간주됩니다. BIOS가 애플리케이션 프로세서가 BIST에 실패했거나 작동하지 않는다고 감지하면, BMC에 해당 프로세서를 비활성화해 달라고 요청합니다.
BMC는 프로세서를 비활성화하면서 시스템 리셋을 생성합니다; BIOS는 다음 부팅 사이클에서 고장 난 프로세서를 인식하지 못합니다. 고장 난 AP는 MP 테이블이나 ACPI APIC 테이블에 표시되지 않으며, 운영체제에 보이지 않습니다. BIOS가 BSP가 BIST 실패를 감지하면, 현재 프로세서를 비활성화하라는 요청을 BMC에 보냅니다. 대체 프로세서가 없으면 BMC가 스피커를 삑 소리를 내고 시스템을 정지시킵니다. BMC가 다른 프로세서를 찾으면 시스템 리셋을 통해 BSP 소유권이 해당 프로세서로 이전됩니다.
FRB-2
BMC의 두 번째 워치독 타이머(FRB-2)는 BIOS에서 약 6분으로 설정되며, 시스템이 BIOS POST를 완료하도록 설계되었습니다. FRB-2 타이머는 보호되지 않은 시간 창이 발생하지 않도록 FRB-3 타이머가 비활성화되기 전에 활성화됩니다. POST 종료 직전, 옵션 ROM이 초기화되기 전에 BIOS는 BMC의 FRB-2 타이머를 비활성화합니다.
시스템에 1GB 이상의 메모리가 있고 사용자가 모든 DWORD를 테스트하기로 선택하면, 확장 메모리 테스트가 시작되기 전에 워치독 타이머가 비활성화됩니다. 이 구성에서는 메모리 테스트가 6분 이상 걸릴 수 있기 때문입니다. 시스템이 POST 중에 정지되면 BIOS는 BMC에서 타이머를 비활성화하지 않아 비동기 시스템 리셋(ASR)을 생성합니다.
FRB-3
첫 번째 타이머(FRB-3)는 시스템이 하드 리셋에서 나올 때마다 카운트다운을 시작하며, 보통 약 5초 정도입니다. BSP가 성공적으로 초기화되어 실행을 시작하면, BIOS는 FRB_TIMER_HLT 신호(GPIO)를 해제하여 BMC의 FRB-3 타이머를 비활성화하고 시스템은 POST를 계속 진행합니다. BSP가 BIOS 코드를 가져오거나 실행하지 못해 타이머가 만료되면, BMC는 시스템을 초기화하고 실패한 프로세서를 비활성화합니다.
시스템은 BIOS POST가 BMC에서 FRB-3 타이머를 비활성화하는 것을 넘어설 때까지 BSP를 계속 변경합니다. BMC는 좋은 프로세서를 찾지 못하면 스피커에서 비프 코드가 울립니다. 시스템 리셋이나 전원 재부팅 시 모든 프로세서를 순환하는 과정이 반복됩니다.