인텔 서버 보드 및 인텔® 서버 시스템에서 FRB(Fault Resilient Booting)가 작동하는 방식

문서

제품 정보 및 문서

000007197

2023-12-11


증상:

  • FRB란 무엇입니까?
  • 작동하는지 어떻게 알 수 있습니까?
  • 인텔® 서버의 장애 복원력 부팅.


솔루션:

장애 복원력 부팅

베이스보드 관리 컨트롤러(BMC)는 FRB 수준 1, 2 및 3을 구현합니다. 기본 부트스트랩 프로세서(BSP)가 부팅 프로세스를 완료하지 못하면 FRB는 대체 프로세서를 사용하여 부팅을 시도합니다.

  • FRB 수준 1은 POST 중에 감지된 BIST 오류를 복구하기 위한 것입니다. 이 FRB 복구는 BIOS 코드에 의해 완전히 처리됩니다.
  • FRB 수준 2는 POST 중 워치독 시간 초과에서 복구하기 위한 것입니다. FRB 수준 2에 대한 워치독 타이머는 BMC에서 구현됩니다.
  • FRB 수준 3은 하드 리셋 또는 전원 켜기 시 워치독 타임아웃으로부터 복구하기 위한 것입니다. 이는 이 수준의 FRB에 대한 하드웨어 기능을 제공합니다.

FRB-1 시리즈

다중 프로세서 시스템에서 BIOS는 MP(다중 프로세서) 테이블 및 ACPI APIC 테이블에 애플리케이션 프로세서를 등록합니다. BSP에서 시작할 때 AP(애플리케이션 프로세서)가 특정 시간 내에 초기화를 완료하지 못하면 작동하지 않는 것으로 간주됩니다. BIOS가 응용 프로그램 프로세서가 BIST에 실패했거나 작동하지 않는 것을 감지하면 BMC는 해당 프로세서를 비활성화하도록 요청합니다.

그런 다음 BMC는 프로세서를 비활성화하는 동안 시스템 재설정을 생성합니다. BIOS는 다음 부팅 주기에서 장애가 있는 프로세서를 인식하지 못합니다. 장애가 발생한 AP는 MP 테이블이나 ACPI APIC 테이블에 나열되지 않으며 OS에 표시되지 않습니다. BIOS가 BSP가 BIST에 실패했음을 감지하면 BMC에 현재 프로세서를 비활성화하라는 요청을 보냅니다. 사용할 수 있는 대체 프로세서가 없는 경우 BMC는 스피커에서 신호음을 울리고 시스템을 정지시킵니다. BMC가 다른 프로세서를 찾을 수 있는 경우, 시스템 재설정을 통해 BSP 소유권이 해당 프로세서로 이전됩니다.

FRB-2 크랙

BMC의 두 번째 감시 타이머(FRB-2)는 BIOS에 의해 약 6분 동안 설정되며 시스템이 BIOS POST를 완료하도록 설계되었습니다. 보호 되지 않은 시간 창을 방지하기 위해 FRB-3 타이머가 비활성화되기 전에 FRB-2 타이머가 활성화됩니다. POST가 거의 끝나갈 무렵 옵션 ROM이 초기화되기 전에 BIOS는 BMC에서 FRB-2 타이머를 비활성화합니다.

시스템에 1GB 이상의 메모리가 포함되어 있고 사용자가 메모리의 모든 DWORD를 테스트하도록 선택하는 경우 이 구성에서 메모리 테스트가 6분 이상 걸릴 수 있으므로 확장 메모리 테스트가 시작되기 전에 워치독 타이머가 비활성화됩니다. POST 도중 시스템이 멈춘 경우 BIOS는 비동기식 시스템 재설정(ASR)을 생성하는 BMC의 타이머를 비활성화하지 않습니다.

FRB-3 시리즈

첫 번째 타이머(FRB-3)는 시스템이 하드 리셋(보통 약 5초)에서 나올 때마다 카운트다운을 시작합니다. BSP가 성공적으로 재설정되고 실행이 시작되면 BIOS는 FRB_TIMER_HLT 신호(GPIO)를 해제하여 BMC에서 FRB-3 타이머를 비활성화하고 시스템은 POST를 계속 진행합니다. BSP가 BIOS 코드를 가져오거나 실행하지 못해 타이머가 만료되면 BMC는 시스템을 재설정하고 장애가 있는 프로세서를 비활성화합니다.

시스템은 BIOS POST가 BMC에서 FRB-3 타이머를 비활성화할 때까지 BSP를 계속 변경합니다. 양호한 프로세서를 찾지 못하면 BMC가 스피커에서 비프음 코드를 울립니다. 시스템 재설정 또는 전원 사이클 때마다 모든 프로세서를 순환하는 프로세스가 반복됩니다.