결함이 있는 메모리 모듈을 찾는 데 도움이 되는 문제 해결 컨텐츠
결함이 있는 것으로 의심되는 메모리 모듈이 있는 경우 올바른 CPU(중앙 처리 장치) 위치(1 또는 2) 및 DIMM(Dual In-line Memory Module) 뱅크를 어떻게 판별합니까?
IErr ECC_error을 일으키는 DIMM을 찾기 위한 진단 단계를 기반으로 아래 표시된 대로 진행하십시오.
참고 | ipmitool 도구( IPMI, V2.0, 명령 테스트 도구 참조)가 해당 노드에 로드되어 있거나 해당 노드에서 실행할 수 있는지 확인합니다. 이렇게 하면 시스템 이벤트 로그(바이너리)를 검사할 수 있습니다. |
참고 |
다음과 같이 확장 목록을 확인하여 시스템 이벤트 로그를 검사합니다.
#sudo ipmitool sel elist | 덜
1ᄃ | 2018/08/24 | 22:51:49 | 메모리 Mmry ECC 센서 | 교정 불능 ECC | 주장
1D | 2018/08/24 | 22:51:49 | 메모리 Mmry ECC 센서 | 교정 불능 ECC | 주장 그런 다음 첫 번째 열의 16진수(HEX) 값을 참조하여 시스템 이벤트 로그의 모든 항목을 검사할 수 있습니다. ipmitool sel get 0x1c #sudo
SEL 레코드 ID : 001c 레코드 유형 : 02 타임스탬프 : 08/24/2018 22:51:48 발전기 ID : 0033 EvM 개정 : 04 센서 유형 : 메모리 센서 번호 : 02 이벤트 유형 : 센서별 Descrete 이벤트 방향 : 어설션 이벤트 이벤트 데이터(RAW) : a10103 이벤트 해석 : 누락 설명 : Uncorrectable ECC 센서 ID : Mmry ECC 센서 (0x2) 엔티티 ID : 32.1 (메모리 장치) 센서 유형 : 메모리 (0x0c) |
이벤트 데이터(RAW)의 로그 위치 디버그
- 계산기에 해당 숫자를 입력합니다.
- 이진수(BIN) 값, 특히 마지막 8바이트를 확인합니다. 위의 이미지에서 가장 오른쪽 비트(강조 표시됨)를 확인합니다.
- 이를 10진수로 변환하면 아래 표에서 알 수 있듯이 가장 오른쪽 비트가 DIMM 소켓 값을 나타냅니다. 0=A, 1=B, 2=C,3=D 등.
가장 오른쪽에 있는 두 번째 비트는 CPU 소켓을 나타냅니다.
이 경우 b0000 = CPU1입니다. b0001은 CPU2와 같습니다.
IPMI를 사용하는 경우 베이스보드 관리 컨트롤러(BMC) 웹 그래픽 사용자 인터페이스(GUI)에 표시되는 세부 수준을 가져올 수 없습니다. 그러나 curl -k -u <user>:<password> https://<ip>/redfish/v1/Systems/<serial #>/LogServices/SEL/Entries?$skiptoken=0 명령을 실행하여 Redfish를 사용할 수 있습니다.
참고 |
skiptoken 은 시작할 위치입니다. 일반적으로 50개의 레코드를 반환하므로 skiptoken은 0, 50, 100 등이 됩니다. 응답이 끝나면 계속 읽기 위해 다음 skiptoken 이 무엇인지 알려줍니다. |
또는 SDPtool<ipv4> <username> <password> debuglog <filename> 명령을 실행하는 서버 관리자 시스템의 인텔® Server Debug and Provisioning Tool(인텔® SDP Tool)를 사용할 수 있습니다.