본문 바로가기

Deep Learning/Error

NUMA node Error

NUMA : Non-Uniformed Memory Access (불균일 기억장치 접근)

 

마주한 Error Message 

"successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero"

 

의미 하는 바

NUMA node 정보가 올바르지 않지만, 적어도 한 개의 NUMA node가 있으니 일단 되게끔 해보겠다.

 

해결 방안

1. node 확인

$ lspci | grep -i nvidia

더보기

#01:00.0 수정 필요

01:00.0 VGA compatible controller: NVIDIA Corporation GA102 [GeForce RTX 3090] (rev a1)
01:00.1 Audio device: NVIDIA Corporation GA102 High Definition Audio Controller (rev a1)

 

#정상

2. Device 확인

 

3. NUMA 할당 상태 확인

$cat /sys/bus/pci/devices/문제Devices/numa_node

return true (정상) : 0

return false (비정상) : -1

 

4. NUMA 할당

$ ehco 0 | sudo tee -a /sys/bus/pci/devices/문제Devices/numa_node

 

5. tensorflow 재실행