torchrun --nproc-per-node=8 --local-ranks-filter=0 -m pytest test_muon.py