llama2量化后版本加载报错

llama2-7b-chat-hf，按照提供的量化步骤，得到4bit版本的模型并补齐模型文件，通过AutoModelForCausalLM.from_pretrained方式加载时，报NotImplementedError: Cannot copy out of meta tensor; no data!
环境配置：
accelerate==0.21.0
bitsandbytes==0.40.2
gradio==3.37.0
protobuf==3.20.3
scipy==1.11.1
sentencepiece==0.1.99
transformers==4.31.0
torch==1.13.0a0+340c412
cuda==11.7