autodl下载hf-mirror数据
目录
autodl下载hf-mirror数据
背景
使用工具
服务器:
镜像数据集:
需求介绍
本文的需求是复现下载自动驾驶的transfuser:
项目:
数据集:
开始
步骤0:准备
进入AutoDL的服务器,其中 autodl-tmp 是存放数据的,transfu

AutoDL学术资源加速:
source /etc/network_turbo
更新软件源列表:
sudo apt update
进入数据盘,准备下载数据:
cd autodl-tmp/
本次拟采用:hf-mirror 的方法三(基于
hfd
工具)下载数据集
,需按照以下步骤操作:
步骤 1:下载并配置 hfd 工具
下载
hfd脚本 :wget https://hf-mirror.com/hfd/hfd.sh chmod a+x hfd.sh # 赋予执行权限- 这是
hfd工具的官方脚本,支持高效下载8。
- 这是
设置镜像环境变量 :
export HF_ENDPOINT=https://hf-mirror.com # 临时生效- 若需永久生效,可将此行写入
~/.bashrc或~/.zshrc文件810。
- 若需永久生效,可将此行写入
步骤 2:下载 aria2

依赖安装 :
若使用
aria2,需提前安装:sudo apt-get install aria2 # Ubuntu/Debian
权限问题 :
- 若下载目录需要权限(如
/root),需在命令前加sudo
- 若下载目录需要权限(如
步骤 3:执行下载命令

下载数据集 :
./hfd.sh mmahdavi/carla_1.8m --dataset --tool aria2c -x 4 ./hfd.sh mmahdavi/carla_1.8m --dataset --tool aria2c -x 4 --include "Scenario1.zip" # 下载指定文件说明
参数说明 :
--dataset- 指定下载类型为数据集(默认是模型)8。
--tool aria2c- 使用
aria2多线程下载工具加速(需提前安装aria2)8。
-x 4- 指定并行下载线程数(建议设为 4-8)8。
若未安装
aria2,可省略--tool参数,默认使用wget:./hfd.sh mmahdavi/carla_1.8m --dataset
指定下载目录 (可选):
./hfd.sh mmahdavi/carla_1.8m --dataset --local-dir ./carla_data--local-dir- 自定义本地存储路径(默认保存到当前目录)8。
数据集完整性验证 :
下载完成后,检查目标目录中的文件是否完整:
ls -l ./carla_data # 查看文件列表 du -sh ./carla_data # 查看总大小
步骤4:解压文件
确保系统已安装
unzip
:
# Ubuntu/Debian
sudo apt-get install unzip直接解压到当前目录:
unzip Scenario1.zip或指定解压到目标目录(如
scenario1_data
):
unzip Scenario1.zip -d scenario1_data下载结果
下载指定文件

下载全部文件

解压数据

