[TOC]
环境设置
-
端口转发
-
在本地运行:
ssh -L 6006:localhost:6006 xnchen@10.134.142.143
将mu01转发到本地 -
在mu01运行tensorboard,然后在本地打开localhost:6006
-
-
wandb运行
-
在gpu02上设置
.bashrc
:echo WANDB_MODE=dryrun
使之在python中离线运行 - gpu02上跑脚本,会显示saved locally in {文件夹}
- 跑完后使用
wandb sync {文件夹}
上传结果
-
DAG
- 2021.03.09:第一次跑通,命令:
- CUDA_VISIBLE_DEVICES=1,2 python tool/temp.py –cfg experiments/cityscapes/test.yaml
- EPOCH=100
- tensorboard_dir=log/cityscapes/hpe_nas_ver1/test_2021-03-09-21-24
- final_output_dir = output/cityscapes/hpe_nas_ver1/tes
-
2021.03.10:从epoch 139开始跑,wandb_dir=
wandb/dryrun-20210310_082908-2onxcqfm
- 感觉loss并没有被优化
-
更改模型:将hpe_nas_ver1复制出来变成hpe_nas_ver2,改变模型输出z:从sum变成concat再卷积。
- wandb_dir =
wandb/dryrun-20210310_111800-9fjqutou
-
wandb 进程:warn-river-2
- Epoch=200
- tensorboard_dir = log/cityscapes/seg_nas/test_2021-03-10-19-17
- wandb_dir =
-
2021.03.11:
- 3.中训练的warn-river-2,现在在167epoch,valid loss=0.4246, valid accuracy(miou)=0.334
- 收敛不能
- 打开了HRNet,尝试查看它的训练曲线。
- 本地文件夹:code/HRNet-Semantic-Segmentation/
- romote branch: remotes/origin/pytorch-v1.1
- tensorboard_dir = log/cityscapes/seg_hrnet/seg_hrnet_w48_train_512x1024_sgd_lr1e-2_wd5e-4_bs_12_epoch484_2021-3-11-10-45
- output_dir = output/cityscpaes/seg_hrnet_w48_ztrain_512x1024_sgd_lr1e-2_wd5e-4_bs_12_epoch484
onnx记录
- 目前使用的geno模型位置
/home/xnchen/code/NAS_HPE/output/coco/hpe_nas_ver1/train_geno_DAGarch/final_state.pth
-
ONNX 导出器是一个基于轨迹的导出器,这意味着它执行时需要运行一次模型,然后导出实际参与运算的运算符. 这也意味着, 如果你的模型是动态的,例如,改变一些依赖于输入数据的操作,这时的导出结果是不准确的.同样,一 个轨迹可能只对一个具体的输入尺寸有效 (这是为什么我们在轨迹中需要有明确的输入的原因之一.) 我们建议检查 模型的轨迹,确保被追踪的运算符是合理的. 链接