Pep3107使用归档

[TOC]

端口转发
1. 在本地运行：
  
  ssh -L 6006:localhost:6006 xnchen@10.134.142.143 将mu01转发到本地
2. 在mu01运行tensorboard，然后在本地打开localhost:6006
wandb运行
1. 在gpu02上设置.bashrc：
  
  echo WANDB_MODE=dryrun使之在python中离线运行
2. gpu02上跑脚本，会显示saved locally in {文件夹}
3. 跑完后使用wandb sync {文件夹}上传结果

2021.03.09：第一次跑通，命令：
- CUDA_VISIBLE_DEVICES=1,2 python tool/temp.py –cfg experiments/cityscapes/test.yaml
- EPOCH=100
- tensorboard_dir=log/cityscapes/hpe_nas_ver1/test_2021-03-09-21-24
- final_output_dir = output/cityscapes/hpe_nas_ver1/tes
2021.03.10：从epoch 139开始跑，wandb_dir=wandb/dryrun-20210310_082908-2onxcqfm
- 感觉loss并没有被优化
更改模型：将hpe_nas_ver1复制出来变成hpe_nas_ver2，改变模型输出z：从sum变成concat再卷积。
- wandb_dir = wandb/dryrun-20210310_111800-9fjqutou
- wandb 进程：warn-river-2
- Epoch=200
- tensorboard_dir = log/cityscapes/seg_nas/test_2021-03-10-19-17
2021.03.11:
- 3.中训练的warn-river-2，现在在167epoch，valid loss=0.4246, valid accuracy(miou)=0.334
- 收敛不能
- 打开了HRNet，尝试查看它的训练曲线。
  - 本地文件夹：code/HRNet-Semantic-Segmentation/
  - romote branch: remotes/origin/pytorch-v1.1
  - tensorboard_dir = log/cityscapes/seg_hrnet/seg_hrnet_w48_train_512x1024_sgd_lr1e-2_wd5e-4_bs_12_epoch484_2021-3-11-10-45
  - output_dir = output/cityscpaes/seg_hrnet_w48_ztrain_512x1024_sgd_lr1e-2_wd5e-4_bs_12_epoch484

目前使用的geno模型位置
- /home/xnchen/code/NAS_HPE/output/coco/hpe_nas_ver1/train_geno_DAGarch/final_state.pth
ONNX 导出器是一个基于轨迹的导出器,这意味着它执行时需要运行一次模型,然后导出实际参与运算的运算符. 这也意味着, 如果你的模型是动态的,例如,改变一些依赖于输入数据的操作,这时的导出结果是不准确的.同样,一个轨迹可能只对一个具体的输入尺寸有效 (这是为什么我们在轨迹中需要有明确的输入的原因之一.) 我们建议检查模型的轨迹,确保被追踪的运算符是合理的. 链接