Pep3107使用归档

Posted by xnchen on December 23, 2020

[TOC]

环境设置


  1. 端口转发

    1. 在本地运行:

      ssh -L 6006:localhost:6006 xnchen@10.134.142.143 将mu01转发到本地

    2. 在mu01运行tensorboard,然后在本地打开localhost:6006

  2. wandb运行

    1. 在gpu02上设置.bashrc

      echo WANDB_MODE=dryrun使之在python中离线运行

    2. gpu02上跑脚本,会显示saved locally in {文件夹}
    3. 跑完后使用wandb sync {文件夹}上传结果

DAG

  1. 2021.03.09:第一次跑通,命令:
    • CUDA_VISIBLE_DEVICES=1,2 python tool/temp.py –cfg experiments/cityscapes/test.yaml
    • EPOCH=100
    • tensorboard_dir=log/cityscapes/hpe_nas_ver1/test_2021-03-09-21-24
    • final_output_dir = output/cityscapes/hpe_nas_ver1/tes
  2. 2021.03.10:从epoch 139开始跑,wandb_dir=wandb/dryrun-20210310_082908-2onxcqfm

    • 感觉loss并没有被优化
  3. 更改模型:将hpe_nas_ver1复制出来变成hpe_nas_ver2,改变模型输出z:从sum变成concat再卷积。

    • wandb_dir = wandb/dryrun-20210310_111800-9fjqutou
    • wandb 进程:warn-river-2

    • Epoch=200
    • tensorboard_dir = log/cityscapes/seg_nas/test_2021-03-10-19-17
  4. 2021.03.11:

    • 3.中训练的warn-river-2,现在在167epoch,valid loss=0.4246, valid accuracy(miou)=0.334
    • 收敛不能
    • 打开了HRNet,尝试查看它的训练曲线。
      • 本地文件夹:code/HRNet-Semantic-Segmentation/
      • romote branch: remotes/origin/pytorch-v1.1
      • tensorboard_dir = log/cityscapes/seg_hrnet/seg_hrnet_w48_train_512x1024_sgd_lr1e-2_wd5e-4_bs_12_epoch484_2021-3-11-10-45
      • output_dir = output/cityscpaes/seg_hrnet_w48_ztrain_512x1024_sgd_lr1e-2_wd5e-4_bs_12_epoch484

onnx记录


  1. 目前使用的geno模型位置
    • /home/xnchen/code/NAS_HPE/output/coco/hpe_nas_ver1/train_geno_DAGarch/final_state.pth
  2. ONNX 导出器是一个基于轨迹的导出器,这意味着它执行时需要运行一次模型,然后导出实际参与运算的运算符. 这也意味着, 如果你的模型是动态的,例如,改变一些依赖于输入数据的操作,这时的导出结果是不准确的.同样,一 个轨迹可能只对一个具体的输入尺寸有效 (这是为什么我们在轨迹中需要有明确的输入的原因之一.) 我们建议检查 模型的轨迹,确保被追踪的运算符是合理的. 链接