前言 本文介绍了一个新的研究方向,之前提到过新的研究方向容易出论文,对于尚在纠结方向的读者,可以去了解一下。
转载自AI科技评论
论文地址: https://arxiv.org/pdf/2110.08733.pdf
代码与数据: https://github.com/Junjue-Wang/LoveDA
第一作者主页:
http://junjuewang.top/ ;http://zhuozheng.top/
该工作是武汉大学测绘遥感信息工程国家重点实验室RSIDEA团队在地表覆盖分类方面的工作,已被NeurIPS 2021 Datasets and Benchmarks Track接收。在大规模高分地表覆盖制图任务中,城市和农村发展不同与地理环境差异限制深度网络的泛化性。本文构建了一个城市-农村域自适应地表覆盖数据集LoveDA(Land-cOVE dataset for Domain Adaptation)同时推进推进语义分割和迁移学习。LoveDA 数据集包含来自三个不同城市的5987张0.3m高分辨率影像和166,768个标注语义对象。LoveDA 数据集包含两个领域(城市和农村),这带来了相当大的挑战:1)多尺度对象;2)复杂的背景样本;3)不一致的样本分布。LoveDA 数据集适用于土地覆盖语义分割和无监督域适应(UDA)任务。因此,我们在11种语义分割方法和8种域自适应方法上对 LoveDA 数据集进行了基准测试。此外还进行了一些探索性研究,包括多尺度架构和策略、额外的背景监督和伪标签分析,以应对这些新挑战。
1
数据集特色
1. 来自南京、常州、武汉共5987幅高空间分辨率(0.3 m)遥感影像
2. 关注城乡不同地理环境,推进语义分割和域自适应任务
3. 三大挑战:多尺度对象 复杂的背景样本 不一致的类分布
2
数据分布与采集标注
图1:LoveDA数据分布图
LoveDA数据集由0.3 m影像构建,采集于南京、常州和武汉,数据来源Google Earth,采集时间为2016年7月,总覆盖地理面积536.15 (图1)。由于每个研究领域都有自己的规划策略,城乡比例不一致。收集了农村和城市地区的数据参照国家统计局发布的城乡分区代码。从经济发达地区选择了九个人口稠密(> 1000 )城市地区。其他九个农村地区选自未开发地区。经过几何配准和预处理,每个区域都被1024 ×1024 影像无重叠覆盖。
3
数据集统计量
图2:LoveDA统计量图
(a) 相较于现有亚米高分辨率地表覆盖数据集,我们数据集拥有多的像素样本与标记地物目标。
(b) 建筑物拥有最多的实例标注。
(c) 背景类包含最多具有复杂样本的像素,复杂背景样本在复杂场景中具有较大的类内方差,会导致严重的误报。
4
城市-郊区场景差异
图3:城市-郊区差异分析图
(a) 由于人口密度高,城市地区总是包含更多的人造物体,例如建筑物和道路。相比之下,农村地区的农业用地更多。城乡场景之间的类分布不一致,增加了模型泛化的难度。
(b) 由于农业、水域等大范围的同质化地理区域,乡村区域影像光谱方差更低。
(c) 农村地区大部分建筑规模较小,呈现“长尾”现象。然而,城市场景中的建筑物具有较大的尺寸差异。其他类别也存在尺度差异,见图1。多尺度对象要求模型具有多尺度捕获能力。面对大规模的土地覆盖制图任务时,城乡场景的差异给模型的可迁移性带来了新的挑战。
5
主要实验结果
5.1 语义分割实验
我们测试了11个先进语义分割模型在LoveDA上的性能,在结果中我们发现拥有Multi-scale结构的网络能够好处理LoveDA中多尺度目标问题。因此,我们进一步引入多尺度训练(MSTr)与多尺度测试(MSTrTe),发现各类网络模型性能得到了进一步提升。
5.2 领域自适应实验
同时,我们测试了8种域自适应方法在LoveDA城市-农村中迁移性能。我们发现自训练的方法要优于强化学习方法。因为城市-农村之间存在不一致的样本分布问题,自训练方法通过伪标签生成的方式能够产生目标域样本,能够缓解此问题。具体分析请见原文。
6
总结
在这项工作中,我们通过构建LoveDA数据集,抛出城市-农村地理环境差异引发的迁移问题,该数据集包含两类任务与三个地球视觉挑战。测试了11类语义分割与8类域适应方法,为后续模型开发提供基础与参考。我们希望LoveDA能够同时推进语义分割与迁移学习在地球视觉中的发展,从而推动大尺度地表覆盖制图模型的研究与应用。
本文仅做学术分享,如有侵权,请联系删文。
3D视觉精品课程推荐:
1.面向自动驾驶领域的多传感器数据融合技术
2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码) 3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进 4.国内首个面向工业级实战的点云处理课程 5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解 6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦 7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化 8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)
9.从零搭建一套结构光3D重建系统[理论+源码+实践]
10.单目深度估计方法:算法梳理与代码实现
重磅!3DCVer-学术论文写作投稿 交流群已成立
扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群,目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。
一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。
▲长按加微信群或投稿
▲长按关注公众号
3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:
学习3D视觉核心技术,扫描查看介绍,3天内无条件退款
圈里有高质量教程资料、答疑解惑、助你高效解决问题
觉得有用,麻烦给个赞和在看~