全景分割论文阅读:MaX-Deeplab:End-to-End Panoptic Segmentation with Mask Transformers_max-deeplab: end-to-end panoptic segmentation with-程序员宅基地

技术标签: 计算机视觉  图像分割系列  深度学习  

标题:Max-DeepLab:使用掩模Transformer进行端到端全景分割
作者:Huiyu Wang,Yukun Zhu,Hartwig Adam,Alan Yuille,Liang-Chieh Chen
机构:Johns Hopkins University ,Google Research
论文地址https://arxiv.org/abs/2012.00759
项目地址:暂未开源代码

摘要

文章方法很大程度上简化了依赖于子任务和手动设计的组件(例如,bbox检测,NMS,thing-stuff合并)的现有方式。
相比之下,本文的MaX-DeepLab可通过Mask Transformers直接预测带有类别标签的Mask,并通过二分法匹配以全景质量启发的损失(panoptic quality inspired loss via bipartite matching. )进行训练。
网络具体设计是Mask Transformers采用双路径架构,除了CNN路径外,还引入了全局memory路径,从而允许与任何CNN层直接通信。
结果:在COCO数据集上,相比之前的的box-free策略的方式,提升了7.1%PQ。此外,MaX-DeepLab就可以在COCO test-dev上达到最新的51.3%PQ。

  • mask transformer是怎么设计的?原理是怎样的?
  • 优化指标loss是怎么设计的?
  • 网络架构是怎么样的?
  • 所谓的全局memory路径指的是?
  • 效果为什么会好?

介绍

之前的方式: 将全景分割任务分成子任务分支,采用多种分开设计的模型。这些方法在单独的分支效果都还可以,但是处理复杂的全景分割任务时,效果就不那么好了。
在这里插入图片描述
在这里插入图片描述
总结起来,之前的方式两类:基于box的,和box free的。box free 的主要以上图b、c为例,缺陷在于难以处理高度不规则的目标和挨得过近的目标。

本文方法:受DETR的启发,我们的模型通过一个Mask Transformer直接预测了一组不重叠的mask及其对应的语义标签。 输出masks和labels使用全景质量(PQ)样式的目标进行了优化。我们将两个类别标记的mask之间的相似性度量定义为它们的mask相似度与class类别相似度的乘积。然后训练模型的目标是最大化groud truth mask和预测的mask的相似性(通过二分法匹配)。

总结Contribution

  • MaX-DeepLab是第一个用于全景分割的端到端模型,无需像对象中心或盒子那样经过手工编码的先验即可直接推断蒙版和类。
  • 我们提出了一个训练目标,即通过预测蒙版和地面真相蒙版之间的PQ样式二分匹配来优化PQ样式的损失函数。
  • 我们的双路径转换器使CNN可以在任何层上读写全局memory,从而提供了一种将transformer与CNN结合的新方法。
  • MaX-DeepLab缩小了基于box的方法与box-free的方法之间的差距,并在不使测试时间增加的情况下在COCO上达到了最高水准。

相关工作

  • Transformer
  • box-based Panoptic segmentation
  • box-free Panoptic segmentation

本文方法

表示形式
将每个像素点label的形式表示为:(mi,ci)。mi属于{0,1},ci则属于某一语义类别。这样,就能将所有的thing和stuff一致性表示,并且相互分离。(mi=0/1表示前后景,也就是thing和sutff)。这样就不用有合并thing和stuff的步骤了。
问题:不同instance 对象怎么确定的?

推理阶段
ci就是网络输出的类别概率,通过一个max操作就能取得概率最大的类别作为预测类别。像素赋予maskID。

PQ loss

  • 优化指标loss是怎么设计的?
    首先,我们在类标记的地面真相掩膜(ground truth mask)和预测掩膜(predict mask)之间定义了PQ风格的相似性度量。 接下来,我们展示如何使用此度量将预测掩码与每个地面真理掩码匹配,最后如何使用相同度量来优化模型
    Mask similarity metric:
    在这里插入图片描述
    其中ˆpj(ci)∈[0,1]是预测正确类别(识别质量)的概率,而Dice(mi,ˆmj)∈[0,1]是预测的掩码ˆmj与地面之间的Dice系数 。 0<=sim<=1。

Dice系数是,根据Lee Raymond Dice [1]命名,是一种集合相似度变量函数,通常是计算两个样本的相似度(值范围为[0,1])。参考https://www.aiuai.cn/aifarm1159.html

Mask matching

采用bipartite matching来实现预测和label的的匹配。文章采用的匈牙利算法。取前N个最好的匹配结果作为计算loss 的匹配positive mask。
作者这里提到:

But in our case, assigning multi- ple predicted masks to one ground truth mask is problematic too, because multiple masks cannot possibly be optimized to fit a single ground truth mask at the same time

那为什么还是这么做的呢?直觉上,应该就分配一个匹配度最高的不是吗??

loss的具体形式
上面已经提过了,优化目标转化为最大化预测mask和label的相似度度量(匹配上的mask)。
在这里插入图片描述
即:
在这里插入图片描述
但是作者在实际用的时候,通过应用梯度的乘积规则,然后将概率^p更改为对数概率log ˆp,将Opos PQ重写为两个常见的损​​失项。因为 从pˆ到logˆp的变化与常见的交叉熵损失一致,并在实践中更好地缩放梯度以进行优化。
在这里插入图片描述
最后,作者还考虑那些negative (unmatched) masks的损失,作为正则项,最终的损失函数如下:
在这里插入图片描述

看到这里其实整篇文章端对端的设计思路很清晰了。

网络结构设计

  • 网络架构是怎么样的?
    在这里插入图片描述
    网络由两个路径构成:CNN路径(Pixel Path-输入图像)、Memory路径(size N,前一次的预测结果??)。中间结构如图所示,有许多个卷积和Dual-Path Transformer模块堆叠而成。最后分别接上采样层和2个全连接层(接softmax)得到预测mask和类别。最后双线性插值上采样到原始分辨率。

具体详细结构

在这里插入图片描述
在这里插入图片描述

额外的(辅助)损失函数
文章提到,除了上面说的PQstyle相似性损失,加入附加损失是对训练有帮助的。
包括:

  • 实例判别损失:帮助实例特征聚类
    首先对groud truth mask降采样到1/4大小,进行特征编码,然后对编码的特征进行实例判别。
    在这里插入图片描述

  • 像素mask-ID交叉熵损失:分类每个像素到对应的N个mask

  • 语义分割损失:加入了语义分割头(同Panoptic-Deeplab论文中)

Ablation 实验

这部分主要是对:1、不同尺度的输入大小对结果的影响;2、Dual-path transformer结构设计中attention模块的选择设计以及Dual-path transformer模块的深度选取;3、不同损失函数的效果
做了一些实验选取了最优搭配。

在这里插入图片描述

结果

结果就是很diao!
有一个问题:
mask-ID prediction结果不是特别高,实验大概有10%的错误率。像素mask-ID交叉熵损失是否有改进空间?

其实看着结构很清楚,但是里面的内容还有很多疑问:

  • 什么是Transformer?里面的attention机制又是什么?
    有一篇比较好的讲解:https://jalammar.github.io/illustrated-transformer/
  • 文中双路transformer用的几种attention机制有什么不同和特点?
  • 上面的Memory路径的输入是什么?
    是之前的预测结果:mask和class??但是文中写的memory path输入大小是N×d_in。不太懂。。。有看懂的兄弟姐妹评论告诉我一下。
    DETR那篇论文中的Memory看代码是Encoder的输出。那这里的呢
  • 不同的实例是怎么确定的?
  • 能取得好的结果的深层次原因是什么?

回头再看吧


更新

又看了一遍论文,论文的mask生成和语义类别是类似于SOLO的方法。但是论文里面讲得很模糊…应该是预测的N个(常数)不同mask放在不同的通道维度上,对应的语义类别分支也是N维(C个类别),然后一一对应。
所以这样的话,不同的对象(stuffs和things)是自然而然的分离的,id当然可以直接以mask所在的第i通道作为mask内的所有像素的id。
在这里插入图片描述
这个公式。没有看太懂,有看懂的兄弟姐妹评论告诉我一下。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_43572595/article/details/112506634

智能推荐

Go游戏服务端框架从零搭建(一)— 架构设计_go 游戏服务器框架-程序员宅基地

文章浏览阅读4k次,点赞2次,收藏18次。本教程以Go语言分区游戏服务端框架搭建为例。Go语言是Google开发的一种静态强类型、编译型、并发型、具有垃圾回收功能的编程语言。语法上近似C语言,支持接口、可通过struct包含另一个struct方式实现继承等面向对象的概念。性能上媲美C/C++,相比C/C++更健壮,更易开发并发程序。我以前也写C++服务端,接触Go后,更倾向用Go做游戏服务端开发。所谓分区游戏,指游戏将分为很多个区,不..._go 游戏服务器框架

用matlab编写了一个DSP数据处理小软件_在振动信号测试过程中,由于仪器设备或测试环境的限制,有的物理量往往需要通过-程序员宅基地

文章浏览阅读3.1k次,点赞2次,收藏25次。因为当系统出现故障时,故障通常会对系统信号产生调制作用,使系统的响应信号振幅产生周期性的变化(调幅),或者频率产生周期性的变化(调频),这种周期性变化的频率对应于故障发生的频率,变化的大小对应于故障的强弱,经过本软件希尔伯特变换得到瞬时频率和瞬时振幅,即可找到故障发生的频率和故障强弱,希尔伯特变换在故障诊断中具有广泛的运用。5、将调制后的信号进行FFT变换:频分析->频谱,可看出以30HZ的载波频率为中心,间隔5HZ及10HZ的边频(调制信号的频率),通过边频分析定位故障源也是NVH故障分析的一种方法。_在振动信号测试过程中,由于仪器设备或测试环境的限制,有的物理量往往需要通过

linux“软连接已断”——检查文件名是否包含空格_linux软链接断开-程序员宅基地

文章浏览阅读1.7k次。今天在给数据集something-something v2创建软连接的时候出现了连接已断的问题,如下图所示:仔细观察提示发现文件路径显示的是“v2/”,因此应该是我的数据集文件名包含空格导致的问题。接着我把..._linux软链接断开

chatgpt综述和报告_chatgpt研究与应用报告-程序员宅基地

文章浏览阅读753次。它可以根据用户输入的指令完成各种语言相关的任务,例如写文章、写代码、回答问题、日常聊天等等,能够极大地提高人们的生产力,这归功于它所表现出的强大的意图理解能力、流畅的对话能力和丰富的世界知识。【ChatGPT原理】第01篇,ChatGPT原理剖析 李宏毅,10分钟了解ChatGPT为什么是“真正的人工智能”,ChatGPT原理深度解析,深度解析ChatGPT的底层逻辑,为什么他能改变世界?语言模型其实是自回归模型,自回归模型把上一个的输出作为下一个的输入,循环迭代,根据之前的输入来输出。_chatgpt研究与应用报告

python基础模型_零基础python代码策略模型实战-程序员宅基地

文章浏览阅读1.1k次,点赞2次,收藏7次。内容摘要1本文概述本文主要介绍了python基础、爬虫、与数据库交互、调用机器学习、深度学习、NLP等。分别介绍了各个模块的安装,环境的搭建等。并且以机器学习选股为例,把各个模块连贯起来,核心代码基本都有详尽的解释。2大数据AI时代,python无往不胜Python的包装能力、可组合性、可嵌入性都很好,可以把各种复杂性包装在Python模块里,非常友好的供调用。Python资源丰富,深度学习如ke..._textblob。加自定义词

php把时间改为星期,php时间如何转换成周-程序员宅基地

文章浏览阅读202次。php时间转换成周的方法:1、通过“date('w',$time);”方法获取到星期几;2、通过“date('W',$time);”获取到本年度的第几周。1、date('w',$time); 取到的是星期几 0-62、date('W',$time); 取到的是本年度的第几周1-53PHP date() 函数PHP date() 函数可把时间戳格式化为可读性更好的日期和时间。Tip时间戳是一个字符序..._php 202310转成年和周

随便推点

arcgis不闭合线转面_arcgis线转面的方法-程序员宅基地

文章浏览阅读3.3k次。1.FeaturetoPolygon这种方法,顾名思义,就是要素转多边形。在ArcToolBox中,依次找到DataManagementTools—>Features—>FeaturetoPolygon,在弹出的对话框中设置好线要素文件以及生成的多边形存储的位置和文件名,点击确定即可。多边形生成结束后会自动添加到ArcGIS的TOC窗口中。2.PolygonFeatureC..._arcgis线转面时线需要闭合吗

讲解计算机语言如何导入,【中学计算机教学语言浅析】 计算机语言排行-程序员宅基地

文章浏览阅读143次。[内容摘要]教学语言是课堂教学中师生之间交流思想的重要工具,教师可以通过教学语言把知识传授给学生。教师的教学语言水平是实现高效课堂教学的关键。教学语言是一门独特的艺术,教师要会运用这门艺术,捕捉最佳的教学时机,以达到自己的教学目标。[关键词]中学;计算机教学;语言语言是进行计算机教学的重要手段。同一教学内容,有些教师通过简单的讲解就能使学生茅塞顿开,很快掌握操作的技巧;有些教师讲得口干舌燥,却并没..._计算机选择语句的讲课导入

ubuntu 上安装 git并上传代码至github-程序员宅基地

文章浏览阅读840次。版权声明:本文为博主原创文章,未经博主允许不得转载。参考博客http://www.xitongzhijia.net/xtjc/20150320/42297.htmlhttp://blog.csdn.net/ipatient/article/details/513341531.Ubuntu下安装GitUbuntu14.04 LTS默认是已经安装Git的,可以使用 gi

SpringBoot2.0+Shiro+MyBatisPlus权限管理系统_企业员工角色权限管理平台(springboot2.0+mybatis+shiro+vue)-程序员宅基地

文章浏览阅读872次。项目描述Hi,大家好,今天分享的项目是《SpringBoot+Shiro权限管理系统》,这是一个SpringBoot+Layui后台管理系统,使用Shiro安全框架,加入访问权限,对不同角色有不同的访问权限,其他管理可以依据情况添加上去。相信无论作为企业级应用,私活开发脚手架或者权限系统构建学习,该项目都会是一个不错的选择。本系统模块如下:用户管理管理用户数据用户分角色角色管理管理角色数据使用ztree实现角色分配权限权限管理管理权限数据实现了SwaggerAP_企业员工角色权限管理平台(springboot2.0+mybatis+shiro+vue)

cpu上干硅脂怎么清理_cpu老硅脂怎么清理-程序员宅基地

文章浏览阅读1.6w次。清理CPU上面的老硅脂主要有:准备工具、拆电脑后盖、铲除硅脂、清理硅脂等四个步骤。硅脂具有一定的挥发性,在CPU的热冷交替的工作环境下,为保持良好的性能,需要定期更换硅脂,在涂抹新硅脂前,需要对原有的老硅脂进行清除。1、准备工具。清理CPU上的老硅脂需要准备合适的小螺丝刀,这里需要最电脑进行拆装,需要准备适合电脑的小型十字头螺丝刀,平口小铲子、软布,软布可以选择棉质的眼镜布、干净的棉签、酒精。2、..._旧硅脂怎么清理

Windows Mobile SDK例子浅析_tmobilesdk-程序员宅基地

文章浏览阅读1.5k次。Windows Mobile SDK例子浅析SDK目录下提供了丰富的例子,开发中各方面的内容都有涉及,是开发者可充分利用的宝库。以Windows Mobile 5.0 Pocket PC SDK和Windows Mobile 5.0 Smarphone SDK为例,简单介绍一下其提供的例子。需要说明的是,两者中有部分例子是相同的。 AXSample示例演示创建一个ActiveX控件以及如何在web页中访问该控件。 _tmobilesdk

推荐文章

热门文章

相关标签