宇宙链 宇宙链
Ctrl+D收藏宇宙链

完全基于Transformer的目标检测器,ICLR匿名论文视觉、检测统一

作者:

时间:1900/1/1 0:00:00

机器之心报道

编辑:陈萍

一种新的集成视觉和检测Transformer的目标检测器ViDT。

Transformer在NLP任务中取得不错的发展,许多研究将其引入到计算机视觉任务中。毫不夸张的说,Transformer正在改变计算机视觉的格局,尤其是在识别任务方面。例如Detectiontransformer是第一个用于目标检测的、端到端的学习系统,而visiontransformer是第一个完全基于transformer的图像分类架构。在本文中,一篇被ICLR2022接收的匿名论文集成了视觉和检测Transformer(VisionandDetectionTransformer,ViDT)来构建有效且高效的目标检测器。

ViDT引入了一个重新配置的注意力模块,将SwinTransformer扩展为一个独立的目标检测器,之后是一个计算高效的Transformer解码器,该解码器利用多尺度特征和辅助技术,在不增加计算负载的情况下提高检测性能。

Haru Invest:由于未完全确定B&S可收回资产规模,计划利用公司内部资产进行补偿:7月14日消息,Haru Invest发文称,由于尚未完全确定B&S Holdings持有的可收回资产的具体规模,目前很难追偿,因此正在考虑利用公司内部资产进行补偿,以防 B&S 持有的资产回收需要更长的时间。为此,Haru Invest正在整理债权债务数据库,并审查资产分配方案。同时,Haru Invest表示,需要为每个产品制定一个补偿计划。

目前,团队在暂停存取款服务后,暂停了所有运营,限制了对公司资产和账户的访问,并终止了全体员工的合同,以防止与B&S持有的资产和数据相关的损坏和丢失,并最大限度地降低运营成本以保护客户资产的损失。此外,由于客户资产金额是根据上个月暂停存取款后数据库中的特定时间点确定的,因此,如有系统错误或额外交易,如赚取收益等,团队将提前告知用户,未来付款可能不会纳入客户资产数据库。

本周开始,Haru Invenst 准备组织数据库来识别客户债权与债务、组织和保存退回的资产、制定资产分配计划。[2023/7/15 10:56:11]

在MicrosoftCOCO基准数据集上的评估表明,ViDT在现有的完全基于transformer的目标检测器中获得了最佳的AP和延迟权衡,其对大型模型的高可扩展性,可达49.2AP。

Social Capital创始人:巴菲特加密货币没有价值的说法是完全错误且过时的:Virgin Galactic、Social Capital创始人Chamath Palihapitiya表示不认同沃伦·巴菲特“加密货币没有价值”的评论,他认为巴菲特的观点是完全错误且过时的。此前报道,Chamath Palihapitiya表示,每个人都应将其净资产的1%投资于比特币。(Fxstreet)[2020/2/29]

论文地址:https://openreview.net/pdf?id=w4cXZDDib1H

ViDT:视觉与检测Transformer

ViDT架构如下图2(c)所示:

首先,ViDT引入了一种改进的注意力机制,名为ReconfiguredAttentionModule(RAM),该模块有助于ViT变体处理附加的和token以进行目标检测。因此,ViDT可以将最新的带有RAM的SwinTransformer主干修改为目标检测器,并利用其具有线性复杂度的局部注意力机制获得高可扩展性;

声音 | 埃森哲:只有5%的风险经理能完全评估与区块链相关的风险:据新浪财经报道,埃森哲今日发布一项调查研究,对全球银行、保险和资本市场近700名风险管理高管的调查,结果显示:金融公司正在努力评估颠覆性技术的风险。只有11%的风险经理完全有能力评估在整个组织中采用人工智能(AI)的风险,更少的受访者表示他们完全有能力评估与机器人流程自动化(RPA)或区块链相关的风险(分别为9%和5%)。[2019/12/10]

其次,ViDT采用轻量级的无编码器neck架构来减少计算开销,同时仍然在neck模块上启用额外的优化技术。请注意,neck编码器是不必要的,因为RAM直接提取用于目标检测的细粒度表示,即token。结果,ViDT获得了比neck-free对应物更好的性能;

最后,该研究引入了用于知识蒸馏的token匹配新概念,它可以在不影响检测效率的情况下从大型模型到小型模型带来额外的性能提升。

声音 | 以太坊基金会负责人:基金会将不再完全专注于ETH 而是关注平台其他重点领域:据Crypto Globe消息,近日,ETH基金会负责人Aya Miyaguchi表示,随着以太坊的发展,以太坊基金会将重新定义使命,不再完全专注于以太坊,而是扩大其目前的参与度。Aya Miyaguchi承认以太坊发展面临着技术和业务的相关挑战,但重要的并不是关注ETH当前价格,而是开发区块链基础设施。以太坊正在努力确保其发展,并希望专注于从各个实体获得额外资助,以帮助以太坊平台发展其他重点领域。[2019/3/4]

RAM模块

该研究引入了RAM模块,它将与和token相关的单个全局注意力分解为三个不同的注意力,即×、×和×注意力。如图3所示,通过共享和token的投影层,全部复用SwinTransformer的所有参数,并执行三种不同的注意力操作:

声音 | 李翰璋:区块链等技术完全融入Oracle云的全线产品及服务:据经济观察报消息,近日,甲骨文高级副总裁李翰璋表示,2018年云计算市场走入新的转折,客户与云厂商之间正转向新的互动模式。在技术落地上,将自治、人工智能、机器学习、物联网、区块链、大数据等新兴技术完全融入Oracle云的全线产品及服务,切实做到新兴技术的应用与落地。[2019/2/5]

ENCODER-FREEneck结构

为了利用多尺度特征图,ViDT结合了多层可变形transformer解码器。在DETR家族中,其neck部分需要一个transformer编码器,用于将从骨干中提取的用于图像分类的特征转换为适合目标检测的特征;编码器通常在计算上很昂贵,因为它涉及×注意力。然而,ViDT只保留了一个Transformer解码器作为其neck,因为带有RAM的SwinTransformer直接提取适合目标检测的细粒度特征作为独立的目标检测器。因此,ViDT的neck结构在计算上是高效的。

解码器从带有RAM的SwinTransformer接收两个输入:从每个阶段生成的token从最后阶段生成的token,如图2(c)的Neck所示。在每个可变形的transformer层中,首先执行×注意力。对于每个token,应用多尺度可变形注意力以生成一个新的token,聚合从多尺度特征图

中采样的一小组关键内容:

用于目标检测的token匹配知识蒸馏

虽然大型模型具有实现高性能的高容量,但在实际使用中它的计算成本可能很高。因此,该研究还提出了一种简单的知识蒸馏方法,可以通过token匹配从大型ViDT模型中迁移知识。

匹配每一层的所有token在训练中非常低效,因此,该研究只匹配对预测贡献最大的token。两组token直接相关:P:用作多尺度特征图的token集合,由body中的每个阶段生成,D:token的集合,它们是从neck的每个解码层生成的。因此,基于token匹配的蒸馏损失公式为:

评估

表2将ViDT与DETR(ViT)和YOLOS的AP、FPS等进行了比较,其中DETR(ViT)有两个变体:DETR和DeformableDETR。

实验结果表明:ViDT实现了AP和FPS之间的最佳权衡。凭借其高可扩展性,其性能优于1亿个参数的Swin-base,在相似的AP的下,FPS比DeformableDETR快2倍。此外,ViDT参数为16M,得到40.4AP,比DETR(swin-nano)和DETR(swin-tiny)高分别高6.3AP、12.6AP。

表3对比了不同空间位置编码与ViDT的结果。结果表明:pre-addition比post-addition带来的性能提升更高,即sinusoidalencoding优于learnable编码;因此,正弦空间编码的2D归纳偏置在目标检测中更有帮助。特别是,与不使用任何编码相比,使用正弦编码的预加法将AP增加了5.0。

表4总结了使用不同选择策略进行交叉注意力时的AP和FPS,其中SwinTransformer总共包含四个阶段。有趣的是,只要在最后阶段激活交叉注意力,所有策略都表现出相似的AP。由于在各个阶段中以自下而上的方式提取特征,因此在低级别阶段很难直接获得有关目标对象的有用信息。因此,研究者想要获得较高的AP和FPS,只使用最后阶段是最好的设计选择,因为token的数量最少。

为了彻底验证辅助解码损失和迭代框细化的有效性,该研究甚至对YOLOS等neck-free检测器进行了扩展。表5显示了两种neck-free检测器YOLOS和ViDT(w.o.Neck)性能。实验结果证明在ViDT中使用Neck解码器来提高目标检测性能是合理的。

下图表明:教师模型的规模越大,学生模型的收益越大。从系数来看,系数值越大,性能越好。模型蒸馏将AP提高了1.0-1.7,而不会影响学生模型的推理速度。

研究者将所有提议的组件结合起来,以实现目标检测的高精度和速度。如表8所示,有四个组件:(1)RAM将SwinTransformer扩展为独立的目标检测器,(2)neck解码器利用多尺度特征和两种辅助技术,(3)从大模型中获益知识蒸馏,(4)解码层drop进一步加快推理速度。结果表明:当使用Swin-nano作为其主干时,它仅使用13M参数就达到了41.7AP和合理的FPS。此外,当使用Swin-tiny时,它仅损失了2.7FPS而表现出46.4AP。

标签:DETETRRAMDET币是什么币ETR价格ETR币RAM币RAM价格

比特币交易所热门资讯
利用链游进行流动性挖矿的IDO,是变相ICO吗?会构成非吸吗?

李泽民律师:广强经济犯罪辩护与研究中心主任韩武斌律师:广强经济犯罪辩护与研究中心核心律师韩武斌律师,中南财经政法大学刑法学硕士.

1900/1/1 0:00:00
usd是什么币种?

usd是什么币种?是美元币种。USD英文UnitedStatesdollar的缩写,中文意思是美元;美元则是美国的通用货币。美元的国际通用货币代码为USD,它的货币符号是$.

1900/1/1 0:00:00
在国际贸易货币排名中,人民币超过日元排名第四?前3名都是谁?

引言 世界上拥有着很多的国家,而很多国家也拥有着自己的国家货币。虽然有些国家的成立时间较晚,所以在货币的使用上使用的是外来货币。但是货币确实对于一个国家拥有着非常重要的意义.

1900/1/1 0:00:00
船舶与海洋工程:传统专业新的青春之路

目录|CONTENTS: 专业认知 培养方案 知名高校 未来规划 就业前景 入门书籍第一章专业认知 一、专业溯源 古往今来,人类的生存发展从没有离开过海洋.

1900/1/1 0:00:00
硬币卡在幼童肠中3个月,被医生微创取出,避免开腹

大河报·豫视频记者林辉通讯员李杰靳玉红2021年11月,3岁的男童晗晗在家玩耍的时候,误吞了一枚硬币,被紧急送到当地医院就诊.

1900/1/1 0:00:00
TMT时报|字节跳动去世员工家属称获赔2000万是“假的”;蚂蚁集团第三财季净利润9.12亿美元;受俄乌克局势影响,比特币大跌9.89%

《科创板日报》2月24日讯今日财联社TMT要闻精选主要内容有:网传字节跳动去世员工家属获赔2000万,逝者母亲回应是“假的”;阿里巴巴第三财季净利同比下降75%.

1900/1/1 0:00:00