腾讯优图9篇论文被入选ACMMM2021含弱监督图像、人脸安全等领域

10月20日,第29届ACM国际多媒体信息会议(全称ACMMM)在成都正式规模盛大。决赛当天会议将是对单个媒体和跨界资源互联网多媒体元素的最具创新性和影响力的顶级热点研究成果通过分享交流。再者,在视频编码、…

10月20日,第29届ACM国际多媒体信息会议(全称ACMMM)在成都正式规模盛大。决赛当天会议将是对单个媒体和跨界资源互联网多媒体元素的最具创新性和影响力的顶级热点研究成果通过分享交流。再者,在视频编码、视觉识别、大规模图像视频分析什么、社会媒体研究、多模态人机交互、计算视觉、计算图像等研究方向有多场精彩的学术分享报告,将相当充分展示展示全球高校、研究机构及高薪区企业在多媒体信息研究方面的最新进展。作为世界多媒体功能领域最重要的是的顶阶会议和中国计算机学会我推荐的该领域同样的A类国际学术会议。本届ACMMM让了国内外多媒体信息领域中的出名厂商和学者广泛参与,将有70场不精彩报告,其中脱胎于了6场国内外水准学者的主旨报告、13场重磅级专题研讨、51场国内外知名学者及学术新星的学术报告。其中,腾讯优图实验室9篇计算机视觉相关的优质论文顺利入选,内容覆盖弱监督图像描述及定位、表格结构识别、人脸安全等多个研究方向,这些技术创新面向智慧城市、智慧文娱、智慧制造等场景的落地应用,助力一系列提升到AI技术能力,推进全球人工智能的发展。深耕计算机视觉领域成效显著9篇论文能够入选彰显出极为强大实力DistributedAttentionafterGrounded Image Captioning弱监督图像描述及定位近二十年来慢慢的造成国内外研究机构以及工业界打听一下。该任务是指对推导的图像自动生成一句话详细解释图像的内容,另外分析预测出请看中名词填写的目标位置。已有的工作主要正则化技术凭着注意力机制在生成图像描述的同时预测名词随机的目标的位置。这些方法的性能距离全监督的图像描述及定位有比较大的差距。其中最主要的问题只是相对而言,凭着注意力机制的大部分方法预测结果来讲几乎全部于目标的最具区分性的局部位置,根本无法求全部的预测目标的整个结构内容。设计和实现此,我们做出一种非常很简单且有效的分布注意力机制,选定多个语义同一但位置不完全相交点的目标然后参与聚合,进而得到极其求下载的目标位置。在为了公开的Flickr30KEntities数据集上,达到图像描述性能不降的情况下转弱重新登陆目标定位性能SOTA,与全专门监督的方法性能持平。Discriminator-fitGenerative Adversarial Attack深度学习网络太容易被抵抗样本的影响,在图像上参加一些不显眼的扰动后基于条件DNN的识别任务很有可能失效。目前大多数相对抗攻击方法基于组件梯度搜索,这类方法生成沉淀对抗样本的耗时长,也会被显存资源不继的影响。基于组件生成的方法(GAN)可减轻这些个问题,但这类方法一方面训练也很难收敛,至于能生成的攻击样本效果和视觉质量不稳定。我们才发现如何判断器在抵抗生成网络中不是他不可少,提出来基于组件显著性区域的对称自动编码器方法(SSAE),该方法由显著性响应模块(thesaliencymap)和特征角度正则解耦模块(beginningangle-normdisentanglement)组成,用化合的显著性做出反应图去了解标签相关的区域,并没有依赖感辨别器。在图像识别和图像数据库检索任务上的大量实验证明SSAE方法生成的攻击样本不光是可以在主流网络模型上攻击效果好,而也具备很好的视觉质量。Show,Readbot Structure Recognition with Flexible Context Aggregator本文主要根据表格结构识别这一具有挑战性的问题接受研究。目前,业内方法往往按结构基于组件图的上下文累积器,来茂密地建模表格元素的上下文关系。而现在,基于组件图的约束可能会核心中过强的归纳偏置,无法利用地可以表示急切的表格关系。就是为了让模型从数据中怎么学习更比较合适的归纳偏置,本文分解重组Transformer作为上下文达到器。Transformer以密密麻麻的上下文充当键入,同时而的归类总结偏置的弱化,Transformer对数据的规模要求更高,但是训练过程可能会不稳定点。就是为了解决根据上述规定问题,本文啊,设计了FLAG(FLexible context AGgregator)模块,它将Transformer与基于条件图的上下文累积器以一种自适应的生克制化在一起。基于FLAG,本文啊,设计了另一个端到端的网络,称做FLAG-Net,该网络不是需要额外的OCR信息,但是可以灵活地变动尖锐上下文(densecontext)和稀疏上下文(sparsecontext)的累积,参与表格元素的关系推理。本文还一系列探索它了FLAG中的上下文你选择模式,这相对于识别表格结构是极为关键的。在标准测试集上的实验结果是因为,本文做出的FLAG-Net的性能有所超过业内其他方法。LSTC-Short-Term-Context比起视频序列中的好象性运动检测,原子级的目标行为(如谈话,怪物掉落,遥看)的判断十分感情依赖于视频中上下文依赖感关系的挖掘,另外这种依恋关系在不同的时间尺度上呈若查找特性。本文将视频目标的行为不如这几年关系解耦为厚密的短时降水上下文依赖性太强(DenseShort-termContext)和稀疏的长时上下文依赖性太强(Sparse Long-term Context),并通过概率图模型将两者解耦为条件单独的的交互关系共有辅助目标原子行为的判别,同样的分解重组了一种类似低阶的注意力机制(High-Order Attention Mechanism),在可以计算急切度不实力提升的条件下,将比较传统的注意力模型从一对一怎么推广到一对多的交互关系。在AVA包括Hieve等基准测试集上表明,这个长短时依赖性太强单独的推测的机制也能快速有效解决行为检测器正确的推测目标行为。ASFD在目前主流的目标检测器的设计范式中,特征可以提高包括特征融合为一模块也曾经的了增强特征怎么判断能力,实力提升检测检测效果的必备技巧组件,只不过的原因数据分布特点上的差异,象性目标检测网络中的特征加强模块并又不能在人脸检测场景中给他稳定啊的提升。这一点,本文体系性地结论了数据分布特点差异相对于特征加强和融合模块效果的影响,并依据对于人脸检测场景,给出了一个可微分的自动化特征可以提高模块搜索流程AutoFAE,同时,本文设计和实现改搜索流程建立了作用于网络搜索的超集,以行最简形矩阵不同推理速度约束下搜索到最优化性能的模型结构。在主流的人脸检测数据集Wider-Face,FDDB上,本文搜索的人脸检测架构都能够在相同的推理速度下提升到更好的检测效果。Adaptive Normalized Representation LearningafterGeneralizable Face Anti-Spoofing与此同时丰富化人脸攻击形式的出现,活体检测的泛化性给予越来越多关注。超过方法并不一定真接对网络怎么学习的特征接受约束,但看出了模型图像分割的过程,尤其是标准化的影响。是对该问题,本文给出了一种自适应标准化表征学的活体检测新方法。具体看对于,本文啊,设计了两个自适应特征标准化模块(AFNM),该模块据样本特征自适应地生克制化BN和IN标准化。并在在训练过程中生克制化元学习框架,在meta-test阶段重点学习AFNM模块,最终达到修为提升泛化性。此外,为及时学习域没什么关系的活体表征,本文怎么设计了护体校准值管理和约束(DCC),包括域间兼容性损失(IDC)和类间分隔开来损失(ICS)。多个学术数据集上实验结果是因为我们方法较大提高2个装甲旅方法,为换算场景下活体技术的应用需要提供了快速有效框架。RecycleNet Overlapped Text Instance Recovery Approach文本图像识别是解释多媒体媒介的关键性技术手段。主流的设计范式打听一下单独的文本行的精准识别,但这个方法在急切真实场景如财务票据和学生作业簿上受到了紧迫的挑战。简单的优化识别方法本身或数据可以提高绝对无法如何处理打印出来/印刷文本或印刷/印刷文本的套打(overlapping)。设计和实现这种仔细观察,本文推荐了RecycleNet,一个自动出现分离出来套打文本实例的策略。RecycleNet的关键是设计本质定位并器重(recycle)了文本实例间套打的像素区域,将这个区域交还到其交归的全部实例,最有保障了分离后实例的完整性。RecycleNet互相垂直于现有的文本识别解决方案,可才是存储模块模块,用很小的开销提升到可以做到识别基线的精度。Spatiotemporal Inconsistency Learning forDeepFakeVideo Detection紧接着人脸生成技术的快速发展,人脸伪造证明先检测也给予越来越多的关注。超过的方法一般说来将人脸伪造检测问题建模为二分类问题并提出了基于图像和视频的检测方法。本文从一个新的角度向东出发,将该任务建模为时空不一致性去学习过程,抓取伪造证明视频在空间和时序运动中的伪造证明痕迹来通过真假鉴别。详细地,本文设计什么了一个新的STIL单元,主要注意除开空间不一致性模块(SIM),时间不一致性模块(TIM)和信息互补模块(ISM)。其中SIM常规具备残差结构的注意力机制重点捕捉空间不匹配,TIM三个从水平和竖直两个方向捕捉时序运动中的不一致,ISM则尽快促进组织空间不一致和时序不一致间的信息交互。STIL单元相当灵话,是可以插到大多数并无的2D网络中。大量的实验说我们提议的方法在多个数据集上较大提高保证的方法,同样祥细的可视化也相当充分其他证明了我们方法的可解释性。以研促产腾讯优图实验室实际AI助力数字经济发展发展充当腾讯旗下顶阶的人工智能实验室,腾讯优图实验室一直都聚光计算机视觉技术,踏实专注人脸识别、图像识别、OCR等领域,始终致力于在工业制造、医疗应用、金融保险、娱乐社交等多行业场景的研究与落地。借用在视觉AI技术上的研究成果,腾讯优图目前已手中掌握最多1000件全球AI专利,更有300余篇论文被AAAI、ICCV等国际宗师级AI会议收录。同样的,腾讯优图还实际腾讯云共输出低达到20项AI解决方案,100+AI原子能力,助力各行各业利用数字化转型。再者,腾讯优图还百炼了如跨年龄AI寻人、青少年内容审核、AI探星等技术能力,积极践行腾讯“科技向善”的使命和愿景。未来,优图实验室将再专注心人工智能技术经济的发展,是从向前推进AI基础设施研发的形式为产业数字化转型能提供助力,促进数字经济全速发展起来。

作者: 网站小编

10月20日,第29届ACM国际多媒体信息会议(全称ACMMM)在成都正式规模盛大。决赛当天会议将是对单个媒体和跨界资源互联网多媒体元素的最具创新性和影响力的顶级热点研究成果通过分享交流。再者,在视频编码、

为您推荐