前段时间,何恺明等人的一篇论文成为了计算机视觉圈的焦点这篇论文仅用简单的 idea就达到了非常理想的性能,让人们看到了 Transformer 扩展到 CV 大模型的光明前景,给该领域的研究者带来了很大的鼓舞
那么,MAE 就是大模型视觉模型预训练方法的巅峰了吗显然不是,一大波挑战者已经在路上了,比如字节跳动,约翰霍普金斯大学等机构组成的联合团队
在一篇最新的论文中,他们提出了适用于视觉任务的大规模预训练方法 iBOT,通过对图像使用在线 tokenizer 进行 BERT 式预训练让 CV 模型获得通用广泛的特征表达能力该方法在十几类任务和数据集上刷新了 SOTA 结果,在一些指标上甚至超过了 MAE
在 NLP 的大规模模型训练中,MLM是非常核心的训练目标,其思想是遮住文本的一部分并通过模型去预测这些遮住部分的语义信息,通过这一过程可以使模型学到泛化的特征NLP 中的经典方法 BERT 就是采用了 MLM 的预训练范式,通过 MLM 训练的模型已经被证明在大模型和大数据上具备极好的泛化能力,成为 NLP 任务的标配
实验结果
从 Linear probing及 k—NN 分类的结果上来看,iBOT 使用 ViT—B/16 达到 79.5% 线性分类准确度,超越了 DINO 的 78.2%,使用 Swin—T/14 达到 79.3% 准确度,超越了 EsViT 的 78.7%,使用 ViT—L/16 及 ImageNet—22K 作为预训练数据达到 81.6% 准确度,为目前 ImageNet—1K 线性分类基准上最高的结果。
从 Fine—tuning 的结果上来看,使用 ImageNet—1K 作为预训练数据及 ViT—B/16 时 iBOT 可达到 83.8% 准确率,高于 DINO,MAE 的 83.6%,使用 ImageNet—22K 作为预训练数据及 ViT—L/16 时 iBOT 可达到 86.3%,高于 BEiT 的 86.0%。
近期 masked autoencoding 的思路可谓在视觉领域大火,和近期一些工作对比,BEiT 使用了一个预训练好的 DALL—E encoder 作为 tokenizer,将每个 patch 标签离散化后的 one—hot 编码作为目标模型的标签。。
而 MPP 及近期较火的 MAE 则可将 tokenizer 视为恒等变换,即直接在像素空间内进行回归而非分类。记者从智源研究院获悉,“悟道科研基金”首期设立2500万元(人民币,下同)基金池,择优为全国高校学者等科研团队单一项目提供价值50万元的科研经费支持,其中包括20万元经费资助及价值30万元的算力资助。
。声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。
CA-CAP(中国汽车耐腐蚀与老化性能评价规程)在海南博鳌举办,标志着我国汽车行业耐腐蚀与抗老化测评领域向前迈进一大步,
2022-02-14 19:44北京冬奥会开幕在即,新冠病毒已经进化出传染力更强的奥密克戎新变种,加上病毒喜寒畏热的特性,叠加春运大范围的人员流动,其防
2022-01-28 08:13又是一年岁末时,按照惯例,春节应是亲友团聚的欢乐时期。然而疫情的突袭,让家人的团聚变得更加珍贵,也让更多的家庭明白健康的
2022-01-26 16:31在这个飞速发展的信息化时代,高端产品已经越来越不是“一锤子买卖”,售后服务成为了增强用户黏性、促成口碑向销量转化的关键所
2022-01-26 14:51今年以来,沃尔沃动作频繁,受到了业界内外的广泛关注。3月,沃尔沃宣布将在2030年实现全面电动化,成为纯电豪华品牌,且所
2022-01-18 14:34