单目标跟踪是计算机视觉领域中的研究热点. 传统算法如相关滤波的跟踪速度较快, 但由于提取到的颜色、灰度等手工特征较为粗糙, 跟踪精度往往不高. 近年来随着深度学习理论的发展, 使用深度特征的跟踪方法能够在跟踪的精度和速度方面达到很好的平衡. 本文首先介绍单目标跟踪的相关背景, 接着从相关滤波单目标跟踪、深度学习单目标跟踪两个阶段对单目标跟踪领域发展过程中涌现出的多个算法进行梳理, 并详细介绍目前主流的孪生网络算法. 最后通过大型数据集对近年来优秀算法进行对比分析, 针对其缺点与不足, 对该领域未来的发展前景做出展望.
Single object tracking is a research focus in the field of computer vision. Traditional algorithms including correlation filtering have fast tracking speed but generally low tracking accuracy due to the roughness of extracted manual features such as color and gray levels. With the development of deep learning theory in recent years, tracking methods using deep features can achieve a good balance between tracking accuracy and speed. This study first introduces the relevant background of single object tracking and then sorts out multiple algorithms that have emerged in the development of single object tracking from the two stages of single object tracking based on correlation filters and deep learning. The current mainstream Siamese network algorithms are also introduced in detail. Finally, a large data set is used to compare and analyze the excellent algorithms that have emerged in recent years. In view of the shortcomings and deficiencies of these algorithms, the development prospects of this field are provided in this study.
单目标跟踪是计算机视觉领域基础且具有广泛实用性的任务之一, 其跟踪方法就是在视频第一帧中获取目标区域的特征信息, 以此为依据在后续帧中对目标状态进行估计并进行准确定位.目前单目标跟踪技术在许多领域均有应用, 例如在智能视频监控领域[
本文旨在通过对单目标跟踪领域算法的分类梳理与分析, 为研究人员的进一步研究提供一份较高质量的研究综述, 主要结构如下:
文中第1节主要介绍单目标跟踪相关背景, 包括跟踪框架和跟踪挑战以及深度学习中的主流网络; 第2节对相关滤波类算法的发展进行简单回顾, 并介绍其基于深度特征的改进; 第3节对深度学习类单目标跟踪算法进行系统性的梳理, 并通过数据分析总结其优缺点; 第4节对本文内容进行总结并针对算法的缺点与不足对未来的发展趋势做出展望.
单目标跟踪的跟踪框架一般可以分为5部分, 分别是运动模型、特征提取、观测模型、模型更新和集成处理[
生成式方法首先通过特征学习得到目标的外观模型, 接着在后续帧中进行模板匹配, 寻找最匹配区域, 以此作为目标位置. 比较著名的生成式方法[
尽管国内外学者已经对视觉目标跟踪技术研究多年, 但在实际应用场景中, 想要对目标实现实时、准确、稳定的跟踪仍是一个很大的难题, 主要面临的挑战[
1) 遮挡(occlusion). 在现实场景中, 正在运动中的目标很容易发生相互遮挡, 进而丢失部分或全部信息.部分信息丢失时, 可以通过对目标分块或者及时更新模板的方法进行解决, 而全部信息丢失目前并没有好的办法完全解决.
2) 图像模糊(image blur). 运动模糊、光照变化、图像分辨率较低等情况, 都会导致目标出现模糊效果, 使目标外观特征信息受损, 进而影响到后续的特征提取与匹配.
3) 形变(deformation). 目标在运动过程中很容易发生形态变化, 如果形变过大则会导致跟踪发生漂移. 应对这个挑战的关键在于能够及时的更新目标的表观模型, 使其很快适应表观的变化.
4) 尺度变化(scale variation). 一般由物体在运动过程中距离镜头的远近产生了较大的变化或者非刚性的物体在运动过程中发生旋转导致较大的尺度变化, 目前的尺度自适应算法已经较好的解决了这类问题.
5) 背景干扰(background clutters). 背景干扰主要是图像背景与目标特征相似, 这会导致跟踪器在提取目标特征信息时无法较好的区分目标和背景, 导致信息提取错误, 最终跟踪错误. 因此选择有效的特征对目标和背景进行区分非常必要.
深度学习在单目标跟踪领域的成功, 很大程度上得益于神经网络能提取到更优更精细的深度特征, 进而更好的用于后续的识别、跟踪. 本节简要介绍深度学习网络中主流的卷积神经网络、循环神经网络和生成式对抗网络.
卷积神经网络(convolutional neural networks, CNN)是一类具有强大表征学习能力的前馈神经网络, 一般由卷积层、池化层、全连接层3部分组成. 经典的卷积神经网络LeNet-5[
LeNet-5网络结构
2012年Krizhevsky等人提出了更深且性能更为优越的AlexNet模型[
深度模型参数对比
模型 | 提出时间 (年) | ILSVRC成绩 | 层数 | 数据增强 | 卷积核大小 | 参数量 (Million) |
AlexNet | 2012 | 分类、检测、定位冠军 | 8 | Y | 3, 5, 11 | 60 |
VGGNet | 2014 | 定位比赛冠军 | 11/13/16/19 | Y | 3 | 138 |
GoogLeNet | 2014 | 分类比赛冠军 | 22 | Y | 1, 3, 5, 7 | 6.8 |
ResNet | 2015 | 分类、检测、定位冠军 | 50/101/152 | Y | 1, 3, 5, 7 | — |
MobileNet | 2017 | — | 28 | Y (少量) | 1, 3 | 4.2 |
循环神经网络(recurrent neural networks, RNN)[
受博弈论二元零和博弈的启发, 2014年, Goodfellow等人提出生成式对抗网络(generative adversarial network, GAN)[
RNN模型按时间线展开
GAN网络结构
在GAN的训练过程中, 需要固定其中一个模块, 然后优化另一个模块, 如此交替进行, 直至两个模块达到平衡状态, 此时判别网络已经无法判别出数据的真伪. GAN发展至今已经有了大量的实际用例, 除了应用于图像生成领域之外, 还可以应用于视频生成[
相关滤波算法跟踪过程是首先利用初始帧中目标区域特征来训练一个滤波器, 接着在后续帧中进行相同区域的特征提取, 然后在频域中对提取到的特征进行相关滤波操作, 最后将响应图中得分最大的区域作为目标区域. 在算法的发展初期提取的目标特征一般为颜色特征、灰度特征等手工特征.
2010年, Bolme等人提出了使用单帧即可训练出稳定滤波器的MOSSE算法[
总的来说, 虽然相关滤波类算法的速度较快, 但无法在速度与精度之间保持较好的平衡. 随着深度学习的发展, 研究人员开始考虑利用深度学习所能提取的更为鲁棒的深度特征来代替传统相关滤波方法中使用的CN、HOG等手工特征, 以提升模型的性能.
2015年, HCF[
2017年, Danelljan等人以提高效率的角度出发, 从模型大小、样本集大小、更新策略3个方面对C-COT进行了改进, 提出了ECO算法[
近年来基于深度学习的单目标跟踪算法在很多视觉跟踪挑战赛中取得了很好的成绩, 目前可以主要分为基于孪生网络、基于循环神经网络、基于生成对抗网络单目标跟踪, 其中基于孪生网络的单目标跟踪算法目前已经成为了单目标跟踪领域主流的算法.
孪生网络以两个样本为输入, 输出其嵌入高维度空间的表征, 以比较两个样本的相似程度, 最后将相似度得分图上得分最高的区域当做目标区域. 2016年, Tao等人最先提出了孪生网络跟踪算法SINT[
同年, Bertinetto等人提出了SiamFC[
SiamFC跟踪框架
虽然SiamFC在速度上远超实时, 但其精度却低于一些相关滤波类算法.
SiamFC与VOT2015挑战赛top-3算法对比
Tracker | A (↑) | # Failure frame (↓) | EAO (↑) | Speed (fps)
|
MDNet | 0.562 | 46 | 0.357 5 | 1 |
EBT | 0.448 | 49 | 0.304 2 | 5 |
DeepSRDCF | 0.535 | 60 | 0.303 3 | <1* |
SiamFC-3s | 0.534 | 84 | 0.288 9 | 86 |
SiamFC | 0.524 | 87 | 0.274 3 | 58 |
注意力机制的作用是基于原有的数据找到其之间的关联性并突出某些重要的特征, 同时对不相关的特征进行抑制. 在目标跟踪领域可以高效地获取目标的特征表达, 进一步提升算法的鲁棒性.
2018年He等人提出了SA-Siam[
SA-Siam跟踪框架
同年, Wang等人基于Siamese网络离线训练无法很好的适应目标变化的问题, 提出了RASNet[
2021年, Chen等人受Transformer[
锚的概念最初来源于Faster-RCNN[
SiamRPN跟踪框架
后续仍基于锚的研究主要分为3大类, 分别是通过增加训练集的方法训练出更鲁棒的网络, 设计更为强大的骨干网络和更为有效的利用RPN模块. 2018年, Zhu等人基于SiamRPN提出了DaSiamRPN[
对于目标跟踪而言, 进行特征匹配、目标定位的关键在于是否能够提取到更为鲁棒的特征, 但图像填充的负面影响使得之前的工作均只能使用AlexNet等浅层的网络, 提取的目标特征往往不够具体、全面. 2019年, Li等人尝试将深层网络ResNet作为孪生网络跟踪器的骨干网络提出了SiamRPN++[
通过引入RPN模块来进行跟踪的方法已经在精度方面达到了很高的水平, 但由于RPN模块取消了多尺度搜索, 所以需要在RPN模块中精心设计锚框, 小心调整锚框数量、大小和高宽比等超参数, 复杂度提升, 比较耗费时间. 且这些跟踪器在处理大尺度变化和姿态变化等问题时仍存在困难. 后续的研究者们开始研究新的方法来继续改进目标跟踪的精度和速度. 而基于无锚的方法由于其结构简单, 性能优越, 近年来成为单目标跟踪任务中的热门方法. 与基于锚的方法不同, 无锚的方法可以直接预测物体的位置.
2020年, Chen等人提出了SiamBAN[
SiamCAR[
SiamBAN跟踪框架
虽然卷积神经网络能够提取出更鲁棒的特征表示且泛化能力较强[
2016年, Cui等人提出了基于循环神经网络的算法RTT[
由于RNN无法解决长输入序列信息传递时网络容易产生的一系列梯度问题, Hochreiter等人在RNN的基础上提出了长短期记忆网络LSTM[
基于GAN可以生成不同的新数据的启发, 2018年, Song等人将对抗学习的思想应用在视觉跟踪领域, 以解决训练样本中正负样本数极度不平衡以及正样本之间差异性较小的问题, 提出了Vital[
2020年, Yan等人着重研究对抗学习中的对抗攻击, 针对SiamRPN++[
目前单目标跟踪技术的研究重点正从短时跟踪向长时跟踪发展, 因为长时跟踪更能反映出评测算法的实用性. 其中LaSOT[
在此我们选取包括上述介绍的近年的优秀跟踪算法, 根据
其中,
结果如
LaSOT数据集上算法的性能比较( ★ 为LaSOT[
性能指标 | Vital★ | SiamRPN++ | ATOM | ROAM++ | SiamBAN | SiamAttn | Ocean | SiamR-CNN | TransT |
AUC得分 (↑) | 41.2 | 49.6 | 51.5 | 44.7 | 51.4 | 56.0 | 56.0 | 64.8 | 64.9 |
归一化精确率 (↑) | 48.4 | 57.0 | 57.6 | 54.3 | 59.8 | 64.8 | 65.1 | 72.2 | 73.8 |
精确率 (↑) | 37.2 | — | 50.5 | 44.5 | 52.1 | — | 56.6 | 68.4 | 69.0 |
主流算法的分析与总结
方法类别 | 主流算法 | 算法特点 | 方法的优点 | 方法的缺点 |
相关滤波
|
ATOM | 在线训练分类模块对目标粗略定位, 离线训练状态估计模块进行精确定位 | 具有在线更新的设计, 目标定位更为准确 | 模型设计复杂度高, 且在线更新导致速度降低 |
孪生网络
|
SiamFC | 将模板特征与搜索区域特征进行互相关操作, 获取响应得分图, 本质是模板匹配寻找最优结果 | 权值共享, 降低了网络的复杂度, 并充分利用了CNN强大的特征表达能力, 能够在算法的性能和速度之间保持较好的平衡 | 为了跟踪速度的提升, 很多算法没有设计进行模板更新, 无法很好的适应目标和背景变化; 且在跟踪中容易造成误差累积, 导致算法的鲁棒性相对较差 |
基于注意力机制
|
利用Transformer结构来替代Siamese网络的互相关操作, 获取到了更多的语义信息 | |||
基于锚框
|
改变了Siamese网络原有的采样策略, 成功将深层网络ResNet作为骨干网络进行训练; 提出了深度互相关操作, 大大减少了网络中的参数量 | |||
基于无锚框
|
取消了多尺度搜索和预先定义的候选框, 降低了网络设计的复杂度; 改变了正负样本的定位策略 | |||
循环神经
|
MemTrack | 通过引入LSTM来动态的控制模板生成, 进而适应目标形状的变化 | 较为充分的利用了网络间的时序信息, 能够较好的应对跟踪过程中目标的外观变化以及相似目标的区分 | 网络参数量大, 且对处理网格化的数据(如图像)能力不如CNN, 整体性能相对较差 |
ROAM++ | 使用LSTM循环生成用于跟踪模型优化的自适应学习速率, 进而循环优化模型 | |||
生成式对抗
|
Vital | 通过GAN生成随机遮挡掩膜, 用来捕获目标的一系列外观变化; 提出高阶代价敏感损失函数, 降低易被分类为正样本的负样本带来的分类影响 | 利用GAN可以缓解训练样本分布的不平衡问题, 使网络更好的适应遮挡、形变等挑战 | GAN本身在训练时不容易收敛, 且容易受到模式坍塌的影响 |
单目标跟踪目前仍是计算视觉领域具有高实用性的热门课题之一, 虽然深度学习与单目标跟踪结合时间较短, 但大量的优秀算法已经被提出. 与相关滤波类算法相比, 基于深度学习类算法, 特别是孪生网络跟踪算法, 由于其基于CNN的强大特征表达能力和离线训练的策略, 使得其在跟踪精度与速度方面能够达到很好的平衡. 而RNN和GAN在单目标跟踪领域的成功应用也使得跟踪器能更好的挖掘时序序列的信息并更好的处理正负样本失衡的情况. 但在复杂的实际应用场景中, 这些算法的整体性能仍有待于优化. 本文对基于深度学习的单目标跟踪算法进行了综述, 并对未来的发展趋势做了展望.
(1) 注意力机制的进一步探索
在单目标跟踪领域, 注意力机制可以高效地帮助跟踪器获取目标的特征表达, 进而提升网络的分辨能力, 因此一直被广泛使用. 但注意力机制的添加并不是简单的模块堆叠, 怎样合理使用至关重要. 最近Transformer网络因为合理嵌入多种注意力机制被广泛应用于多个领域. 2021年, Yan等人基于Transformer提出STARK[
(2) 相关领域中的技术迁移
2018年, RPN模块的引进使得Siamese系列跟踪器的性能得到了大幅度提升, 特别是SiamRPN++[
(3) 在线更新机制的增加
虽然目前基于深度学习技术的单目标跟踪已经取得了很好的发展, 但在工业界中的应用却仍有不足. 主要原因在于大多数算法为了保持高速的跟踪状态往往使用预训练数据, 以提供通用的目标表示, 并降低由于训练数据不平衡导致的过拟合风险, 在跟踪过程中并不进行模板更新, 十分依赖离线训练过程中所学习到的模板. 这样一方面当跟踪出现错误时, 容易造成误差累计, 出现跟踪漂移等情况; 另一方面, 当跟踪器遇到“没有见过”的目标时, 跟踪效果往往较差. 为适应在现实场景中的应用, 在线更新机制应是未来单目标跟踪发展的重点之一.
(4) 与GAN进一步结合
在现实应用场景中, 遮挡是常见的挑战之一, 由于遮挡时会丢失相当部分的特征信息, 往往会使跟踪发生漂移. 而GAN可以通过构造网络中的困难负样本, 使网络获取更具判别力的特征, 进而增加跟踪器的判别能力, 更好的应对跟踪中遮挡情况的出现. 与GAN的进一步结合, 会使跟踪器进一步应用于现实场景中.
(5) 设计适用于长时跟踪的跟踪器
以往的跟踪器大都针对短时跟踪任务, 而长时跟踪过程中会遇到更多的跟踪挑战, 更贴近于现实应用场景. 随着LaSOT[
Lee KH, Hwang JN, Okopal G,
Gao M, Jin LS, Jiang YY,
Brown M, Funke J, Erlien S,
et al. Hand gesture tracking and recognition based human-computer interaction system and its applications. Proceedings of 2018 IEEE International Conference on Information and Automation. Wuyishan: IEEE, 2018. 667–672.]]>
Lim KM, Tan AWC, Lee CP,
et al. Understanding and diagnosing visual tracking systems. Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago: IEEE, 2015. 3101–3109.]]>
孟琭, 杨旭. 目标跟踪算法综述. 自动化学报, 2019, 45(7): 1244–1260.
Zhang ZT, Zhang JS. A new real-time eye tracking based on nonlinear unscented Kalman filter for monitoring driver fatigue. Journal of Control Theory and Applications, 2010, 8(2): 181–188.
Chang C, Ansari R. Kernel particle filter for visual tracking. IEEE Signal Processing Letters, 2005, 12(3): 242–245.
et al. Object tracking based on improved MeanShift and SIFT. Proceedings of the 2012 2nd International Conference on Consumer Electronics, Communications and Networks (CECNet). Yichang: IEEE, 2012. 2716–2719.]]>
Wu Y, Lim J, Yang MH. object tracking benchmark. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1834–1848.
LeCun Y, Bottou L, Bengio Y,
et al. Going deeper with convolutions. Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015. 1–9.]]>
et al. Deep residual learning for image recognition. Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016. 770–778.]]>
et al. MobileNets: Efficient convolutional neural networks for mobile vision applications. arXiv: 1704.04861, 2017.]]>
et al. Generative adversarial nets. Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal: ACM, 2014. 2627–2680.]]>
et al. Learning a probabilistic latent space of object shapes via 3D generative-adversarial modeling. Proceedings of Conference on Neural Information Processing Systems. Barcelona: NIPS, 2016. 82–90.]]>
et al. GIF: Generative interpretable faces. Proceedings of 2020 International Conference on 3D Vision (3DV). Fukuoka: IEEE, 2020. 868–878.]]>
et al. Visual object tracking using adaptive correlation filters. Proceedings of 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco: IEEE, 2010. 2544–2550.]]>
et al. Exploiting the circulant structure of tracking-by-detection with kernels. Proceedings of the 12th European Conference on Computer Vision. Florence: Springer, 2012. 702–715.]]>
Henriques JF, Caseiro R, Martins P,
et al. Accurate scale estimation for robust visual tracking. Proceedings of British Machine Vision Conference 2014. Nottingham: BMVA Press, 2014. 1–11.]]>
et al. Hierarchical convolutional features for visual tracking. Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago: IEEE, 2015. 3074–3082.]]>
et al. Beyond correlation filters: Learning continuous convolution operators for visual tracking. Proceedings of the 14th European Conference on Computer Vision. Amsterdam: Springer, 2016. 472–488.]]>
et al. ECO: Efficient convolution operators for tracking. Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017. 6931–6939.]]>
et al. Unveiling the power of deep tracking. Proceedings of the 15th European Conference on Computer Vision. Munich: Springer, 2018. 483–498.]]>
et al. ATOM: Accurate tracking by overlap maximization. Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019. 4660–4669.]]>
et al. Fully-convolutional siamese networks for object tracking. Proceedings of European Conference on Computer Vision. Amsterdam: Springer, 2016. 850–865.]]>
et al. The visual object tracking VOT2015 challenge results. Proceedings of 2015 IEEE International Conference on Computer Vision Workshop. Santiago: IEEE, 2015. 564–586.]]>
et al. A twofold siamese network for real-time object tracking. Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018. 4834–4843.]]>
et al. Learning attentions: Residual attentional siamese network for high performance online visual tracking. Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018. 4854–4863.]]>
et al. Deformable siamese attention networks for visual object tracking. Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020. 6727–6736.]]>
et al. Attention is all you need. Proceedings of Annual Conference on Neural Information Processing Systems. Long Beach: NIPS, 2017. 5998–6008.]]>
et al. Transformer tracking. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville: IEEE, 2021. 8126–8135.]]>
et al. LaSOT: A high-quality benchmark for large-scale single object tracking. Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019. 5369–5378.]]>
et al. TrackingNet: A large-scale dataset and benchmark for object tracking in the wild. Proceedings of the 15th European Conference on Computer Vision. Munich: Springer, 2018. 300–327.]]>
Huang LH, Zhao X, Huang KQ. GOT-10k: A large high-diversity benchmark for generic object tracking in the wild. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(5): 1562–1577.
et al. Faster R-CNN: Towards real-time object detection with region proposal networks. Proceedings of Annual Conference on Neural Information Processing Systems. Montreal: NIPS, 2015. 91–99.]]>
et al. High performance visual tracking with siamese region proposal network. Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018. 8971–8980.]]>
et al. Distractor-aware siamese networks for visual object tracking. Proceedings of the 15th European Conference on Computer Vision. Munich: Springer, 2018. 103–119.]]>
Russakovsky O, Deng J, Su H,
et al. YouTube-boundingboxes: A large high-precision human-annotated data set for object detection in video. Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017. 7464–7473.]]>
et al. Microsoft COCO: Common objects in context. Proceedings of the 13th European Conference on Computer Vision. Zurich: Springer, 2014. 740–755.]]>
et al. SiamRPN++: Evolution of siamese visual tracking with very deep networks. Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019. 4277–4286.]]>
et al. Siamese box adaptive network for visual tracking. Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020. 6667–6676.]]>
et al. SiamCAR: Siamese fully convolutional classification and regression for visual tracking. Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020. 6268–6276.]]>
et al. Ocean: Object-aware anchor-free tracking. Proceedings of the 16th European Conference on Computer Vision. Glasgow: Springer, 2020. 771–787.]]>
陆峰, 刘华海, 黄长缨, 等. 基于深度学习的目标检测技术综述. 计算机系统应用, 2021, 30(3): 1–13.
et al. Recurrently target-attending tracking. Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016. 1449–1458.]]>
Hochreiter S, Schmidhuber J. Long short-term memory. Neural Computation, 1997, 9(8): 1735–1780.
et al. VITAL: Visual tracking via adversarial learning. Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018. 8990–8999.]]>
et al. SINT++: Robust visual tracking via adversarial positive instance generation. Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018. 4864–4873.]]>
et al. Cooling-shrinking attack: Blinding the tracker with imperceptible noises. Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020. 987–996.]]>
et al. Learning discriminative model prediction for tracking. Proceedings of 2019 IEEE/CVF International Conference on Computer Vision. Seoul: IEEE, 2019. 6181–6190.]]>
et al. ROAM: Recurrently optimizing tracking model. Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020. 6717–6726.]]>
et al. Learning spatio-temporal transformer for visual tracking. arXiv: 2103.17154, 2021.]]>
et al. Siam R-CNN: Visual tracking by re-detection. Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020. 6577–6587.]]>