AAAI21最佳论文Informer：效果远超Transformer的长序列

Informer:最强最快的序列预测神器

01简介

在很多实际应用问题中，我们需要对长序列时间序列进行预测，例如用电使用规划。长序列时间序列预测（LSTF）要求模型具有很高的预测能力，即能够有效地捕捉输出和输入之间较精确的长程相关性耦合。最近的研究表明，Transformer具有提高预测能力的潜力。

然而，Transformer存在一些严重的问题，如:

二次时间复杂度、高内存使用率以及encoder-decoder体系结构的固有限制。

02背景

Intuition：Transformer是否可以提高计算、内存和架构效率，以及保持更高的预测能力？

原始Transformer的问题

本文的重大贡献

本文提出的方案同时解决了上面的三个问题，我们研究了在self-attention机制中的稀疏性问题，本文的贡献有如下几点：

03方法

现有时序方案预测可以被大致分为两类：

高效的Self-Attention机制

04方法Encoder + Decoder

1. Encoder: Allowing for processing longer sequential inputs under the memory usage limitation

2. Decoder: Generating long sequential outputs through one forward procedure

Loss Function

此处选用MSE 损失函数作为最终的Loss。

05实验

1. 实验效果

从上表中,我们发现：

所提出的模型Informer极大地提高了所有数据集的推理效果（最后一列的获胜计数），并且在不断增长的预测范围内，它们的预测误差平稳而缓慢地上升。

query sparsity假设在很多数据集上是成立的；

Informer在很多数据集上远好于LSTM和ERNN

2. 参数敏感性

3. 解耦实验

从上表中我们发现,

ProbSparse self-attention机制的效果：ProbSparse self-attention的效果更好，而且可以节省很多内存消耗；

self-attention distilling：是值得使用的，尤其是对长序列进行预测的时候；

generative stype decoderL：它证明了decoder能够捕获任意输出之间的长依赖关系，避免了误差的积累；

4. 计算高效性

在训练阶段，在基于Transformer的方法中，Informer获得了较佳的训练效率。

在测试阶段，我们的方法比其他生成式decoder方法要快得多。

06小结

本文研究了长序列时间序列预测问题，提出了长序列预测的Informer方法。具体地：

设计了ProbSparse self-attention和提取操作来处理vanilla Transformer中二次时间复杂度和二次内存使用的挑战。

generative decoder缓解了传统编解码结构的局限性。

通过对真实数据的实验，验证了Informer对提高预测能力的有效性

参考文献

Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting：https://arxiv.org/pdf/2012.07436.pdf

声明：文章收集于网络，版权归原作者所有，为传播信息而发，如有侵权，请联系小编删除，谢谢！

声明：本站部分作品是由网友自主投稿和发布、编辑整理上传，对此类作品本站仅提供交流平台，转载的目的在于传递更多信息及用于网络分享，并不代表本站赞同其观点和对其真实性负责，不为其版权负责。如果您发现网站上有侵犯您的知识产权的作品，请与我们取得联系，我们会及时修改或删除。

上一篇：深度学习中的3个秘密：集成、知识蒸馏和蒸馏
下一篇：盘点近期大热对比学习模型：MoCo/SimCLR/BYOL/SimSi

网友评论：

发表评论