《∞-former: Infinite Memory Transformer》实验部分

2023-11-22 13:25:52

https://arxiv.org/pdf/2109.00301.pdf
本文特点：无限长期记忆、任意长度上下文
本文进行了3个实验：
（1）综合实验，长度4000、8000、16000，预测token排序的准确率
（2）语言建模，在Wikitext-103 ，LTM取150 Gaussian RBFs, STM取150，记忆阈值900。
困惑度比Transformer-XL 和Compressive Transformer有提高。
（3）微调，在Wikitext-103 和PG-19 ，给GPT-2 small 增加长期记忆，困惑度也降低了。