E. 深度学习 --- 其他

E. 深度学习 — 其他

Pointer Network

  • 概述
    • Pointer Networks正是通过对Attention Mechanism的简化而得到的。
  • 问题
    • 传统seq2seq模型来说,它的输出词汇表已经限定,当输入序列的长度变化的时候(如变为10个点)它根本无法预测大于4的数字
  • 实现
    • 初始化Key1值
    • 使用RNN把所有的输入跑一遍
    • 通过softmax,获取一个输入,作为当前这次迭代选中的点
    • 通过选中的点,生成key2
    • 回到第二步,直到标记点(End)被选中
  • 应用场景
    • 适用场景
      • Pointer Networks特别适合用来直接复制输入序列中的某些元素给输出序列
      • Pointer Networks其实特别适合用于解决OOV(out of vocabulary)问题,或许它可以在NLP的其他任务中被用来解决OOV问题。
    • 使用Pointer-Generator网络的文本摘要方法
    • 机器翻译

Recursive Structure

  • 概述
    • Recursive Network是一种RNN的扩展形式,他是空间的展开,且具有树形结构。RNN是一种结构模式。
  • 应用场景
    • 情感分析:分析语法结构

ELMO(Embeddings from Language Model)

  • 基本框架
    • 基本框架是一个双层的Bi-LSTM,不过在第一层和第二层之间加入了一个残差结构
    • 第一个概率是来自于正向的由左到右的RNN结构,在每一个时刻上的RNN输出(也就是这里的第二层LSTM输出),然后再接一个Softmax层将其变为概率含义,就自然得到了 ;
    • 第二个概率来自反向的由右到左的RNN结构,每一个时刻RNN的输出经过Softmax层后也能得到一个概率大小,表示从某个词的下文推断该词的概率大小。
  • 步骤
    • 算出embeddings,有可能是多个
    • 通过权重,把多个embeddings,合并成一个embeddings,权重是通过具体的使用任务学习
  • 优势
    • 第一是,CNN能够减少普通做Softmax时全连接层中的必须要有的|V|h的参数规模,只需要保持CNN内部的参数大小即可,而一般来说,CNN中的参数规模都要比|V|h的参数规模小得多;
    • 另一方面,CNN可以解决OOV (Out-of-Vocabulary)问题,这个在翻译问题中尤其头疼;
    • 最后一方面,在预测阶段,CNN对于每一个词向量的计算可以预先做好,更能够减轻inference阶段的计算压力。
  • 缺点
    • 模型都过于简单,它们都受限于所使用的模型表征能力,某种意义上都只能得到比较偏上下文共现意义上的词向量,并且也很少考虑过词序对于词的意义的影响(比如CBOW从其名称来看就是一个bag-of-words,在模型的输入中没有词序的概念)。

ULMFit

  • 算法流程
    • 分别是在大规模语料集上(比如Wikitext 103,有103million个词)先预训练,
    • 然后再将预训练好的模型在具体任务的数据上重新利用语言模型来finetune一下(这是第一次finetune,叫做LM finetune),
    • 尔后再根据具体任务设计的一个模型上,将预训练好的模型当做这个任务模型的多层,再一次finetune(这是第二次finetune,如果是分类问题的话可以叫做Classifier finetune)

GPT(Generative Pre-Training)

  • 概述
    • 预测接下来要做的token
    • 类似 Transformer 的Decoder
  • 应用场景
    • 给定前半段,补齐后面的句子
    • 托福翻译
      • Few-shot
      • One-shot
      • Zero-shot
    • 阅读理解
    • 文章摘要
上一篇:fastapi server


下一篇:LSTM学习笔记