J. V. King痛下决心打算开始培养读paper的习惯了,由于研究方向是speech and language processing,我决定从ACL paper开始下手,坚持每晚读三篇,并且整理一些心得。但愿能坚持下来吧。
ACL是association for computational linguistics的简称,是自然语言处理方向最大的会议,迄今为止举办了50届。难能可贵的是NLP方向的很多paper都是可以在网上找到电子版的(google ACL+anthology)。每每想到学校和公司还需要为IEEE等会议花大量的钱,就会觉得做NLP真是在一个很好的很open的一个氛围。
最近决定开始看的是ACL2012的paper,先从long paper (oral presentation)开始看,想来既然是long paper,还是oral presentation,应该更加牛逼一些。今天要介绍的paper是“Learning to Translate with Multiple Objectives”,“Joint Feature Selection in Distributed Stochastic Learning for Large-Scale Discriminative Training in SMT”和“Prediction of Learning Curves in Machine Translation”。
“Learning to Translate with Multiple Objectives”的想法非常直接,目前machine translation中的evaluation手段多种多样,有BLEU score, TER等。这些metric是基于人们对于机器翻译结果好坏的理解比较主观的定义出来的,但它们之间并不是“殊途同归”的。也就是说当系统在一个metric上面表现比较好的时候,可能另一项指标反而下降了。这篇paper基于Pareto Optimality(帕累托最优,最早来源于经济学啊有木有)提出了新的优化方式,将几种evaluation measures结合起来训练machine translation system。最终实验证实对于新出现的evaluation metric也能够取得比较好的效果(这个还是比较自然的)。不过paper中貌似还argue对于同一种measure这个optimization也更牛逼(这一点有待考证,因为直觉上不是这样的)。这篇paper关于Pareto Optimality的定理一堆看似吓人,其实都非常直观。
“Prediction of Learning Curves in Machine Translation”让我觉得眼前一亮。一般人都会觉得没有state of the art的平台很难做出什么好的成果,但是只要切入点好也可以发出好paper。这篇文章没有好的baseline system就研究learning curve,的确是很聪明的选择。而且learning curve确实是一个比较specific的问题,目标很明确,同时也有比较多的研究内容可以挖掘。但换个角度来说,如果我知道了自己要predict learning curve,我可能还是不知道怎么入手,所以一个值得共勉的结论就是在弄清楚paper的purpose之后可以想想换做自己来做这个问题应该怎么做,这其实有点以前上课刷题的意思,而且ACL的paper质量很高,对于我这样的freshman phd可以当做参考答案对待。这篇paper中的一个结论是learning curve可以用a three-parameter power law来model这应该是一个普遍的结论。文中在开头说到实验用了30 distinct language pair and domain combination and 96 different learning curves可以看出ACL对于实验量的要求。另外可以借鉴一下这篇paper中把小问题做大的方法(如何增加可做性,并不是说弄一堆实验结果上去凑字数,而是在问题不明朗的时候的确应该多做尝试),比如distance中使用不用的weight(这点和我之前做LSF distance一样啊,估计variance啥的)。
[to be continued]
转载于:https://www.cnblogs.com/JVKing/articles/2715145.html