paper每日谈——动机

原文链接:http://www.cnblogs.com/JVKing/articles/2715145.html

J. V. King痛下决心打算开始培养读paper的习惯了,由于研究方向是speech and language processing,我决定从ACL paper开始下手,坚持每晚读三篇,并且整理一些心得。但愿能坚持下来吧。

 

ACL是association for computational linguistics的简称,是自然语言处理方向最大的会议,迄今为止举办了50届。难能可贵的是NLP方向的很多paper都是可以在网上找到电子版的(google ACL+anthology)。每每想到学校和公司还需要为IEEE等会议花大量的钱,就会觉得做NLP真是在一个很好的很open的一个氛围。

 

最近决定开始看的是ACL2012的paper,先从long paper (oral presentation)开始看,想来既然是long paper,还是oral presentation,应该更加牛逼一些。今天要介绍的paper是“Learning to Translate with Multiple Objectives”,“Joint Feature Selection in Distributed Stochastic Learning for Large-Scale Discriminative Training in SMT”和“Prediction of Learning Curves in Machine Translation”。


“Learning to Translate with Multiple Objectives”的想法非常直接,目前machine translation中的evaluation手段多种多样,有BLEU score, TER等。这些metric是基于人们对于机器翻译结果好坏的理解比较主观的定义出来的,但它们之间并不是“殊途同归”的。也就是说当系统在一个metric上面表现比较好的时候,可能另一项指标反而下降了。这篇paper基于Pareto Optimality(帕累托最优,最早来源于经济学啊有木有)提出了新的优化方式,将几种evaluation measures结合起来训练machine translation system。最终实验证实对于新出现的evaluation metric也能够取得比较好的效果(这个还是比较自然的)。不过paper中貌似还argue对于同一种measure这个optimization也更牛逼(这一点有待考证,因为直觉上不是这样的)。这篇paper关于Pareto Optimality的定理一堆看似吓人,其实都非常直观。


“Joint Feature Selection in Distributed Stochastic Learning for Large-Scale Discriminative Training in SMT”这篇paper我没怎么看懂。。。最后看完也就只有abstract里面的一点印象,至于为什么“With a few exceptions, discriminative training in statistical machine translation (SMT) has been content with tuning weights for large feature sets on small development data.”以及为啥作者的方法效果比较好完全没看懂,干脆先放过这篇。不过文中多次出现的David Chiang 05和07年的两篇文章看来值得粗读一下。这篇paper还有很多词汇堆砌,倒也弄明白了一些术语。

 

“Prediction of Learning Curves in Machine Translation”让我觉得眼前一亮。一般人都会觉得没有state of the art的平台很难做出什么好的成果,但是只要切入点好也可以发出好paper。这篇文章没有好的baseline system就研究learning curve,的确是很聪明的选择。而且learning curve确实是一个比较specific的问题,目标很明确,同时也有比较多的研究内容可以挖掘。但换个角度来说,如果我知道了自己要predict learning curve,我可能还是不知道怎么入手,所以一个值得共勉的结论就是在弄清楚paper的purpose之后可以想想换做自己来做这个问题应该怎么做,这其实有点以前上课刷题的意思,而且ACL的paper质量很高,对于我这样的freshman phd可以当做参考答案对待。这篇paper中的一个结论是learning curve可以用a three-parameter power law来model这应该是一个普遍的结论。文中在开头说到实验用了30 distinct language pair and domain combination and 96 different learning curves可以看出ACL对于实验量的要求。另外可以借鉴一下这篇paper中把小问题做大的方法(如何增加可做性,并不是说弄一堆实验结果上去凑字数,而是在问题不明朗的时候的确应该多做尝试),比如distance中使用不用的weight(这点和我之前做LSF distance一样啊,估计variance啥的)。

[to be continued] 

转载于:https://www.cnblogs.com/JVKing/articles/2715145.html

上一篇:python – 在数值上解决集成限制?


下一篇:Maya编程——沿Curve绘制圆柱