转自: Linguistic Data Consortium (LDC)
因为Kaldi里面各种语料涉及到LDC,搜罗一下,好像并没有相应的教程和网站用法。。。。
搞 NLP 的人经常会听到一个神秘的名字 LDC,因为大量的论文所使用的数据都来自于 LDC,本文就来揭露其神秘面目。
About LDC:
LDC,全名 Linguistic Data Consortium,是一个由大学、图书馆、企业、*、研究机构共同合办的联合企业。
成立于 1992 年,目前由宾夕法尼亚大学主要运营。
LDC 最初的角色只是保存与分发科研要用到的语言数据,后来有钱了,就也自己收集、自己构建一些数据,渐渐发展成现在的规模:拥有非常多的语言数据资源,成为主要的科研语言资源管理分发机构。
现在每年 LDC 大概新增 30~36 个语料。
Join LDC:
任何机构交钱就可以加入 LDC,加入后就成为了 LDC 的会员,购买语料可以享受会员价(对于很多语料来说就是免费,主要是老版本语料)。
以 PTB 语料为例,会员价 0,非会员价 1700 刀。
那么会员价是多少呢?
对于非盈利机构,价格 2400 刀 / 年
对于盈利性机构,价格 24 刀 / 年
在会员期间获取的数据即使不是会员了也可以永久使用(但是盈利性机构不知道是不是这样…… 网站上写的很模糊)。
想要把数据拷贝给别人也是要单独交钱的,不过会员依旧有优惠。
Data:
LDC 的语料还是很丰富的,中英日法阿拉伯,各种语言,各种语料,五花八门,不过也都真心贵啊 = =
浏览全部语料:https://catalog.ldc.upenn.edu/byyear
Data Scholarships:
LDC 给穷学生提供了免费申请数据的机会……
申请人需要满足两个条件:
1、是在校本科生或研究生(没有博士?还是说 graduate student 包含了博士?),而且所在学校没有买 LDC 的数据。
2、本人有很好的研究计划而且是真穷…… 支付不起那个数据费用。
申请人要提交申请说明自己要哪个数据、做什么研究、成功几率有多大,此外,还要申请人的导师或系主任提供证实。
一年有两个申请期,春秋各一次。
-
下面开始个人吐槽:
黑…… 真 TM 黑……
不过想想 visual studio 要上千刀,matlab 要上千刀…… 我真有点怀疑要多有钱才能搞学术……
ref: https://www.ldc.upenn.edu/about/ldc-overview