我在网页上做一些文本挖掘.目前我正在使用Java,但也许有更合适的语言来做我想要的.
我想做的一些事情的例子:
根据字母,数字,字母数字,符号等部分(字母,数字,符号等)确定单词的字符类型(有更多类型).
根据统计数据发现停用词.
根据统计数据和一些逻辑,发现一些语法类(动词,名词,介词,联合).
我正在考虑使用Prolog和R(我对这些语言不太了解),但我不知道它们是否对此有用,或者可能是另一种语言更合适.
我可以用哪个?也欢迎Java的好libs.
解决方法:
Python.!
他们在这个区域有一个HELL-LOTTA图书馆.
但是,我对prologue和R ……一无所知,但是在文本挖掘中,py肯定比java好,而且AI的东西……