我一直在使用spaCy Python包来解析和标记文本,并使用生成的依赖树和其他属性来推导出意义.现在我想使用SyntaxNet的Parsey McParseface进行解析和依赖标记(这似乎更好),但我想继续使用spaCy API,因为它很容易使用,并且它做了许多Parsey没有做的事情. SyntaxNet以CoNLL格式输出POS标签和依赖标签/树:
> Bob _ NOUN NNP _ 2 nsubj _ _
>带来_ VERB VBD _ 0 ROOT _ _
> _ DET DT _ 4 det _ _
>披萨_ NOUN NN _ 2 dobj _ _
>到_ ADP IN _ 2 prep _ _
> Alice _ NOUN NNP _ 5 pobj _ _
>. _. . _ 2 punct _ _
并且spaCy似乎能够在here正确读取CoNLL格式.但是我无法弄清楚spaCy的API在哪里需要一个CoNLL-fromatted字符串.
解决方法:
从the spaCy blog开始:
Obviously, we want to build a bridge between Parsey McParseface and spaCy, so that you can use the more accurate model with the sweeter spaCy API.
但是,在可能的情况下,看起来还有很多工作要做.
另请参阅spaCy作者的回复here.