Java中半结构化数据的贝叶斯分类

我想训练并使用贝叶斯分类器来处理以下情况:

>半结构化数据 – 基本上是XML模式
>信息包含在多个纯文本字段中
>模式的某些字段/部分可以重复任意次数

分类本身相当简单 – 基本上我需要文档属于特定类别的概率.

设计约束:

>解决方案必须是开源的,或者是根据其他免版税许可提供的
>必须可以保存/加载分类器以备将来使用
>必须可以将此库嵌入到更大的基于Java的应用程序中(即必须使用Java / JVM库)

是否有符合此要求的图书馆/工具?

解决方法:

我不确定你是否已准备好你的分类器,但我已经将Apache的UIMA框架用于几个抽屉项目. UIMA“只是”一个框架,但确实附带了一些logic.一些重型谷歌搜索出现了example bayesian classifier using UIMA.

它有在运行时修改配置的机制,但我对“保存和加载分类器”的含义还有点不清楚.这是否意味着您有一个想要在运行时加载(和卸载)的二进制分类器数组,或者您是否有要加载/卸载的不同模型?

您的其他问题的答案是:

>是的,UIMA是开源的,在ASLv2下发布
>是的,您可以在应用程序中嵌入UIMA作为库.

上一篇:朴素贝叶斯分类器使用python


下一篇:vue实现鼠标移入移出事件