【重新发现PostgreSQL之美 】- 30 打蛇打七寸

背景


场景:

电商、网站、社交.如头条,微博等.

评价、文章、短语内容文本分析, 找出热词、关键词.

挑战:

传统数据库不支持文本分析, 需要拉去到程序内计算, 非常慢.

程序效率差(大多数不是C语言写的,性能弱上加弱).

PG 解决方案:

支持文本分析, 包括tf-idf等,支持自定义分词能力.

分词性能强大: macmini 2018 i5每秒分析速度360万词.

参考


http://madlib.apache.org/docs/latest/group__grp__text__utilities.html

《PostgreSQL结合余弦、线性相关算法 在文本、图片、数组相似 等领域的应用 - 1 文本(关键词)分析理论基础 - TF(Term Frequency 词频)/IDF(Inverse Document Frequency 逆向文本频率)》

《[未完待续] 情感词分析,维护社会和谐 - PostgreSQL,Greenplum文本挖掘、分析实践》

《PostgreSQL 全文检索 - 词频统计》



上一篇:【重新发现PostgreSQL之美】- 28 旋转门


下一篇:大数据时代:基于微软案例数据库数据挖掘知识点总结(结果预测篇)