数据库必知词汇：MADLib

2021-10-07 06:17:40

Apache MADlib是Pivotal与UCBerkeley合作的一个基于SQL的数据库内置的可扩展的开源机器学习库，提供了精确的数据并行实现、统计和机器学习方法对结构化和非结构化数据进行分析。MADlib提供了丰富的分析模型，包括回归分析，决策树，随机森林，贝叶斯分类，向量机，风险模型，KMEAN聚集，文本挖掘，数据校验等。

MADlib提供了精确的数据并行实现、统计和机器学习方法对结构化和非结构化数据进行分析，主要目的是扩展数据库的分析能力，可以非常方便的加载到数据库中, 扩展数据库的分析功能，2015年7月MADlib成为Apache软件基金会的孵化项目，其最新版本为MADlib1.9，支持PostgreSQL、Greenplum数据库和Apache HAWQ。In-Database Analytics的特性使其大大扩展了数据库的分析功能，充分利用MPP架构使其能够快速处理海量数据集。

MADlib能直接在数据库中使用SQL语句对数据进行数据分析，使数据分析的变得便捷方便，是很实用和强大的数据分析工具。
特点：

擅长矩阵计算和仿真模拟；
具有丰富的数学函数，适合算法开发或自主的程序开发；
具有强大的绘图功能。

它不是面向程序员的，而是面向数据库开发或DBA的。如果用一句话说明什么是MADlib，那就是“SQL中的大数据机器学习库”。通常SQL查询能发现数据最明显的模式和趋势，但要想获取数据中最为有用的信息，需要的其实是完全不同的另一套技术，一套牢固扎根于数学和应用数学的技能，当然指的就是数据挖掘或机器学习，而具备这种技术的人才似乎只存在于学术界中。如果能将SQL的简单易用与数据挖掘的复杂算法结合起来，充分利用两者的优势和特点，那对于广大传统数据库应用技术人员来说，学习和从事数据挖掘工作的门槛将大大降低。现在，鱼和熊掌兼得的机会来了，DBAer不用现学Python、R或MATLAB，只要使用MADlib，用SQL就能实现简单的数据挖掘。

资料来源：
Apache*开源项目——机器学习库MADlib简介与应用实例 https://www.sohu.com/a/272091763_747818
数据库数据分析扩展—MADlib http://blog.geohey.com/shu-ju-ku-shu-ju-fen-xi-kuo-zhan-madlib/

码农公寓

相关文章