机器学习算法加速库
鲲鹏基于算法原理和芯片特征,针对Spark开源版本机器学习MLlib算法库进行深入优化,实现相比Spark开源版本对应算法库性能提升50%。
机器学习算法加速库提供以下算法优化,后续版本会持续更新增加算法。
分类回归(Random Forest、GBDT、SVM、Logistic Regression、Linear Regression、Decision Tree、XGBoost、KNN)、聚类(K-means、DBSCAN、LDA)、特征工程(PCA、SPCA、SVD、Pearson、Covariance、Spearman、IDF、DTB、Word2Vec)、模式挖掘(ALS、PrefixSpan、SimRank)。
算法的常用应用场景如表1所示。
算法名称 |
应用行业 |
||
---|---|---|---|
- |
运营商 |
金融 |
交通 |
Random Forest |
|
|
|
GBDT |
|
|
|
SVM |
|
|
|
Logistic Regression |
|
|
|
Linear Regression |
|
|
|
Decision Tree |
|
|
|
XGBoost |
|
|
|
KNN |
|
|
|
K-means |
|
|
|
DBSCAN |
|
|
|
LDA |
|
|
|
PCA |
|
|
|
SVD |
|
|
|
Pearson |
|
|
|
Covariance |
|
|
|
Spearman |
|
|
|
DTB |
|
|
|
word2vec |
|
|
|
ALS |
|
|
|
PrefixSpan |
|
|
|
大数据算法加速库提供与Spark开源版本MLlib和GraphX相同的接口,保证客户的应用程序无需任何修改即可使用算法库。算法库输出件包括BoostKit-ML-Kernel和BoostKit-Graph-Kernel核心算法实现二进制包,以及机器学习对接Spark开源版本接口的ML-API-Patch代码。
图1 算法库组成

大数据算法加速库具体部署操作参见《机器学习算法加速库 特性指南》。
基于网络公开的数据集,鲲鹏920 5250处理器运行机器学习算法加速库,相比友商运行Spark开源版本算法,计算性能提升50%以上。
图2 算法库性能对比

父主题: 方案特性