鲲鹏社区首页
中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助

机器学习算法加速库

鲲鹏基于算法原理和芯片特征,针对Spark开源版本机器学习MLlib算法库进行深入优化,实现相比Spark开源版本对应算法库性能提升50%。

机器学习算法加速库提供以下算法优化,后续版本会持续更新增加算法。

分类回归(Random Forest、GBDT、SVM、Logistic Regression、Linear Regression、Decision Tree、XGBoost、KNN)、聚类(K-means、DBSCAN、LDA)、特征工程(PCA、SPCA、SVD、Pearson、Covariance、Spearman、IDF、DTB、Word2Vec)、模式挖掘(ALS、PrefixSpan、SimRank)。

算法的常用应用场景如表1所示。

表1 算法常见应用场景

算法名称

应用行业

-

运营商

金融

交通

Random Forest

  • 高价值客户细分
  • 终端生命周期分析
  • 用户换机行为分析
  • 保险欺诈识别
  • 线上交易欺诈侦测
  • 信贷风险评估
  • 债务风险评级和预警
  • 飙车分析模型
  • 黄牛党分析
  • 信号配时优化

GBDT

  • 异网高价值客户识别
  • 全网通、双卡终端分析
  • 终端违规销售
  • 客户信用评估
  • 信贷风险评估
  • 债务风险评级和预警
  • 贷后风险评级
  • 客户金融画像
  • 保险客户风险分析
  • 保险客户流失分析
  • 保险企业营销策略模型
  • 交通事件检测
  • 车辆检查

SVM

  • 价值客户识别拉新
  • 升档客户识别提升
  • 国际碳金融市场价格预测
  • 企业破产预测
  • 汽车保险定价
  • 套牌/假牌车辆识别
  • 路网交通流量预测
  • 交通流量预测
  • 飙车分析模型

Logistic Regression

  • 欺诈预警
  • 风险评估
  • 智能能耗预测
  • 互联网金融P2P业务信用风险分析
  • 贷后风险分析
  • 企业大额外汇资金交易识别
  • 客户信用评估
  • 上市公司信用评级
  • 金融市场极端风险预警
  • 路网交通流量预测
  • 行车安全指数模型
  • 道路通行能力评估
  • 套牌/假牌车辆识别
  • 交通流量预测
  • 飙车分析模型

Linear Regression

  • 国际长途、漫游业务分析
  • 信用评级
  • 上市公司财务报告舞弊识别
  • 商业银行财务风险预警
  • 客户信用风险因素评估
  • 中小企业信用风险评估
  • 供应链金融风险评估
  • 道路通行能力评估
  • 套牌/假牌车辆识别
  • 路网交通流量预测
  • 交通态势分析

Decision Tree

  • 带宽离网预警用户预警
  • 带宽到期客户预警
  • 互联网金融精准营销客户分类
  • 商业银行电话营销分类模型
  • 量化投资策略模型
  • 信用卡审批模型
  • 贷后风险评级
  • 飙车分析模型
  • 黄牛党分析
  • 交通事件检测

XGBoost

  • 携号客户细分
  • 携出客户预测
  • 智能运维-故障检测与预测
  • 智能能耗管理-基站/服务器能耗预测
  • 债务风险评级和预警
  • 线上交易欺诈侦测
  • 用户消费行为预测和风险分析
  • 基金收益率方向预测
  • 基金重仓股预测
  • 保险客户风险分析
  • 保险客户流失分析
  • 保险企业营销策略模型
  • 交通拥堵分析
  • 信号配时优化
  • 出行方式推荐
  • 车辆检查设防
  • 人物画像/全息档案(研判职住地、年龄层次、性别、消费水平、职业等)
  • 目标动向预测

KNN

  • 终端APP洞察
  • 校园营销
  • 客户常驻小区识别
  • 信用卡欺诈风险监测
  • 金融数据异常监测
  • 医保审核
  • 交通异常行为分析
  • 同行分析

K-means

  • 沉默用户激活
  • 定向资费设计
  • 用户套餐适配
  • 金融IC卡城市推广规划
  • 事实汇率制度分类
  • 保险客户信用分析
  • 消费者互联网保险购买意愿
  • 车辆出现OD分析
  • 卡口数据治理
  • 高风险区域识别

DBSCAN

  • 客户家庭群组识别
  • 校园客户识别拉新
  • 异网客户识别反挖
  • 客户群体分布
  • 商业银行客户价值细分
  • 银行贷款风险管理
  • 保险欺诈监测
  • 中小银行同业业务风险识别
  • 保险业CRM客户细分模型
  • 轨道交通站点热力分析
  • 轨交客群热力分析
  • 常走(通勤)线路分析
  • 落脚点分析

LDA

  • 不良信息治理
  • 内容推荐
  • 面向金融知识服务的股票聚类
  • 金融科技媒体情绪与网贷市场关系分析
  • 金融决策支持知识获取
  • 公司年报文本知识发现
  • 金融时间信息抽取
  • 医疗保险欺诈监测
  • 交通热点区域识别
  • 交通执法案件数字化

PCA

  • 用户关键特征提取
  • 用户标识
  • 用户征信特征
  • 推荐模型数据工程
  • 风险评估模型数据工程
  • 机动车辆保险欺诈识别-数据工程
  • 供应链金融信用风险评估模型-数据工程
  • 借贷企业逾期还款预警
  • 交通标志图像识别
  • 道路安全性预测
  • 交通事故成因分析和关联分析
  • 城市交通路口相关性分析

SVD

  • 异常订单流量检测
  • 网络毒害攻击检测与定位
  • 网络云传输数据压缩
  • 供应商选择
  • 供应商评价方法
  • 战略新兴产业金融支持效率分析-数据工程商业银行客户价值细分模型-数据工程
  • 量化投资选股因子降维
  • 股票投资组合推荐
  • 交通数据预处理
  • 车辆出行行为特征提取
  • 交通流量数据压缩
  • 周期流量特征提取

Pearson

  • 移动站定位
  • 同行分析
  • 异常订单流量检测
  • 迁徙客户识别拉新
  • 用户匹配策略
  • 市场风险管理
  • 资产风险价值模型分析
  • 保险赔付分析
  • 路段通行时间预测
  • 车辆多传感器信息融合
  • 智能派单
  • 交通异常动向检测

Covariance

  • 用户忠诚度分析
  • 用户偏好分析
  • 用户流失分析
  • 有价卡违规销售
  • 渠道养卡
  • 股票相关性分析
  • 投资组合分析
  • 资产配置分析
  • 资产风险价值模型分析
  • 道路路况预测
  • 拥堵传播性分析
  • 动向匹配分析
  • 智能派单
  • 交通异常动向检测

Spearman

  • 用户匹配策略
  • 权益偏好用户
  • 用户流失分析
  • 以固带移用户
  • 信用卡开卡推荐
  • 客户权益推荐
  • 欺诈团伙分析
  • 保险业客户画像
  • 客流预测分析
  • 城市拥堵区域挖掘
  • 交通异常动向检测
  • 智能派单

DTB

  • 高价值用户挖掘
  • 用户套餐推荐
  • 移动基站选址推荐
  • 信用卡审批模型
  • 优质用户推荐
  • 广告精准推荐
  • 信号灯智能优化
  • 危险驾驶人员识别
  • 拥堵路段预测

word2vec

  • 内容推荐
  • 校园营销
  • 用户APP偏好分析
  • 客户金融画像
  • 信贷风险评估
  • 金融数据异常监测
  • 资产风险价值模型分析
  • 交通热点区域识别
  • 相似路线推荐

ALS

  • 携入客户产品适配
  • 校园/返乡营销
  • 一级电渠精确营销
  • 旅游服务
  • 升档客户识别提升
  • 业务推荐
  • 内容推荐
  • 智能APP推荐
  • 分红寿险定价
  • 人寿保险需求结构性差异分析
  • 投资人情绪测度
  • 美式期权定价模拟
  • 危险驾驶人员发现
  • 相似路线推荐

PrefixSpan

  • 智能运维-故障检测与预测
  • 智能能耗管理-基站/服务器能耗预测
  • 债务风险评级和预警
  • 线上交易欺诈侦测
  • 用户消费行为预测和风险分析
  • 基金收益率方向预测
  • 基金重仓股预测
  • 交通拥堵分析
  • 信号配时优化
  • 出行方式推荐
  • 车辆检查设防

大数据算法加速库提供与Spark开源版本MLlib和GraphX相同的接口,保证客户的应用程序无需任何修改即可使用算法库。算法库输出件包括BoostKit-ML-Kernel和BoostKit-Graph-Kernel核心算法实现二进制包,以及机器学习对接Spark开源版本接口的ML-API-Patch代码。

图1 算法库组成

大数据算法加速库具体部署操作参见《机器学习算法加速库 特性指南》。

基于网络公开的数据集,鲲鹏920 5250处理器运行机器学习算法加速库,相比友商运行Spark开源版本算法,计算性能提升50%以上。

图2 算法库性能对比