博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
记一次PMML文件的处理过程
阅读量:6261 次
发布时间:2019-06-22

本文共 1008 字,大约阅读时间需要 3 分钟。

背景

业务方说需要我做个web界面,在上面输入一条网站访问线索的信息,后台通过机器学习计算这条线索的评级,例如这条线索对应的用户购买意愿有多强之类的。而机器学习对应的模型,也是业务方自己用KNIME这个软件训练的,然后将训练完的模型导出为一个PMML格式的文件,我所需要做的主要工作就是导入这个文件,转换成对应的机器学习模型。

注:作者去简单尝试了KNIME这个软件,感觉是个数据分析的利器。


PMML介绍

PMML(Predictive Model Markup Language)全称是预测模型标记语言,既然叫做标记语言,那其实与html/XML等也是非常类似的,只是它存储的是机器学习模型的信息,比如特征名称、类型、个数,模型种类等等。它常用于部署,例如模型在dev环节训练好了,将其导出为一个PMML文件,然后在prod环境中导入即可,也很方便在不同的环境间传递模型,例如使用python训练出来的模型,用R来调用和预测。


Python导入PMML的问题

现在大部分语言都支持将训练好的模型导出PMML文件,python同样也可以使用sklearn2pmml这个库来导出模型,但我发现没有一个很好的工具能反向操作,将已有的PMML文件还原成sklearn中的机器学习模型。于是在GitHub尝试了一些方案,如下:

  1. 找到一个项目叫做,是用java写的,它支持将PMML导入到java中,进入作者的仓库中,又发现一个叫做jpmml-evaluator-python,根据ReadMe介绍,这是一个将jpmml-evaluator做了简单封装的python版本,使python可以导入PMML文件,但用户较少,start也只有1,试用时发现了问题,也向作者反馈了,并且作者还因此更新了代码,但仍然没有解决。issue链接:
  2. 又找了一个叫做,目前也是用户少,功能不完整(支持的模型有限)的情况,但在安装过程中就出错,联系了作者,未获得反馈。
  3. 项目,同样也是一个用java写的项目,其作用就是支持开启一个服务端用于调用机器学习模型,客户端向服务端传递机器学习的PMML文件和预测数据,服务端可以使用jar包一键部署,而客户端则可以使用java/python/R等不同的SDK,甚至直接使用curl,最终该方案用上了。在和作者沟通中,作者还指出了KNIME导出的PMML存在的BUG,并建议向KNIME反馈这个BUG

转载地址:http://lbkpa.baihongyu.com/

你可能感兴趣的文章
Linux使用ASF云挂卡(挂游戏时长)
查看>>
UML入门 之 交互图 -- 时序图 协作图详解
查看>>
【Android 多媒体开发】 MediaPlayer 网络视频播放器
查看>>
Linux 绝对路径与相对路径
查看>>
海伦公式
查看>>
MatlabTrick
查看>>
leetcode — minimum-depth-of-binary-tree
查看>>
Java代码风格和在idea中的一些设置
查看>>
poj 1730
查看>>
(匹配)Courses -- hdu --1083
查看>>
(并查集)Connections in Galaxy War -- zoj --3261 还没写
查看>>
bit类型数据,是1=false 还是0=false
查看>>
(转)Eclipse中junit框架的使用——单元测试
查看>>
lock关键字理解
查看>>
20172303 2018-2019-1 《程序设计与数据结构》第3周学习总结
查看>>
[Javascript]史上最短的IE浏览器判断代码
查看>>
关于《大道至简》第五章的收获
查看>>
网卡驱动
查看>>
kinect sdk开发入门WPFdemo笔记
查看>>
Server.Transfer详细解释
查看>>