Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Appearance settings

datadeng/datadeng.github.io

Open more actions menu

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

17 Commits
17 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

前言:1、最近三个月,个人职业有个不小的转变,从互联网行业转向保险行业,从数据开发岗转向数据挖掘岗位,终于能从事自己喜欢的职业,内心欣喜不已。13-14年曾经在coursera完整学习过吴恩达老师的机器学习课程,但一直没有项目实践。纸上得来终觉浅,绝知此事要躬行,实际项目经验很重要

2、刚到公司,业务不熟悉,开发环境不熟悉,上线流程不熟悉,所有的环境都是陌生的,一切都归零。但相信这只是开始,在整个生命历程中只是那么一丢丢。该上路的,终究会上路,只是时间问题!gai爷在三十岁终于圆梦,相信梦想终会成真,认真努力,定会水到渠成。

3、在三个月的时间里,从提取业务数据到模型打分,从模型跑数到结果整理,每天都在不断加深对业务、数据、模型的理解,每天都新的东西需要学习总结。

于是乎,本文数据挖掘项目基本流程出世。先从整体上把握数据挖掘步骤,后面再深入探讨具体细节。

一、确立业务目标

  • 首先,我们应该确定数据挖掘项目的基本目标,是预测投保人会购买哪种类型的保险?还是投保人会在下一个月参与投保的可能性多大?当确定好目标,确定好方向之后,我们才能在项目的实施过程中,始终朝这个目标努力,不偏离方向。
  • 目标确定之后,需要将整个挖掘项目的目标变量提取出来。客户是否会在下个月购买保险,那么训练模型的目标变量就是客户过去是否购买保险(二分类);客户具体会购买哪一种或几种保险,目标变量就是过去购买的保险种类代码(多分类)

二、准备特征数据

1、明确指标逻辑

  • 当确定好业务目标之后,接下来就是寻找完成目标的材料-数据。可以先查找数据指标的沉淀文档,同时自我头脑风暴提炼指标,最重要的是及时与业务方、运营人员沟通,了解必要的业务背景与流程。然后讨论确认相应的指标逻辑,形成规范的文档,什么指标从什么表取,具体取数逻辑是怎样的。(若是公司建有用户画像数据集市,尽量根据业务目标从中筛选指标参与建模)
  • 例如,随着移动互联网时代兴起,很多参与投保的用户会在app上留下行为路径,app的指标对模型建立必定有效。又比如,经常在过去一段时间内投保金额或连续投保件数,是衡量用户是否热衷于购买保险投资的特征之一,可以用此特征预测未来投保可能性。

2、提取特征数据

  • 这一步需要将上面确定的指标落地实现,形成一张大的宽表。具体就是写SQL逻辑,将多个维度上的指标集成到一起,其结果也就是一张画像宽表(可能对象是客户,也可能是商品)

3、统计分析验证

  • 这一步很关键,因为挖掘项目可能使用到很多指标,到底指标是否正确提取了,无法用肉眼一一判别,就需要对数据进行描述统计。
  • 那么描述统计分析包括哪些内容:样本总个数,缺失值统计数,缺失值占比,最小值,最大值,平均值,间隔5%的分位数等等。
  • 从指标分布中可能发现那些异常:
    • 指标缺失值占比高:例如,年龄空值缺失占比非常高,就得回去检查是否正确提取这个指标;
    • 不符合业务逻辑:年龄出现负数,缴纳费用为负等情况;
    • 不符合操作流程:按照用户路径分析,用户在下一个埋点的访问次数一定不大于上一个埋点的访问次数,当出现这种情况,也得检查检查SQL逻辑;
    • 其他问题

三、建立数据模型

编码阶段

数据清洗 数据描述 变量分箱 one-hot编码 占比分布

模型训练
跨时间验证
模型预测

网格搜索 问题:one-hot编码与网格搜索关系

###四、评估模型效果

###五、落地运营模型

About

Create this blog for my writting

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published
Morty Proxy This is a proxified and sanitized view of the page, visit original site.