环球最资讯丨机器学习数据不满足同分布,怎么整?
机器学习作为一门科学,不可避免的是,科学本身是基于归纳得到经验总结,必然存在历史经验不适用未来的情况(科学必可证伪)。这里很应景地讲一个小故事--By 哲学家罗素:
农场有一群火鸡,农夫每天来给它们喂食。经过长期观察后,一只火鸡(火鸡中的科学鸡)得出结论,“每天早上农夫来到鸡舍,我就有吃的”,之后每天的经历都在证实它的这个结论。但是有一天,农夫来到鸡舍,没有带来食物而是把它烤了,因为这天是圣诞节,做成了圣诞节火鸡。
通过有限的观察,得出自以为正确的规律性结论的,结局如是此。以这角度,我们去看AI/机器学习的应用,也能看到很多类似的例子。
【资料图】
机器学习是研究怎样使用计算机模拟或实现人类学习活动的科学,是基于一系列假设(基本的如,独立同分布假设)归纳得到经验,进行预测的过程。
也不可避免的,机器学习中也可能出现预测的数据与训练数据不满足同分布,历史数据经验不那么适用了!导致预测效果变差或失效的情况。这就类似我们考试的时候,发现这类型的题目我没有见过,歇菜了...
一、什么是数据不满足同分布实际预测与训练数据不满足同分布的问题,也就是数据集偏移(Dataset shift),是机器学习一个很重要的问题。
从贝叶斯定理可得P(y,x) = P(y|x) * P(x) = P(x|y) * P(y),当输入空间的边缘概率分布P(x) , 输出空间的标签分布P(y) 以及表示该机器学习任务的条件概率分布 P(y|x) 之中,有任一项因素发生偏移导致训练数据与预测数据 P(y,x)造成差异,即为数据集偏移现象。
不同因素对应着如下三种情况得数据偏移:
Covariate shift:协变量偏移(统计学中的协变量即机器学习中的特征的概念), 指的是输入空间的边缘概率分布P(x),也就输入特征x分布变化导致的偏移。这个应该是最为常见的,比如图像识别任务中,训练时输入的人脸图像数据没戴口罩,而预测的时候出现了很多戴口罩人脸的图像。再如反欺诈识别中,实际预测欺诈用户的欺诈行为发生升级改变,与训练数据的行为特征有差异的情况。
Prior probability shift:先验偏移,指的是标签分布P(Y) 差异导致的。比如反欺诈识别中,线上某段时间欺诈用户的比例 对比 训练数据 突然变得很大的情况。
Concept shift:映射关系偏移,指P(y|x) 分布变化,也就是x-> y的映射关系发生变化。比如农场的火鸡,本来x是【 早上/农夫/来到/鸡舍】对应着 y是【火鸡被喂食】,但是圣诞节那天这层关系突然变了,x还是【 早上/农夫/来到/鸡舍】但对应着 y是【火鸡被烤了】..hah,留下心疼的口水..
二、为什么数据不满足同分布可能导致数据不满足同分布的两个常见的原因是:
(1)样本选择偏差(Sample Selection Bias) :分布上的差异是由于训练数据是通过有偏见的方法获得的。比如金融领域的信贷客群是通过某种渠道/规则获得的,后面我们新增加营销渠道获客 或者 放宽了客户准入规则。这样就会直接导致实际客群样本比历史训练时点的客群样本更加多样了(分布差异)。
(2)不平稳环境(Non-stationary Environments):由于时间上的或空间上的变化导致训练与测试环境不同。比如金融领域,预测用户是否会偿还贷款的任务。有一小类用户在经济环境好的时候有能力偿还债务,但是由于疫情或其他的影响,宏观经济环境不太景气,如今就无法偿还了。
三、如何检测数据满足同分布可能我们模型在训练、验证及测试集表现都不错,但一到OOT(时间外样本)或者线上预测的时候,效果就掉下来了。这时我们就不能简单说是模型复杂导致过拟合了,也有可能是预测数据的分布变化导致的效果变差。我们可以通过如下常用方式检测数据分布有没有变化:
3.1 统计指标的方法通过统计指标去检测分布差异是很直接的,我们通常用群体稳定性指标(Population Stability Index,PSI), 衡量未来的样本(如测试集)及训练样本评分的分布比例是否保持一致,以评估数据/模型的稳定性(按照经验值,PSI<0.1分布差异是比较小的。)。同理,PSI也可以细化衡量特征值的分布差异,评估数据特征层面的稳定性。PSI指标计算公式为 SUM(各分数段的 (实际占比 - 预期占比)* ln(实际占比 / 预期占比) ),介绍可见:指标。其他的方法如 KS检验,KDE (核密度估计)分布图等方法可见参考链接[2]
3.2 异常(新颖)点检测的方法可以通过训练数据集训练一个模型(如 oneclass-SVM),利用模型判定哪些数据样本的不同于训练集分布(异常概率)。异常检测方法可见:异常检测算法速览
3.3 分类的方法混合训练数据与测试数据(测试数据可得情况),将训练数据与测试数据分别标注为’1‘和’0‘标签,进行分类,若一个模型,可以以一个较好的精度将训练实例与测试实例区分开,说明训练数据与测试数据的特征值分布有较大差异,存在协变量偏移。
相应的对这个分类模型贡献度比较高的特征,也就是分布偏差比较大的特征。分类较准确的样本(简单样本)也就是分布偏差比较大的样本。
四、如何解决数据不满足同分布4.1 增加数据增加数据是王道,训练数据只要足够大,什么场面没见过,测试数据的效果自然也可以保证。
如上面的例子,作为一只农场中的科学鸡,如果观察到完整周期、全场景的数据,或者被灌输一些先验知识,就能更为准确预测火鸡的命运。
但是现实情况可能多少比较无奈,可能业务场景的原因限制,并不一定可以搞得到更多数据,诸如联邦学习、数据增强等方法也是同样的思路。
4.2 数据增强在现实情况没法新增数据的时候,数据增强(Data Augmentation)是一个备选方案,在不实质性的增加数据的情况下,从原始数据加工出更多的表示,提高原数据的数量及质量,以接近于更多数据量产生的价值。
其原理是通过对原始数据融入先验知识,加工出更多数据的表示,有助于模型判别数据中统计噪声,加强本体特征的学习,减少模型过拟合,提升泛化能力。具体可见:数据增强方法
4.3 选择数据我们可以选择和待预测样本分布比较一致的数据做模型训练,使得在待预测样本的效果变得更好。
这个方法看起来有点投机,这在一些数据波动大的数据竞赛中很经常出现,直接用全量训练样本的结果不一定会好,而我们更改下数据集划分split的随机种子(如暴力for循环遍历一遍各个随机种子的效果),或者 人工选择与线上待预测样本业务类型、 时间相近的样本集用于训练模型(或者 提高这部分样本的学习权重),线上数据的预测效果就提升了。
4.4 半监督学习半监督学习是介于传统监督学习和无监督学习之间,其思想是通过在模型训练中直接引入无标记样本,以充分捕捉数据整体潜在分布,以改善如传统无监督学习过程盲目性、监督学习在训练样本不足导致的学习效果不佳的问题。
通过半监督学习,训练时候可以充分捕捉数据整体潜在分布,同理也可以缓解预测数据分布有差异的问题。半监督分类常用的做法是,通过业务含义或者模型选择出一些虽然无标签的样本,并打上大概率的某个标签(伪标签)加入到训练数据中,验证待预测样本的效果有没有变好。
经典的如金融信贷领域的拒绝推断方法(参考链接[6]),我们可以从贷款被拒绝的用户中(这部分用户是贷款的时候直接被拒绝了,没有"是否违约"的标签),通过现有信贷违约模型(申请评分卡)预测这部分拒绝用户的违约概率,并把模型认为大概率违约的用户作为坏样本加入到训练样本中,以提升模型的泛化效果。
4.5 特征选择对于常见的协变量偏移,用特征选择是一个不错的方法。我们可以分析各个特征在分布稳定性(如PSI值)的情况,筛选掉分布差异比较大的特征。需要注意的是,这里适用的是筛掉特征重要性一般且稳定性差的特征。如果重要特征的分布差距也很大,这就难搞了,还是回头搞搞数据或者整整其他的强特征。特征选择方法可见:python特征选择
4.6 均衡学习均衡学习适用与标签分布差异(先验偏移)导致的数据集偏移。均衡学习的方法可以归结为:通过某种方法,使得不同类别的样本对于模型学习中的Loss(或梯度)贡献是比较均衡的,以消除模型对不同类别的偏向性,学习到更为本质的决策。
比如原反欺诈训练样本中,好坏样本的比例是1000:1,但到了预测,有时实际的好坏样本的比例是10:1。这时如果没有通过均衡学习,直接从训练样本学习到模型,会先天认为欺诈坏样本的概率就是很低的,导致很多欺诈坏样本的漏判。
不均衡的任务中,一方面可以通过代价敏感、采样等方法做均衡学习;另一方面也可以通过合适指标(如AUC),减少非均衡样本的影响去判定模型的效果。具体可见:一文解决样本不均衡(全)
最后,机器学习是一门注重实践的科学,在实践中验证效果,不断探索原理。
仅以此文致敬我们的数据科学鸡啊。
参考链接:
1、理解数据集偏移 https://zhuanlan.zhihu.com/p/449101154
2、训练/测试集分布不一致解法总结
3、训练集和测试集的分布差距太大有好的处理方法吗 https://www.zhihu.com/question/265829982/answer/1770310534
4、训练集与测试集之间的数据偏移(dataset shift or drifting) https://zhuanlan.zhihu.com/p/304018288
5、数据集偏移&领域偏移 Dataset Shift&Domain Shift https://zhuanlan.zhihu.com/p/195704051
6、如何量化样本偏差对信贷风控模型的影响?https://zhuanlan.zhihu.com/p/350616539
-推荐阅读-
深度学习系列
1、一文概览神经网络模型2、一文搞定深度学习建模预测全流程(Python)3、一文弄懂CNN及图像识别(Python)机器学习系列1、一文解决样本不均衡(全)2、一文全览机器学习建模流程(Python代码)3、一文速览机器学习的类别(Python代码)...更多原创文章,请关注个人博客:https://github.com/aialgorithm/Blog关注【算法进阶】领福利回复【课程】:即可免费领取Python、机器学习、AI 等精品课程资料大全回复【加群】:可提问咨询、共享资源...与群内伙伴一起交流,共同进步或扫码,备注“加群”-
2022-02-07 14:57:45
奇迹!绝杀!女足亚洲杯逆转夺冠!<
刚刚,中国女足上演逆转绝杀奇迹!她们在亚洲杯决赛中3:2力克韩国队,时隔16年再夺亚洲杯冠军!
-
2022-02-07 14:57:45
中国政府与阿根廷共和国政府签署共建“一带一路”谅解备忘录<
新华社北京2月6日电(记者安蓓)国家发展改革委6日称,国家发展改革委主任何立峰与阿根廷外交、国际贸易和宗教事
-
2022-02-07 14:57:43
中华人民共和国和阿根廷共和国关于深化中阿全面战略伙伴关系的联合声明(全文)<
新华社北京2月6日电中华人民共和国和阿根廷共和国关于深化中阿全面战略伙伴关系的联合声明一、应中方邀请,阿根廷
-
2022-02-07 14:57:40
春节假期国内旅游出游2.51亿人次<
春节遇冬奥,旅游年味浓。根据文化和旅游部数据中心测算,2022年春节假期7天,全国国内旅游出游2 51亿人次,同比
-
2022-02-07 14:57:40
中吉签署关于经典著作互译出版的备忘录 开启两国人文交流互鉴新阶段<
新华社北京2月6日电(记者史竞男)国家主席习近平6日会见来华出席北京2022年冬奥会开幕式的吉尔吉斯斯坦总统扎帕
-
2022-12-30 01:58:45
环球最资讯丨机器学习数据不满足同分布,怎么整?
机器学习作为一门科学,不可避免的是,科学本身是基于归纳得到经验总结,必然存在历史经验不适用未来的情况(科学必可证伪)。这里很应景地讲
-
2022-12-29 19:32:51
沈腾妻子离婚风波后露面!42岁身材发福肥肉抢镜,被嘲胖过贾玲
12月27日,沈腾的妻子王琦在电影“绝望主夫”的首映礼上现身,她本次受邀来到首映礼上观看电影被媒体拍下,但她的身体状态引发网友的担忧。...
-
2022-12-29 17:26:03
环球资讯:新华全媒+|2022,致人海中的那个你
2022这一年,你我也许曾在人海相遇,却又不止于擦肩;2022这一年,奔波的路上不只有辛苦,沿途也有美景;2022年的旅途上,曾有他们送过我们一
-
2022-12-29 15:45:23
凯莱英涨6.85%,华西证券二个月前给出“买入”评级_前沿热点
今日凯莱英(002821)涨6 85%,收盘报148 12元。2022年10月28日,华西证券研究员崔文亮,徐顺利发布了对凯莱英的研报《业绩延续高速增长,高强度
-
2022-12-29 13:15:18
微博借钱借款逾期14天多久会上征信 世界微资讯
网贷逾期一般会上征信,有些借贷机构在用户逾期后一天后就会上报给征信机构,而有些借贷机构则是会在几天后上报给征信机构,因为有些借贷机构可
-
2022-12-29 11:20:24
丰乐种业董秘回复:截至2022年12月20日,公司股东人数为100124人
丰乐种业(000713)12月29日在投资者关系平台上答复了投资者关心的问题。投资者:董秘您好,请问丰乐种业最新股东人数是多少?谢谢丰乐种业董秘
-
2022-12-29 09:28:52
中央财政下达2022年第二笔农业保险保费补贴
中新网12月28日电题:中央财政下达2022年第二笔农业保险保费补贴中新财经记者赵建华财政部近日向有关省、自治区、直辖市、计划单列市及新疆生
-
2022-12-28 16:59:26
整根鹿茸怎样分辨好坏 整根鹿茸如何分辨好坏呢-天天观热点
1、挑选整根鹿茸的秘诀就是以毛孔嫩细,红色小片为佳。原只鹿茸以茸体饱满、挺圆、质嫩、毛细、皮色红棕、体轻,底部无棱角都为佳,而细、瘦、
-
2022-12-28 14:06:03
女儿遭拍不雅视频,印士兵讨说法被打死,已逮捕7名嫌疑人
据《印度时报》26日报道,11月24日晚,一名边境安全部队士兵在古吉拉特邦纳迪亚德市科达县恰克拉西村被殴打致死,起因是他抗议其女儿不雅视频
-
2022-12-28 10:34:23
2022高明区新冠疫苗接种门诊开放情况(每日更新) 最新资讯
根据工作安排,12月28日区内新冠疫苗接种门诊开诊信息如下:60周岁及以上人员已接种三针灭活疫苗(即科兴 生物)或已接种两针灭活疫苗及一针智飞
-
2022-12-28 03:45:45
环球快资讯丨广发银行财富管理及私人银行部总经理陈若鹏:向“未老群体”讲养老是未来趋势
12月22日,第十七届亚洲金融年会“养老金融新动力”主题论坛召开。广发银行财富管理及私人银行部总经理陈若鹏应邀出席论坛并作主旨演讲时表...
-
2022-12-27 18:45:27
全球短讯!长沙鼎好医院核酸检测结果多久出
为了保障安全的医疗环境,防止院内交叉感染,长沙鼎好医院核酸检测仅限绿码人员,只进行单采,收费16元 人。出结果时间:检测结果出具时间为24
-
2022-12-27 14:53:58
各地推出优惠政策 激发消费市场活力
近日,各地推出一系列优惠政策,加快推动服务业有序恢复。活跃市场,提振消费。这两天在河北保定太行水镇,开启了欢乐冰雪季。在上万平米超大
-
2022-12-27 09:34:39
豆瓣公布2022年电影榜单:好多都没看过_环球热点
豆瓣公布了2022年电影榜单,你看看有你感兴趣的电影么,除了下列榜单外,具体的榜单排名,大家可以去豆瓣官网查看。“评分最高华语电影”中...
-
2022-12-26 22:23:59
不愧是李敏镐!出道16年,非女神级不撩
说到李敏镐的各个角色,最深入人心的就是《继承者们》中的金叹。剧中是学校中的风云人物,李敏镐私下也是从小帅到大的母胎美男,出众颜值搭上1
-
2022-12-26 16:08:20
当前关注:[快讯]锦盛新材:关于公司股东减持计划期限届满
CFi CN讯:一、股东减持情况1、股东减持股份情况截至本公告披露日,上海科丰具体减持情况如下:股东名称减持方式减持期间减持均价区间(元 股
-
2022-12-26 10:23:13
焦点资讯:中海达董秘回复:公司在收到德清联创的告知函后,已就相关问题召开会议讨论并初步了解情况
中海达(300177)12月26日在投资者关系平台上答复了投资者关心的问题。投资者:请问浙江中海达的纠纷自查目前是否有进展,预计何时披露?中海达
-
2022-12-25 22:56:41
【机器学习】集成学习代码练习(随机森林、GBDT、XGBoost、LightGBM等)|世界看热讯
本文是中国大学慕课《机器学习》的“集成学习”章节的课后代码。课程地址:https: www icourse163 org course WZU-1464096
-
2022-12-25 07:44:41
最大CLIP!LAION发布CLIP的扩增定律|世界滚动
点蓝色字关注“机器学习算法工程师”设为星标,干货直达!近日,LAION等机构在Reproduciblescalinglawsforcontrastive
-
2022-12-24 09:44:00
天天最资讯丨任天堂 Switch 独占像素游戏《运动物语》现已发售
IT之家12月24日消息,任天堂官方宣布,像素风RPG《运动物语》现已正式上线eShop登陆Switch平台。 IT之家了解到,《运动物语》是一款像素体
-
2022-12-23 18:54:13
草原铁路2023年春运车票24日起售 内蒙古中西部客流预计上涨
中新网呼和浩特12月23日电(记者李爱平)中国铁路呼和浩特局集团有限公司23日消息称,24日起,铁路部门开始发售2023年春运首日车票。进入12月份
-
2022-12-23 14:41:52
婚前夫妻一方的财产有哪些 环球新消息
1、个人所有的财产,如工资、奖金,从事生产、经营取得的收益,知识产权的收益,因继承或赠与所得的财产、资本收益以及其他合法收入。2、一方
-
2022-12-23 08:48:58
每日热闻!中京电子(002579)12月22日主力资金净买入1.65亿元
截至2022年12月22日收盘,中京电子(002579)报收于12 89元,上涨6 44%,换手率30 34%,成交量179 47万手,成交额22 43亿元。1
-
2022-12-22 19:26:31
逸豪新材: 第二届董事会第十一次会议决议公告
逸豪新材:第二届董事会第十一次会议决议公告
-
2022-12-22 14:01:49
金蝶国际(00268.HK)盘中涨超8%,截至发稿,涨6.45%,报16.18港元,成交额2.29亿港元
金蝶国际(00268 HK)盘中涨超8%,截至发稿,涨6 45%,报16 18港元,成交额2 29亿港元。
-
2022-12-22 07:49:06
明微电子(688699)12月21日主力资金净卖出716.01万元
截至2022年12月21日收盘,明微电子(688699)报收于49 88元,下跌2 71%,换手率2 76%,成交量1 44万手,成交额7255 92万元。12
-
2022-12-21 17:49:00
西青区债务纠纷起诉律师收多少钱
(一)不涉及财产关系的:2000元-30000元 件。上下浮动幅度:20%但收费额不足2000元的按2000元收取。(二)涉及财产关系的,按争议标的额的以下费
-
2022-12-21 11:55:37
*ST皇台:公司12月份发货正常 滚动
*ST皇台(000995)12月21日在投资者关系平台上答复了投资者关心的问题。
-
2022-12-21 05:24:03
公司网贷安逸花逾期2年怎么办?
网贷逾期一般会上征信,有些借贷机构在用户逾期后一天后就会上报给征信机构,而有些借贷机构则是会在几天后上报给征信机构,因为有些借贷机构可
-
2022-12-20 17:10:15
最新:睿能科技: 睿能科技职工代表大会决议公告
证券代码:603933 证券简称:睿能科技 公告编号:2022-071 福建睿能科技股份有限公司