最新资讯：【机器学习】集成学习代码练习（随机森林、GBDT、XGBoost、LightGBM等）

2022-12-23 11:03:40 来源：

本文是中国大学慕课《机器学习》的“集成学习”章节的课后代码。

(资料图)
课程地址：
https://www.icourse163.org/course/WZU-1464096179
课程完整代码：
https://github.com/fengdu78/WZU-machine-learning-course
代码修改并注释：黄海广，haiguang2000@wzu.edu.cn

importwarningswarnings.filterwarnings("ignore")importpandasaspdfromsklearn.model_selectionimporttrain_test_split

生成数据

生成12000行的数据，训练集和测试集按照3:1划分

fromsklearn.datasetsimportmake_hastie_10_2data,target=make_hastie_10_2()

X_train,X_test,y_train,y_test=train_test_split(data,target,random_state=123)X_train.shape,X_test.shape

((9000, 10), (3000, 10))

模型对比

对比六大模型，都使用默认参数

fromsklearn.linear_modelimportLogisticRegressionfromsklearn.ensembleimportRandomForestClassifierfromsklearn.ensembleimportAdaBoostClassifierfromsklearn.ensembleimportGradientBoostingClassifierfromxgboostimportXGBClassifierfromlightgbmimportLGBMClassifierfromsklearn.model_selectionimportcross_val_scoreimporttimeclf1=LogisticRegression()clf2=RandomForestClassifier()clf3=AdaBoostClassifier()clf4=GradientBoostingClassifier()clf5=XGBClassifier()clf6=LGBMClassifier()forclf,labelinzip([clf1,clf2,clf3,clf4,clf5,clf6],["LogisticRegression","RandomForest","AdaBoost","GBDT","XGBoost","LightGBM"]):start=time.time()scores=cross_val_score(clf,X_train,y_train,scoring="accuracy",cv=5)end=time.time()running_time=end-startprint("Accuracy:%0.8f (+/-%0.2f),耗时%0.2f秒。模型名称[%s]"%(scores.mean(),scores.std(),running_time,label))

Accuracy: 0.47488889 (+/- 0.00),耗时0.04秒。模型名称[Logistic Regression]Accuracy: 0.88966667 (+/- 0.01),耗时16.34秒。模型名称[Random Forest]Accuracy: 0.88311111 (+/- 0.00),耗时3.39秒。模型名称[AdaBoost]Accuracy: 0.91388889 (+/- 0.01),耗时13.14秒。模型名称[GBDT]Accuracy: 0.92977778 (+/- 0.00),耗时3.60秒。模型名称[XGBoost]Accuracy: 0.93188889 (+/- 0.01),耗时0.58秒。模型名称[LightGBM]

对比了六大模型，可以看出，逻辑回归速度最快，但准确率最低。而LightGBM，速度快，而且准确率最高，所以，现在处理结构化数据的时候，大部分都是用LightGBM算法。

XGBoost的使用 1.原生XGBoost的使用

importxgboostasxgb#记录程序运行时间importtimestart_time=time.time()#xgb矩阵赋值xgb_train=xgb.DMatrix(X_train,y_train)xgb_test=xgb.DMatrix(X_test,label=y_test)##参数params={"booster":"gbtree",#"silent":1,#设置成1则没有运行信息输出，最好是设置为0.#"nthread":7,#cpu线程数默认最大"eta":0.007,#如同学习率"min_child_weight":3,#这个参数默认是1，是每个叶子里面h的和至少是多少，对正负样本不均衡时的0-1分类而言#，假设 h 在0.01 附近，min_child_weight 为 1 意味着叶子节点中最少需要包含 100个样本。#这个参数非常影响结果，控制叶子节点中二阶导的和的最小值，该参数值越小，越容易 overfitting。"max_depth":6,#构建树的深度，越大越容易过拟合"gamma":0.1,#树的叶子节点上作进一步分区所需的最小损失减少,越大越保守，一般0.1、0.2这样子。"subsample":0.7,#随机采样训练样本"colsample_bytree":0.7,#生成树时进行的列采样"lambda":2,#控制模型复杂度的权重值的L2正则化项参数，参数越大，模型越不容易过拟合。#"alpha":0,#L1正则项参数#"scale_pos_weight":1, #如果取值大于0的话，在类别样本不平衡的情况下有助于快速收敛。#"objective":"multi:softmax",#多分类的问题#"num_class":10,#类别数，多分类与multisoftmax并用"seed":1000,#随机种子#"eval_metric":"auc"}plst=list(params.items())num_rounds=500#迭代次数watchlist=[(xgb_train,"train"),(xgb_test,"val")]

#训练模型并保存#early_stopping_rounds当设置的迭代次数较大时，early_stopping_rounds可在一定的迭代次数内准确率没有提升就停止训练model=xgb.train(plst,xgb_train,num_rounds,watchlist,early_stopping_rounds=100,)#model.save_model("./model/xgb.model")#用于存储训练出的模型print("bestbest_ntree_limit",model.best_ntree_limit)y_pred=model.predict(xgb_test,ntree_limit=model.best_ntree_limit)print("error=%f"%(sum(1foriinrange(len(y_pred))ifint(y_pred[i]>0.5)!=y_test[i])/float(len(y_pred))))#输出运行时长cost_time=time.time()-start_timeprint("xgboostsuccess!","\n","costtime:",cost_time,"(s)......")

[0]train-rmse:1.11000val-rmse:1.10422[1]train-rmse:1.10734val-rmse:1.10182[2]train-rmse:1.10465val-rmse:1.09932[3]train-rmse:1.10207val-rmse:1.09694

……

[497]train-rmse:0.62135val-rmse:0.68680[498]train-rmse:0.62096val-rmse:0.68650[499]train-rmse:0.62056val-rmse:0.68624best best_ntree_limit 500error=0.826667xgboost success!  cost time: 3.5742645263671875 (s)......

2.使用scikit-learn接口

会改变的函数名是：

eta -> learning_rate

lambda -> reg_lambda

alpha -> reg_alpha

fromsklearn.model_selectionimporttrain_test_splitfromsklearnimportmetricsfromxgboostimportXGBClassifierclf=XGBClassifier(# silent=0, #设置成1则没有运行信息输出，最好是设置为0.是否在运行升级时打印消息。#nthread=4,#cpu线程数默认最大learning_rate=0.3,#如同学习率min_child_weight=1,#这个参数默认是1，是每个叶子里面h的和至少是多少，对正负样本不均衡时的0-1分类而言#，假设 h 在0.01 附近，min_child_weight 为 1 意味着叶子节点中最少需要包含 100个样本。#这个参数非常影响结果，控制叶子节点中二阶导的和的最小值，该参数值越小，越容易 overfitting。max_depth=6,#构建树的深度，越大越容易过拟合gamma=0,#树的叶子节点上作进一步分区所需的最小损失减少,越大越保守，一般0.1、0.2这样子。subsample=1,#随机采样训练样本训练实例的子采样比max_delta_step=0,#最大增量步长，我们允许每个树的权重估计。colsample_bytree=1,#生成树时进行的列采样reg_lambda=1,#控制模型复杂度的权重值的L2正则化项参数，参数越大，模型越不容易过拟合。#reg_alpha=0,#L1正则项参数#scale_pos_weight=1, #如果取值大于0的话，在类别样本不平衡的情况下有助于快速收敛。平衡正负权重#objective="multi:softmax",#多分类的问题指定学习任务和相应的学习目标#num_class=10,#类别数，多分类与multisoftmax并用n_estimators=100,#树的个数seed=1000#随机种子#eval_metric="auc")clf.fit(X_train,y_train)y_true,y_pred=y_test,clf.predict(X_test)print("Accuracy:%.4g"%metrics.accuracy_score(y_true,y_pred))

Accuracy : 0.936

LIghtGBM的使用 1.原生接口

importlightgbmaslgbfromsklearn.metricsimportmean_squared_error#加载你的数据#print("Loaddata...")#df_train=pd.read_csv("../regression/regression.train",header=None,sep="\t")#df_test=pd.read_csv("../regression/regression.test",header=None,sep="\t")##y_train=df_train[0].values#y_test=df_test[0].values#X_train=df_train.drop(0,axis=1).values#X_test=df_test.drop(0,axis=1).values#创建成lgb特征的数据集格式lgb_train=lgb.Dataset(X_train,y_train)#将数据保存到LightGBM二进制文件将使加载更快lgb_eval=lgb.Dataset(X_test,y_test,reference=lgb_train)#创建验证数据#将参数写成字典下形式params={"task":"train","boosting_type":"gbdt",#设置提升类型"objective":"regression",#目标函数"metric":{"l2","auc"},#评估函数"num_leaves":31,#叶子节点数"learning_rate":0.05,#学习速率"feature_fraction":0.9,#建树的特征选择比例"bagging_fraction":0.8,#建树的样本采样比例"bagging_freq":5,#k意味着每k次迭代执行bagging"verbose":1#<0显示致命的,=0显示错误(警告),>0显示信息}print("Starttraining...")#训练cvandtraingbm=lgb.train(params,lgb_train,num_boost_round=500,valid_sets=lgb_eval,early_stopping_rounds=5)#训练数据需要参数列表和数据集print("Savemodel...")gbm.save_model("model.txt")#训练后保存模型到文件print("Startpredicting...")#预测数据集y_pred=gbm.predict(X_test,num_iteration=gbm.best_iteration)#如果在训练期间启用了早期停止，可以通过best_iteration方式从最佳迭代中获得预测#评估模型print("error=%f"%(sum(1foriinrange(len(y_pred))ifint(y_pred[i]>0.5)!=y_test[i])/float(len(y_pred))))

Start training...[LightGBM] [Warning] Auto-choosing col-wise multi-threading, the overhead of testing was 0.000448 seconds.You can set `force_col_wise=true` to remove the overhead.[LightGBM] [Info] Total Bins 2550[LightGBM] [Info] Number of data points in the train set: 9000, number of used features: 10[LightGBM] [Info] Start training from score 0.012000[1]valid_0"s auc: 0.814399valid_0"s l2: 0.965563Training until validation scores don"t improve for 5 rounds[2]valid_0"s auc: 0.84729valid_0"s l2: 0.934647[3]valid_0"s auc: 0.872805valid_0"s l2: 0.905265[4]valid_0"s auc: 0.884117valid_0"s l2: 0.877875[5]valid_0"s auc: 0.895115valid_0"s l2: 0.852189

……

[191]valid_0"s auc: 0.982783valid_0"s l2: 0.319851[192]valid_0"s auc: 0.982751valid_0"s l2: 0.319971[193]valid_0"s auc: 0.982685valid_0"s l2: 0.320043Early stopping, best iteration is:[188]valid_0"s auc: 0.982794valid_0"s l2: 0.319746Save model...Start predicting...error=0.664000

2.scikit-learn接口

fromsklearnimportmetricsfromlightgbmimportLGBMClassifierclf=LGBMClassifier(boosting_type="gbdt",#提升树的类型gbdt,dart,goss,rfnum_leaves=31,#树的最大叶子数，对比xgboost一般为2^(max_depth)max_depth=-1,#最大树的深度learning_rate=0.1,#学习率n_estimators=100,#拟合的树的棵树，相当于训练轮数subsample_for_bin=200000,objective=None,class_weight=None,min_split_gain=0.0,#最小分割增益min_child_weight=0.001,#分支结点的最小权重min_child_samples=20,subsample=1.0,#训练样本采样率行subsample_freq=0,#子样本频率colsample_bytree=1.0,#训练特征采样率列reg_alpha=0.0,#L1正则化系数reg_lambda=0.0,#L2正则化系数random_state=None,n_jobs=-1,silent=True,)clf.fit(X_train,y_train,eval_metric="auc")#设置验证集合verbose=False不打印过程clf.fit(X_train,y_train)y_true,y_pred=y_test,clf.predict(X_test)print("Accuracy:%.4g"%metrics.accuracy_score(y_true,y_pred))

Accuracy : 0.927

参考

1.https://xgboost.readthedocs.io/

2.https://lightgbm.readthedocs.io/

3.https://blog.csdn.net/q383700092/article/details/53763328?locationNum=9&fps=1

往期精彩回顾适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑机器学习交流qq群955171419，加入微信群请扫码

最新资讯：【机器学习】集成学习代码练习（随机森林、GBDT、XGBoost、LightGBM等）

最新资讯：【机器学习】集成学习代码练习（随机森林、GBDT、XGBoost、LightGBM等）

借去花网贷欠1500逾期了会上征信么

卡塔尔基本全面受理银联卡-天天时快讯

资讯推荐:今日冬至 晋江开启“晴冷”模式 瑞雪说天气

全球热文：邮储银行普惠金融部总经理耿黎：数字科技助力普惠金融实现商业可持续

炼石航空董秘回复：公司目前控股股东，实际控制人未发生变化和变更 世界时讯

3M公司将逐步停产所有含氟聚合物等不分解性产品

V观财报｜未按规定信披，新智认知收警示函

欣旺达投资成立动力电池公司，注册资本5亿元

方大特钢：12月19日融券卖出金额73.75万元，占当日流出金额的1.62% 全球热文

每日时讯!*ST雪莱: 中信证券股份有限公司关于对公司调整资本公积转增股本除权参考价格的计算结果的专项意见

全球热门:康芝药业董秘回复：公司有生产N95口罩、医用外科口罩。目前口罩需求较大，销售出现明显增长

全球热议:热点前瞻：血制品+天然气+化工原料(纯碱)+养老概念

从研到用，打通全链条的3点启示

【世界新要闻】山蕨菜干怎么做好吃 山蕨菜干如何做好吃

环球讯息：马斯克儿子被跟踪/ ChatGPT小程序遭封杀/ 特斯拉市值“腰斩”

福建5个集体、7名个人获评第六届全国119消防先进集体和先进个人_环球热门

十大理财公司规模缩水超6000亿！“到期潮”将近 各自再出招

最新消息：城建发展（600266）12月15日主力资金净卖出1860.13万元

南乐县新增2家省级工程技术研究中心

世界微头条丨ST中捷董秘回复：公司股东人数只在定期报告中披露，如公司股东需要查阅股东人数信息

报道：水井坊（600779）12月14日主力资金净买入7560.08万元

两年任务一年完成 万源冲刺年内完工6个索改桥项目

【快播报】北京景西房地产无证预售商品房被罚 涉及项目为五里春秋、西府海棠

欠网贷26天不还有什么后果_当前速递

达志科技：募投项目2.4 GWH 生产线目前部分生产设备已经到位安装，第三条第四条产线也在规划中 今日精选

科创板融资余额增加2.64亿元_天天时快讯

中电控股(00002.HK)拟委任凌显猷为联席公司秘书

宇新股份：公司新建的PBAT项目和丁酮项目目前已进入工程收尾阶段，正在开展三查四定、设备试运、联合验收相关准备工作_天天热文

韩国总统专门设宴，为韩国男足国家队接风-世界实时

【全球播资讯】信阳市平桥区龙井乡南雷村：“三二三”工作法，提升基层信访治理效能

环球速看：绿康生化董秘回复：公司如有再融资的相关事项，我们将按相关规定履行审批程序并及时披露

万安科技：公司截止2022年11月30日股东人数为33803 每日头条

南锣鼓巷展演季回顾作品 话剧《生逢灿烂》将在北京人艺实验剧场演出

唐山丰润区:强力推进项目建设攻坚突破 全速推进项目建设

1至2月份河北工业生产平稳开局 规上工业增加值同比增长6.0%

1-2月份食品烟酒价格同比下降1.8% 衣着价格上涨0.5%

去年南京规上信息软件业企业实现营收7577.28亿元 同比增长10.3%

2021年南京农业保险保费收入53.07亿元 同比增长19.13%

淮安：聚焦生态宜居目标方向 一座宜居新城正跃然而出

“四好农村路”修到了田埂 让村民口袋鼓起来家家奔小康

总投资30亿元 盐城东台8个重大产业项目相继开工

1月至2月宁波舟山港完成货物吞吐量1.99亿吨 同比增长2.8%

盐城响水：“农旅文”融合 打造黄河故道万亩林果经济带

陕西西安三地调整为中风险地区

浙江绍兴14日新增确诊病例39例 已调拨防疫物资640.43万件

广州发现1例无症状感染者 系入境转运专班工作人员

脱贫之后看毕节

“95后”把乡村记忆画上墙 惊艳城里人

名校生拿不到学位流浪13年 与父重逢不断招呼对方先坐下

“张同学”商标被多方抢注 涉及食品、饮料等

山东济南“防诈奶奶团”花式反诈 四年挽回损失近千万

广州新增1例境外输入关联无症状感染者 此前7次核酸阴性

西安报告初筛阳性病例转为确诊病例

广东东莞新增本土确诊病例2例 全市全员核酸检测

中缅边境临沧：民警深夜出击捣毁吸贩毒窝点

“土家鼓王”彭承金：致力传承土家族摆手舞

云南新增境外输入确诊病例3例

直击南昌一医疗器械公司厂房火灾现场：事故致5死1伤 救援已结束

广东东莞新增确诊2例、无症状感染者2例 详情公布

杭州钱塘区发布关于绍兴上虞区一例确诊病例协查通告

内蒙古满洲里累计报告本土确诊病例542例 现有497例

街头“僵尸车”成小广告宣传墙！怎么解决？

陕西新增2例本土确诊病例 新增1例本土核酸检测初筛阳性病例

视力仅0.01到0.02 视障人士拿放大镜画国画走红

门卫老夫妻三次“劝学” 改变了这位女大学生的一生

内蒙古满洲里公布多例确诊病例活动轨迹

全球报道不足500例 天生“无性别”幼童术后成男孩

南昌一医疗器械公司厂房火灾事故 致5人遇难1人受伤

“豫见三衢·礼遇商都”城市品牌推介会走进河南郑州

清华博士非洲修电站 因为他，“内卷”成为网络热词

内蒙古新增本土确诊病例3例 均在呼伦贝尔满洲里市

31省份新增新冠肺炎确诊病例67例 其中本土50例

浙江新增本土确诊病例45例 其中宁波6例、绍兴39例

广东新增本土确诊2例、本土无症状感染者2例

警惕非法集资的四种新“马甲”

“雷伊”加强为台风级 17日起南部海区将有明显风雨

北京今天最高气温6℃ 新一轮冷空气携大风降温将至

冷空气将影响中东部地区 华北黄淮大气扩散条件较差

资讯推荐:今日冬至晋江开启“晴冷”模式瑞雪说天气

炼石航空董秘回复：公司目前控股股东，实际控制人未发生变化和变更世界时讯

【世界新要闻】山蕨菜干怎么做好吃山蕨菜干如何做好吃

十大理财公司规模缩水超6000亿！“到期潮”将近各自再出招

两年任务一年完成万源冲刺年内完工6个索改桥项目

【快播报】北京景西房地产无证预售商品房被罚涉及项目为五里春秋、西府海棠

达志科技：募投项目2.4 GWH 生产线目前部分生产设备已经到位安装，第三条第四条产线也在规划中今日精选

南锣鼓巷展演季回顾作品话剧《生逢灿烂》将在北京人艺实验剧场演出

唐山丰润区:强力推进项目建设攻坚突破全速推进项目建设

1至2月份河北工业生产平稳开局规上工业增加值同比增长6.0%

去年南京规上信息软件业企业实现营收7577.28亿元同比增长10.3%

2021年南京农业保险保费收入53.07亿元同比增长19.13%

淮安：聚焦生态宜居目标方向一座宜居新城正跃然而出

“四好农村路”修到了田埂让村民口袋鼓起来家家奔小康

总投资30亿元盐城东台8个重大产业项目相继开工

1月至2月宁波舟山港完成货物吞吐量1.99亿吨同比增长2.8%

盐城响水：“农旅文”融合打造黄河故道万亩林果经济带

浙江绍兴14日新增确诊病例39例已调拨防疫物资640.43万件

广州发现1例无症状感染者系入境转运专班工作人员

“95后”把乡村记忆画上墙惊艳城里人

名校生拿不到学位流浪13年与父重逢不断招呼对方先坐下

“张同学”商标被多方抢注涉及食品、饮料等

山东济南“防诈奶奶团”花式反诈四年挽回损失近千万

广州新增1例境外输入关联无症状感染者此前7次核酸阴性

广东东莞新增本土确诊病例2例全市全员核酸检测

直击南昌一医疗器械公司厂房火灾现场：事故致5死1伤救援已结束

广东东莞新增确诊2例、无症状感染者2例详情公布

内蒙古满洲里累计报告本土确诊病例542例现有497例

陕西新增2例本土确诊病例新增1例本土核酸检测初筛阳性病例

全球报道不足500例天生“无性别”幼童术后成男孩

南昌一医疗器械公司厂房火灾事故致5人遇难1人受伤

清华博士非洲修电站因为他，“内卷”成为网络热词

内蒙古新增本土确诊病例3例均在呼伦贝尔满洲里市

31省份新增新冠肺炎确诊病例67例其中本土50例

浙江新增本土确诊病例45例其中宁波6例、绍兴39例

冷空气将影响中东部地区华北黄淮大气扩散条件较差

7人保研5人清北四川大学这群学霸在造卫星

单细胞测序揭示家猪胸腰椎发育相关机制

多级绿色屏障消毒体系阻断新冠病毒“物传人”