Dataset之HiggsBoson:Higgs Boson(Kaggle竞赛)数据集的简介、下载、案例应用之详细攻略

Higgs Boson比赛简介


      希格斯玻色子(英语:Higgs boson),是标准模型里的一种基本粒子,是一种玻色子,自旋为零,宇称为正值,不带电荷、色荷,极不稳定,生成后会立刻衰变。希格斯玻色子是希格斯场的量子激发。希格斯粒子的衰变能动会生成耦合实粒子。根据希格斯机制,基本粒子因与希格斯场耦合而获得质量。假若希格斯玻色子被证实存在,则希格斯场应该也存在,而希格斯机制也可被确认为基本无误。


      希格斯玻色子(英语:Higgs boson)是标准模型里的一种基本粒子,是因物理学者彼得·希格斯而命名。 2012年7月4日,欧洲核子研究组织(CERN)宣布,LHC的紧凑渺子线圈(CMS)探测到质量为125.3±0.6GeV的新玻色子(超过背景期望值4.9个标准差),超环面仪器(ATLAS)测量到质量为126.5GeV的新玻色子(5个标准差),这两种粒子极像希格斯玻色子。 2013年3月14日,欧洲核子研究组织发表新闻稿正式宣布,先前探测到的新粒子暂时被确认是希格斯玻色子,具有零自旋与偶宇称,这是希格斯玻色子应该具有的两种基本性质,但有一部分实验结果不尽符合理论预测,更多数据仍在等待处理与分析。 2013年10月8日,因为“次原子粒子质量的生成机制理论,促进了人类对这方面的理解,并且最近由欧洲核子研究组织属下大型强子对撞机的超环面仪器及紧凑μ子线圈探测器发现的基本粒子证实”,弗朗索瓦·恩格勒、彼得·希格斯荣获2013年诺贝尔物理学奖。


      一个粒子的重要特点是它在其他粒子之后延迟多少。CERN用ATLAS进行物理实验来寻找新粒子。实验最近发现一个 Higgs boson延迟在两个tau粒子出现,但是该延迟只是淹没在背景噪声中的小信号。


竞赛官网: https://www.kaggle.com/c/higgs-boson/

相关介绍:Higgs boson machine-learning challenge


      该竞赛的目的是利用机器学习方法,提高ATLAS实验发现粒子的显著性。竞赛无需粒子物理的背景知识(解决实际问题时背景知识在很大程度上还是有用的)。竞赛数据是根据ATLAS检测到的事件的特征合成的数据,竞赛任务是将事件分类为"tau tau decay of a Higgs boson" 或 "background"

     这是一个两类分类任务:将事件分类为"tau tau decay of a Higgs boson" 或 "background"。希格斯玻色子机器学习挑战的目标是探索先进机器学习方法的潜力,提高实验发现的意义。不需要粒子物理学知识。使用ATLAS检测到的具有表征事件特征的模拟数据,您的任务是将事件分类为"tau tau decay of a Higgs boson" 或 "background"。


每个事件有一个ID,30个特征,权重,和标签

用交叉验证选择迭代次数

与sklearn中的GBM速度与性能比较


1、数据集介绍


Dataset之HiggsBoson:Higgs Boson(Kaggle竞赛)数据集的简介、下载、案例应用之详细攻略


File descriptions


training.csv - Training set of 250000 events, with an ID column, 30 feature columns, a weight column and a label column.

test.csv - Test set of 550000 events with an ID column and 30 feature columns.

random_submission - Sample submission file in the correct format. File format is described on the Evaluation page.

HiggsBosonCompetition_AMSMetric - Python script to calculate the competition evaluation metric.

For detailed information on the semantics of the features, labels, and weights, see the technical documentation from the LAL website on the task.


Some details to get started:


all variables are floating point, except PRI_jet_num which is integer

variables prefixed with PRI (for PRImitives) are “raw” quantities about the bunch collision as measured by the detector.

variables prefixed with DER (for DERived) are quantities computed from the primitive features, which were selected by  the physicists of ATLAS

it can happen that for some entries some variables are meaningless or cannot be computed; in this case, their value is −999.0, which is outside the normal range of all variables

training.csv:训练集包含250000个事件,每个事件有一个ID,30个特征,权重,和标签。

test.csv:测试数据包含550000事件,每个事件包含一个ID和30个特征。

(1)、所有变量都是floating point类型,除了PRI_jet_num 为integer 以PRI (PRImitives) 为的前缀特征为检测器测量得到的关于bunch collision“原始” 数据。 以DER ( DERived)为ATLAS的物理学家选择的根据原始特征计算得到的数据。 缺失数据记为 −999.0, 与所有特征的正常值不同。

(2)、特征、权重和标签的具体语意可以查看CERN的技术文档。



2、比赛排行榜


Dataset之HiggsBoson:Higgs Boson(Kaggle竞赛)数据集的简介、下载、案例应用之详细攻略




Higgs Boson数据集的下载

本数据集,如有需要,可留言向博主索取





Higgs Boson数据集的案例应用


ML之xgboost:基于xgboost(5f-CrVa)算法对Higgs Boson数据集(Kaggle竞赛)训练(模型保存+可视化)实现二分类任务



上一篇:从一次性投入到“分期付款” 甲骨文发布新型云解决方案


下一篇:三分钟,你想对世界说什么丨蚂蚁金服发起青年导演公益短片计划