宇宙链 宇宙链
Ctrl+D收藏宇宙链
首页 > Bitcoin > 正文

作为一名数据科学从业者,你应该知道的P值

作者:

时间:1900/1/1 0:00:00

作者|SHAROONSAXENA编译|CDA数据分析师EverythingyouShouldKnowaboutp-valuefromScratchforDataScience

介绍

当你向有抱负的数据科学家谈论p值时,以下情况看起来是否很熟悉?

我无法告诉你数据科学家在涉及到如何解释p值时是多么的手足无措。实际上,可以花点时间回答以下问题:

如何解释p值?P值有多么的重要?你将如何向非数据科学人员解释p值的重要性?这些问题应该是每个数据科学专业人员都应该能够回答的关键问题。以我的经验,大多数人都在努力克服第一个问题。如果我们不能为客户分解机器学习模型的结果,我们就不能说服他们。

维基百科对p值的定义让那些统计和数据科学领域的任何新手都感到望而生畏。关于p值的典型对话是这样的:

而且你只知道一些公式和约定,却没有如何系统的解释什么是P值的想法。那么,我们如何一劳永逸地学习p值,并将其根深蒂固地牢记在心?

我们应该如何从头开始理解P值

在本文中,我们将从头开始逐步建立p值的认知,并且还要揭穿p值的传统解释。我们将介绍以下内容:

什么是p值?统计学意义统计中p值的例子数据科学中P值的例子p值的一些传统解释什么是p值?

让我们从绝对的基础开始。什么是p值?为了理解这个问题,我们将来看一下正态分布:

我们在x轴上具有值的范围,在y轴上具有不同值的出现频率。

V神提出将The Graph作为一种可能的数据存储解决方案:11月30日消息,据雅虎财经报道,V神提出将TheGraph作为一种可能的数据存储解决方案,计划利用高度可伸缩的ZK-rollups来彻底改变以太坊2.0网络吞吐量。V神认为只有通过大规模采用ZK-rollups才能解决以太坊网络GAS费用过高问题。不管是短期和中期,还是长期来看,Rollups都是以太坊唯一无需信任的扩展解决方案。[2021/11/30 12:41:18]

现在,假设我们从此分布中选取一个随机值。我们选择接近均值的值的可能性是最高的,因为它具有最高的峰值。我们可以清楚地看到,如果我们远离峰值,则值的出现会迅速减少,相应的概率也会减少,趋近于一个非常小的接近0的值。

但是本文是关于p值的-那么为什么我们要看正态分布呢?好吧,考虑到我们上面讨论的正态分布,请考虑如何定义P值。

P值是上图中红点右侧值的累计概率。

要么是,

当从分布中随机选择值时,与红点相对应的p值告诉我们将任何值带到红点右侧的“总概率”。

现在,这看起来可能像是一个非常幼稚的定义,但是我们将在此基础上继续。

P值本身不包含任何值。较大的p值表示样本得分与总体得分更加一致或相似。它就是如此简单。

现在,你可能已经遇到了将p值与alpha值进行比较以得出结论的经验法则。因此,让我们研究一下alpha值。

P值的统计意义:输入–Alpha值

到目前为止,我已经提到过几次alpha值,alpha值也被称为显著性水平。由于某些未知原因,我们知道该值为0.05或5%。

俄罗斯杜马希望将加密挖矿作为一项业务进行监管:9月9日消息,俄罗斯国家杜马金融市场委员会主席Anatoly Aksakov表示,俄罗斯立法者现在正在考虑根据当地商业法承认加密挖矿业是一种创业形式。由于这种[加密货币挖矿]是一种创业活动,显然有必要将其纳入国家登记册,根据适当的法规将其作为一种创业进行监管,并征收相关税收。政府正在积极开展与加密行业相关的多项法律举措,预计在不久的将来会推进加密税收、挖矿和数字货币发行的法案。Aksakov还强调需要为数字货币提供更多监管清晰度,并指出仍然需要讨论数字货币究竟是什么,虽然称它为货币,但它更像是一种金融工具,或者一种可以投资的金融资产,而不是一种支付手段。(Cointelegraph)[2021/9/9 23:12:38]

在统计课上我们也被老师教导过,也就是p值小于alpha意味着所获得的结果具有统计学意义。但是alpha值到底是多少呢?

因此,让我们花点时间看一下alpha值的含义。

alpha值只是一个阈值,P值在进行实验后进行的相似性或显著性中的测试前决定该阈值。

这意味着,如果得到样本得分的概率小于或阈值p-值,我们认为它与总体显著不同,甚至属于新的样本分布。

再次考虑一下上述的正态分布。此分布中的红点表示alpha值或阈值p值。现在,让我们说绿色和橙色点代表实验后获得的不同样本结果。

在图中可以看到,最左边的绿点的p值大于alpha。因此,这些值可以得到相当高的概率和样本结果被认为是幸运的。

最右边的点(橙色)的p值小于alpha值(红色)。因此,样本结果是一个罕见的结果,不太可能是幸运的。因此,他们与分布有很大的不同。。

Bitcoin Advisory创始人:作为一种通胀对冲工具,股票表现不及比特币:比特币咨询公司Bitcoin Advisory创始人Pierre Rochard发推称,比特币是一种现金系统(不是信用系统),它不会利用货币通货膨胀来抑制持有现金,也就是储蓄。比特币是货币的未来。作为一种通胀对冲工具,股票表现不及比特币,因为股票不存在减半或难度调整。股票没有全节点和可证明的稀缺性,总是会超过2100万股。但是比特币总不会超过2100万枚。[2020/8/30]

alpha值取决于正在执行的测试。如果我们不确定应该考虑什么值,那么将alpha值设为0.05被认为是一个不错的约定。

但这带有一个星号-我们考虑的alpha值越小,则将结果视为有意义的难度就越大。请记住,每个实验的alpha值会有所不同,并且没有任何一个alpha值可以视为经验法则。

让我们仔细看一下alpha值和p值之间的关系。

p值<alpha值

考虑以下分布:

在此,红点表示Alpha值。这基本上是阈值p值。我们可以清楚地看到,阈值右侧曲线下方的区域非常小。

橙色点代表使用样本总体的p值。在这种情况下,我们可以清楚地看到p值小于alpha值。这可以解释为:

从样本获得的结果是分布的一个极端,因此很有可能它可能属于另外一个分布。

考虑到我们对alpha和p值的定义,我们认为得到的样本结果是显著不同的。我们可以清楚地看到p值远远小于alpha值。

p值>alpha值

我觉得你应该在进一步阅读之前回答这个问题。既然你已经知道了硬币的另一面,你就可以想象这种情况的结果了。

声音 | 朱佩江:区块链可以作为一个信任保障的第三方系统:在第四十七期的解码区块链分享会上,中关村区块链产业联盟秘书长朱佩江表示:区块链它是一个多方共识参与的,一个信用平台,各方在基于区块链平台,来进行一个合作的时候,可以形成一个很好的信用关系,不管是之前有没有打过交道,或者完全是陌生的人,可能都可以用区块链,来作为一个信任的一个保障的第三方系统,来保证大家的一个信用关系,这样的话就可以很好的支持,最优先的一个,就是很好的能支持供应链金融的一个服务。我所了解到的一些数据,是在很长的供应链上,可能二级企业,有60%的企业,是贷不到款的,如果再往下,比如说三级四级五级,这样的一些供应商,它要通过前面的订单,或者是从核心企业的订单,来拿到贷款,基本上是不可能的。如果有区块链,参与到我们的整个供应链的,一个供应链金融服务管理当中来的话,这样会为整个供应链的快速运转,提供了一个很好地保障,因为它是一个大家互信,都认可的一个系统,让整个供应链很健康的发展,这是区块链对供应链金融,很大的一个支持。[2019/9/24]

p值大于alpha意味着结果支持原假设,因此我们无法拒绝它。此结果通常与备用假设相反,并且获得的结果并不显著,只是一个偶然或者运气的问题。

再次,考虑相同的总体分布曲线,红色点为alpha,橙色点为样本中计算出的p值:

因此,p值>alpha可以解释如下:

样本结果只是总体分布的一个低概率事件,很可能是靠运气得到的

我们可以清楚地看到,人口曲线下方橙色点右侧的面积远大于alpha值。这意味着所获得的结果更可能是同一总体分布的一部分,而不是其他分布的一部分。

现在我们已经理解了p值和alpha值的解释,让我们来看一个来自统计世界的经典例子。

声音 | 宜信CEO:BTC风险波动太高,已经不适合作为一种财富管理配置的主要资产类别:据财经网报道,7月6日,在以“财富助力航运贸易金融创新”为主题的2019中国财富论坛上,宜信公司创始人、CEO,宜人贷董事会主席、CEO唐宁表示,我对区块链、比特币的理解,是我们对底层技术非常关注,区块链技术是有其意义的,我们通过创新实验室,金融科技早期投资等方式去关注、学习、参与它。比特币,我理解好像只是一个游戏,游戏玩儿的人越来越多,它的价值也会越来越高,价格越来越高,大家不适合作为一种财富管理的配置的主要资产类别,因为它的风险波动太高了,真正财富管理中国高净值、超高净值理财者、企业家的需求不是在这些炒作型的、高风险的、式的资产类别上。国际化、新经济、传承问题,这些远比去投机一些不靠谱的资产类别要重要得多,我指的是比特币。Libra从技术上不是高难度的事,更多作为一种模式能不能与监管有很好的共识达成,作为潜在可能的“货币”是和很多的法币管理体系,是如何处这样的关系,我觉得现在有很不清晰的地方,这也是为什么前段时间美国立法机构要求它停下来,要去很好地汇报、讨论,形成共识,我觉得这些也是预料之中的。[2019/7/6]

统计中p值的例子

在国家射箭队中,总教练打算在即将到来的比赛之前改善射箭运动员的表现。你认为提高弓箭手性能的好方法是什么?

他提出并实施了在比赛前进行呼吸运动和冥想可能会有所帮助的想法。实验前后的统计数据如下:

真有趣。结果支持了弓箭手总体得分提高的假设。但是教练希望确保这些结果是由于弓箭手能力的提高而不是因为运气或偶然性。那么你认为我们应该怎么做?

这是一个典型的相似度测试(本例中为z检验),我们想要检查样本是否与总体相似。我不会深入讨论相似性测试,因为这超出了本文的范围。

为了解决这个问题,我们将循序渐进的方法:

了解给定的信息并形成备选假设和无效假设计算Z分数并找到曲线下的面积计算相应的p值比较p值和alpha值解释最终结果这个问题的解决方案

步骤1:了解给定的信息

总体均值=74总体标准偏差=8样本均值=78样本大小=60我们的总体均值和标准差样本容量超过30,这意味着我们将使用z检验。

根据上面的问题,可能存在两种情况:

实验后的结果取决于运气,即实验前后的均值相似。这将是我们的“零假设”实验后的结果确实与实验前的结果有很大不同。这将是我们的“备择假设”步骤2:计算Z分数

现在,我们将使用以上公式计算Z分数。你问这些符号代表什么?好吧,告诉你是什么意思:

X=总体均值M=样本均值Sigma=总体标准偏差n=样本实例数插入相应的值后,Z分数为–3.87。

步骤3:参考Z表并找到p值:

如果我们在Z表中查找3.87,则会得到的值是0.999。这是曲线下的面积或总体分布下的概率。但这是什么概率?

我们得到的概率是在我们计算的z分数(红点)的左边。该值0.999表示相对于总体,得到“小于样本得分78”的结果的“总概率”。

这里,红点表示样本均值相对于总体分布的位置。但是我们之前学过p值在红点的右边,我们该怎么做?

对于这个,我们会用到正态Z分布下的总面积是1。因此,z分数右侧的面积(或未阴影区域所代表的p值)可以计算为:

p值=1–0.999

p值=0.001

0.001(p值)是红点右侧的未阴影区域。值0.001表示得到“大于样本得分78”的结果的“总概率”,相对于总体。

步骤4:比较p值和alpha值

我们没有为alpha提供任何值,因此我们可以考虑alpha=0.05。根据我们的理解,如果获得样本结果的可能性小于alpha值,则我们认为获得的样本结果有显著差异。

我们可以清楚地看到,p值远远小于alpha值:

0.001<<0.5

这表明,就总体分布而言,得到平均值为78的概率很低。因此,可以方便地说,射箭运动员在样本群体中成绩的提高不是运气的结果。样本总体属于其自身的某种其它(在本例中更好)分布。

数据科学中p值的例子

现在,我相信这是你一直在等待的部分。在统计中使用p值是可以理解的,我们甚至多次听说过它。但是p值处于数据科学的那个领域中呢?

即使许多有抱负的数据科学家了解p值的含义,他们也不知道如何在数据科学中使用此知识。结果就是他们错过了一个非常强大的方法来改进他们的模型。

P值是特征选择过程中的重要指标。在特征选择中,我们尝试找出自变量的最佳子集来构建模型。

现在你可能会问:“为什么不把所有的自变量都带入呢?”

实际上,引入冗余且没有贡献的变量会增加模型的复杂性。此外,它们可以降低模型在准确性、运行时甚至内存占用方面的性能。

让我们看一个例子。假设我有一个包含不同初创公司信息的数据集。我们有以下变量:

我们的目标是根据其他自变量来预测初创公司的利润。现在,你的直觉可能会说–使用所有可用的自变量来构建一个线性回归模型。

经过预处理和OneHot编码之后,因变量具有以下映射:

接下来,我们将使用statsmodels库构建一个OLS模型。这是我们得到的:

这个表显示了所有关于独立变量的统计数据。但是现在,我们只对包含p值的列感兴趣。我们可以清楚地看到,“R&DSpend”、“Administration”和“State_California”的p值超过0.50!

但是问题是,这个p值在回归模型中意味着什么?为此,让我们了解计算这些p值的假设是什么:

原假设:自变量对目标变量没有显著影响备择假设:自变量对目标变量有显著影响现在,以上结果表明,“R&DSpend”、“Administration”和“State_California”对初创公司获得的“利润”没有重大影响。因此,让我们从模型中删除这三个变量

除去这两个变量后的结果映射为:

在再次使用statsmodels库构建OLS模型时,我们得到的是:

我们可以看到,现在只有一个变量剩余值为0.05–“State_Florida”。那么我们应该删除它吗?

首先,我们从未决定任何alpha值。如果我们将alpha值设为0.05,则变量“State_Florida”将被消除。如果我将alpha设置为0.10,则该变量将在过滤过程中幸存下来。

在这种情况下,考虑到0.05不是要为alpha值选择的经验法则,我会保留下来。

在这个模型总结中最重要的一点是,尽管我们减少了两个独立变量,但调整后的R-Square值却上升了。

正如我们前面讨论的这是双重效果。借助p值,我们不仅创建了一个变量较少的简单模型,而且还改善了模型的性能。

在总结本文之前,让我们看一下许多数据科学专业人员和统计学家对p值的误解。

对p值的一些传统解释

我见过很多人对P值有很多的误解。以下是一些最常见的错误:

我们错误地拒绝原假设的概率:尽管低p值会促进对零假设的拒绝,但它与拒绝原假设的概率无关统计显著性水平:我们在实验前选择显著性水平。如果p值满足我们的显著性水平(p<alpha),我们才能得出结论干预效果的大小:p值绝不表示实验期间引入的样品中的干预大小。原假设成立的可能性:这与原假设很接近,可能不会造成太大伤害,但仍然会造成混淆。使用频率统计量来讨论原假设为真是不可能的。高p值意味着数据与原假设高度一致当然还有更多的错误!但请记住这些,下次你在工作中遇到p值时,你会做得很好。

标签:AXEatcXENAXE币是什么币atc币是什么币XEN币XEN价格

Bitcoin热门资讯
神秘而充满理想色彩的古灵币,将来会是通俗版的比特币么

在昨天的文章里,小鹿说比特币的匿名性并不好,毕竟比特币的交易信息是透明的,所以还是可以根据交易信息来追查到钱包背后的人。不过币圈还是有不少名副其实的加密币的哟.

1900/1/1 0:00:00
众应互联称陷比特币矿机商誉减值计提13亿,李化雷李化亮兄弟的金融科技野心:拟入局海科金、数字货币交易所及信贷公司瀚德金融

12月19日晚间,众应互联(002464.SZ)发布公告称,全资子公司北京新彩量科技有限公司(下称“北京新彩量”)发现.

1900/1/1 0:00:00
特斯拉车展上曝光最新电动卡车 完全是科幻电影中走到现实

特斯拉Cybertruck的到来已经在整个汽车行业掀起了冲击波。昨晚,这辆全新的电动卡车在洛杉矶隆重登场,在一系列重要而令人震惊的细节中,没有一个比卡车的价格标签或取决于您所得到的装饰的价格标签.

1900/1/1 0:00:00
200万一台的“大面包”终于来了,气势碾压埃尔法,4座/7座随便选

导语:200万一台的“大面包”终于来了,气势碾压埃尔法,4座/7座随便选!丰田埃尔法,本来是一款普通的MPV车型,由于不少明星选择丰田埃尔法作为保姆车,也给其带上了独特的光环.

1900/1/1 0:00:00
2019圣诞礼盒美妆系列|超详细盘点超值、颜值高的圣诞倒数日历!

黑五刚过完,沉迷于各类美妆无法自拔的玛格丽特,竟然快速了解到各类美妆产品。无论是圣诞限定款、圣诞新款还是圣诞礼盒,满眼都被“圣诞”两个字蒙蔽.

1900/1/1 0:00:00
坚守币值稳定目标 实施稳健货币政策

“金融活,经济活;金融稳,经济稳”,“保持经济平稳健康发展,一定要把金融搞好”,总书记要求充分认识金融在经济发展和社会生活中的重要地位和作用,扎扎实实把金融工作做好.

1900/1/1 0:00:00