指研究两种变量之间的相关性,分别进行分组研究时占优势的一方,在总体分析时却没有占优势。
辛普森悖论是什么1
1、 辛普森悖论是什么?
首先,辛普森悖论是一个统计学中的名词,大概意思是为了探究两种变量的相关性,人们会对之进行分组研究,但是出现一个问题是:在分组比较中都占优势的一方,在总评的时候有时反而是失势的一方。
举第一个栗子:加州伯克利分校录取率中是否含有性别歧视
这里统计了两个学院男生和女生的申请人数,录取人数以及录取率,这里隐含的辛普森悖论是:无论是物理学院还是文学院,男生的个别录取率都小于女生,但是计算总计的录取率男生却远大于女生。当时录取结果出来时,人们议论这个学校是不是对女生存在性别歧视,但是当你看不同分组的录取率时,你会发现它歧视男生?到底是歧视谁呢?
举第二个栗子:两种疗法治疗肾结石的成功率
同理,在治疗小型和大型肾结石的两个分组里,A疗法的成功率都大于B疗法,但是计算总计时却是B疗法的成功率比较大。
举第三个栗子:乔丹和詹姆斯投篮谁比较厉害
无论是在二分球还是三分球的命中率上,乔丹都要低于詹姆斯,但是在计算总计时乔丹却领先詹姆斯一个百分点。
2、 为什么会出现这种情况?
为什么会出现这种情况?在分层统计的时候是一批人优秀,而到了总计的时候又是另外一批人优秀,完全相同的数据却得出相反的结论。
原因:辛普森悖论的本质是,或者说前提是,每层之间的成功率差别很大。
拿上面三组数据来说明:录取率数据中,无论是男生还是女生,物理学院的录取率都远高于文学院(这里可能是学校专业分配上的原因,物理学院更好考吧);治疗成功率中,小型肾结石的治疗成功率远大于大型肾结石(这个很好理解,小的结石比较好治嘛);最后投篮命中率中,二分球的命中率也远大于三分球的命中率(这个想想就知道二分球比较容易投)。
这里有三个点,物理学院更容易考,小型结石更好治,二分球更好投;总结来说就是三件更容易做的事,而且观察三组数据发现,不同批次的人分配做不同难度事的人物也是有差别的。
这也是悖论的第二个前提,更多男生申请了物理学院(选择更容易的事去做),导致最终统计成功率时出现反转;人们使用A疗法做了更多大型结石(困难)的治疗;詹姆斯相比乔丹投了更多的三分球,拉低了他的整体进球率。
总结下来一句话:如果你多去干成功率高的事,那你整体的成功率就会变大。
3、 几何解释
数无形时少直觉,形少数时难入微,数形结合千般好啊,如果用几何的方式来解释辛普森悖论,相信能有更好的理解。
我们以横坐标表示做某件事尝试的次数,纵坐标表示成功的次数,每一个事件都可以用直角坐标系中的一个点来表示,从原点出发,画一个指向这个坐标点的向量,向量的斜率表示的就是成功率。假设一个人做了两件事,一件事的成功率记为 k1,另一件事的成功率记为 k2;
那么总体的成功率该怎么计算呢?很简单,总体成功率 = 总的'成功次数 / 总的尝试次数,在几何上,根据平行四边形法则,以这两个向量作为邻边做一个平行四边形,而这个平行四边形对角线的斜率就是总体的成功率。
这样子就能解释,为什么一个人两层的成功率都不高(相对的),但是总体的成功率偏高。
A无论做第一件事还是第二件事,成功率都小于B,但是计算总的成功率却大于B。
4、 结论
为了避免辛普森悖论的出现,就需要斟酌个别分组的权重,以一定的系数去消除以分组资料基数差异所造成的影响。虽然数据是客观和真实的,但是不同的人却可以用同样的数据讲出不同的故事。
辛普森悖论是什么2
辛普森悖论(Simpson's Paradox)亦有人译为辛普森诡论,为英国统计学家E、H、辛普森(E、H、Simpson)于1951年提出的悖论,即在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。
当人们尝试探究两种变量是否具有相关性的时候,比如新生录取率与性别,报酬与性别等,会分别对之进行分组研究。辛普森悖论是在这种研究中,在某些前提下有时会产生的一种现象。
即在分组比较中都占优势的一方,会在总评中反而是失势的一方。该现象于20世纪初就有人讨论,但一直到1951年E、H、辛普森在他发表的论文中,该现象才算正式被描述解释。后来就以他的名字命名该悖论。
为了避免辛普森悖论的出现,就需要斟酌各分组的权重,并乘以一定的系数去消除以分组数据基数差异而造成的影响。同时必需了解清楚情况,是否存在潜在因素,综合考虑。
辛普森悖论的回避
为了避免辛普森悖论出现,就需要斟酌个别分组的权重,以一定的系数去消除以分组资料基数差异所造成的影响,同时必需了解该情境是否存在其他潜在要因而综合考虑。
辛普森悖论的管理
辛普森悖论就像是欲打100场篮球比赛,然后以总胜率评价好坏,于是有人专找高手挑战20场而胜1场,另外80场找平手挑战而胜40场,结果胜率41%,另一人则专挑高手挑战80场而胜8场,而剩下20场平手打个全胜,结果胜率为28%,比41%小很多,但仔细观察挑战对象,后者明显较有实力。
量与质是不等价的`,无奈的是量比质来得容易量测,所以人们总是习惯用量来评定好坏,而此数据却不是重要的。除了质与量的迷思之外,辛普森悖论的另外一个启示是:如果我们在人生的抉择上选择了一条比较难走的路,就得要有可能不被赏识的领悟,所以这算是怀才不遇这个成语在统计上的诠释!
辛普森悖论是什么3
悖论的意思表述
悖论的抽象性公式计算就是说:假如恶性事件A产生,则计算出非A,非A产生则计算出A、
悖论的意思是问题或推论中暗含的思维的不一样层级、实际意义(內容)和表达形式(方式)、主观性和客观性、行为主体和行为主体、客观事实和使用价值的搞混,是思维內容与思维方式、思维行为主体与思维行为主体、思维层级与思维另一半的不一样,是思维构造、逻辑性构造的不一样。
悖论代表什么意思
1、我知我愚昧
苏格拉底曾说过:“我只了解一件事,那就是我一无所知。”
这一叫法自身 就是说悖论,呈现了自身参考的描述的.多元性。而这都是西方哲学先哲带来人们的关键启发:你得问别以为你了解的一切。更是问东问西问长问短打破沙锅问到底,越会发觉身旁正有一大波悖论呼啸而来。
2、上帝无人能敌
简述:无人能敌的上帝,能否造就出他自身搬没动的大石头?
有关上帝无人能敌的逻辑性悖论数不胜数,信徒们有成千上万的原因证明材料上帝的崇高,而在她们来看,这种悖论的原因本质无关痛痒。
脑洞大开:武器装备此逻辑性,与叫成上帝的自恋狂魔们对决好几百连击不减血。
3、喝酒悖论
简述:夜店里会产生这样的事情:假如许多人在饮酒,那麼每个人在饮酒。乍看上去是一个人喝酒造成了任何人饮酒。事实上,假如夜店里最少有一个人没在饮酒,那麼依照数学中的本质标准(material conditional),对这些没饮酒的人而言,一些人到饮酒,这种人群·中的每个人在饮酒,状况仍然创立。