样本是如何产生偏差从而降低我们估计模型参数能力的?

股票入门知识 | 发布于2021-11-30

我们来看看样本是如何产生偏差从而降低我们正确估计模型参数的能力的。在金融建模中一种广为人知的偏差类型是存活者偏差(survivorshipbias),它是按照最后时点有效准则从样本总体中选择出的样本所表现出的偏差。若我们的数据中存在存活者偏差,则在那个时间之前不存在的公司的收益过程会被忽略。例如,业绩不佳的共同基金经常倒闭(因此也就退出样本了),而业绩较好的共同基金会继续存活下去(因此仍保留在样本中)。在这种情况下,对所有样本过去收益的估计就会导致过度估计的现象,这是由存活者偏差造成的。

另一个重要的偏差是指数样本选择偏差,这种偏差是在诸如罗素1000指数(大盘股)这样的指数样本中所固有的偏差。罗素1 000指数包括了罗素3 000指数中最大型的前1 000个证券(大盘股);罗素3 000指数代表了占美国股票市场上大约98%市值的股票。为了理解选择偏差,我们利用一个类似于罗素1 000的选择法则去人为地产生随机游走。考虑人为产生的随机游走能使我们在一个可控的环境中去研究选择偏差,而不受其他现象的影响。我们形成了10 000个独立的在1 000个时期上的随机游走价格过程,每一个过程都代表一个公司的股价。构造价格过程采用如下公式

样本是如何产生偏差从而降低我们估计模型参数能力的?

这里我们假定Pi(1)=1,波动率水平为0.007,它与现实市场价值的情况相符。我们首先来简单假定:每个公司都有相同数量的流通(outstanding) 股票。每50个时期, 我们重新选择一次,选择具有最大市值的1000个过程。在我们给定的假设条件下,它们就是具有最高市场价格的股票。这种选择方式与罗素1000的选择方式大致相同,并假定一期就代表一周。我们把这个随机游走样本称为AR1000。

随机游走的样本路径如图4.1所示。

我们将考察两个不同的总体。第一个总体中我们仅考虑在最近一个选择日所选择的那些过程。例如,在500~520的任意时间点,这个总体包括了在500期上选取的1000个过程。第二个总体包括了在整个时期内的任意时点上所选择的所有过程。第二个总体存在信息的预测问题,因为除包含最近时间外它还包含所有时间所选择的价格过程,这些过程包含的信息只能在以后才能获知。

样本是如何产生偏差从而降低我们估计模型参数能力的?

现在我们来研究平均偏差。换句话说,在时间t时,第二个总体包含了某些股票,其包含于总体的信息只能在某个时间s>t时才能获知。

飞鲸投研从多维度分析,整理了一份《成长50》的名单,可以关注同名公众号:"飞鲸投研":feijingtouyan,进行领取(点击复制)

该文观点仅代表作者本人,飞鲸投研系信息发布平台

/阅读下一篇/

数据集在估计其平均值时是如何产生偏差的?

热门推荐