开始尝试使用自己的个人博客,test
机器学习Sklearn LogisticRegression 与FLD(LDA)的使用
本次实验的任务是根据人类胚胎细胞在不同日期的基因表达信息数据,对胚胎发育的日期进行分类以及回归分析。分类方法采用Logistic回归和线性判别,回归采用线性回归,并对各种方法的效果进行分析。同时讨论参数的显著性。
数据分布的倾斜有很多负面的影响。 我们可以使用特征工程技巧,利用统计或数学变换来减轻数据分布倾斜的影响。使原本密集的区间的值尽可能的分散,原本分散的区间的值尽量的聚合。 Log变换通常用来创建单调的数据变换。它的主要作用在于帮助稳定方差,始终保持分布接近于正态分布并使得数据与分布的平均值无关。
Log变换倾向于拉伸那些落在较低的幅度范围内自变量值的范围,压缩或减少较高幅度范围内的自变量值的范围。从而使得倾斜分布尽可能的接近正态分布。 逻辑回归中使用的参数重要性评价方法大致分为两种:自变量相互独立时可以使用P值,偏回归系数等方法。相关性存在时可以采用主成分回归,优势分析,信息指数等方法进行评价,具体内容见附录文献。
回归分析 对于一元线性回归方程,检验y与x是否相关即为检验回归方程是否显著,除了相关系数检验,还可用方差分析法。对于多元线性回归模型,回归方程显著并不意味着每个自变量对y的影响都是一样重要的,可能有的变量有重要作用,而有的则可有可无,也就是说自变量中有主要因素和次要因素之分,因此,除了要进行回归方程显著性检验,还需要对回归系数进行显著性检验。