您当前的位置: 首页 >  宝哥大数据

特征提取、转换和选择

宝哥大数据 发布时间:2019-05-29 21:46:17 ,浏览量:4

一、特征提取

1.1、TF-IDF

1.2、Word2Vec

1.3、 计数向量器

二、特征转换

  在机器学习中,数据处理是一件比较繁琐的事情,需要对原有特征做多种处理,如类型转换、标准化特征、新增衍生特征等等,需要耗费大量的时间和精力编写处理程序, Spark ML包中提供了很多现成转换器,例如:StringIndexer、IndexToString、OneHotEncoder、VectorIndexer,它们提供了十分方便的特征转换功能,这些转换器类都位于org.apache.spark.ml.feature包下。

2.1、分词器

2.2、 移除停用词

2.3、 n-gram

2.4、 二值化

2.5、 主成分分析

2.6、 多项式展开

2.7、 离散余弦变换

2.8、 字符串-索引变换

2.9、 索引-字符串变换

2.10 独热编码(OneHotEncoder (Deprecated since 2.3.0))

2.11 向量-索引变换(VectorIndexer)

2.12 交互式

2.13、 归一化、规范化、正则化

  • 正则化
  • 规范化(StandardScaler)
  • 最大值-最小值缩放
  • 最大值-绝对值缩放

2.14、 离散化重组

2.15、 元素乘积

2.16、 SQL转换器

2.17、 向量汇编(VectorAssembler)

2.18、 分位数离散化

三、特征选择

  特征选择(Feature Selection)是从特征向量中选择那些更有效的特征,组成新的、更简单有效的特征向量的过程。它在数据分析中常用使用,尤其在高维数据分析中,可以剔除冗余或影响不大的特征,提升模型的性能。

3.1、 向量机

3.2、 R公式

3.3、 卡方特征选择

关注
打赏
查看更多评论

宝哥大数据

暂无认证

  • 4浏览

    0关注

    985博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文
立即登录/注册

微信扫码登录