您当前的位置: 首页 >  机器学习

【机器学习】离散型特征为什么要用One-Hot编码?

发布时间:2021-07-15 13:07:29 ,浏览量:0

以前专门思考过这个问题,碰巧今天又遇到了,记录一下。

数据集中的特征分为离散型特征和连续型特征,在机器学习算法中,特征之间距离的计算是十分重要的,因此,直接把离散变量的取值转换为数值,并不能很好地代表特征之间的距离。

比如颜色特征,其总共有棕色、橙色、白色、黄色4种,假设将其映射为1、2、3、4,则棕色和橙色之间的距离是2-1=1,而棕色和白色之间的距离是3-1=2,这显然是不符合实际情况的,因为任意两个颜色之间的距离应该是相等的。

因此,需要对特征进行One-Hot编码,简单来讲,One-Hot编码就是离散特征有多少取值,就用多少维度的来表示特征。

仍以颜色特征为例,经过One-Hot编码后将会转为4个特征,分别是:是否为棕色、是否为橙色、是否为白色、是否为黄色,并且这4个特征取值只有0和1。

经过One-Hot编码之后,每两个颜色之间的距离都是一样的,比之前的处理更合理。

关注
打赏
1688896170
查看更多评论

暂无认证

  • 0浏览

    0关注

    109276博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文
立即登录/注册

微信扫码登录

0.0986s