第4章实训3 离散化年龄特征

庞立智

2023-11-06 / 0 评论 / 396 阅读 / 正在检测是否收录...

11/06

利用分类算法预测患者是否中风时，算法模型要求数据是离散的。在实训2中巳对年龄特征异常值进行了处理，现需要将连续型数据变换为 离散型数据 ，使用 等宽法 对年龄特征进行离散化。
实现思路及步骤
(1)获取年龄特征。
(2)使用等宽法离散化对年龄特征进行离散化。

上代码：

import pandas as pd
import numpy as np
stroke_info = pd.read_excel('../data/healthcare-dataset-stroke.xlsx')
age_abs = pd.read_excel('../data/healthcare-dataset-age_abs.xlsx')
link_outer = pd.merge(stroke_info, age_abs, how='outer', 
                      left_on='编号', right_on='编号')
link_outer.head()
age = link_outer['年龄']
age_nomal = []
for i in age:
    if i > 0.0:
        age_nomal.append(i)

# 使用等宽法离散化函数
age_cut = pd.cut(age_nomal, 5)
print('离散化后5条记录年龄分布为：\n', age_cut.value_counts())

暂无标签

版权属于：庞立智

本文链接： https://panglizhi.cn/index.php/archives/57/

作品采用：《署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0) 》许可协议授权

取消

第4章 实训3 离散化年龄特征

评论 (0)

第4章实训3 离散化年龄特征