第4章 实训3 离散化年龄特征

第4章 实训3 离散化年龄特征

庞立智
2023-11-06 / 0 评论 / 319 阅读 / 正在检测是否收录...
温馨提示:
本文最后更新于2023年11月06日,已超过529天没有更新,若内容或图片失效,请留言反馈。

利用分类算法预测患者是否中风时,算法模型要求数据是离散的。 在实训2中巳对年龄特征异常值进行了处理, 现需要将连续型数据变换为 离散型数据 ,使用 等宽法 对年龄特征进行离散化。
实现思路及步骤
(1)获取年龄特征。
(2)使用等宽法离散化对年龄特征进行离散化。

上代码:

import pandas as pd
import numpy as np
stroke_info = pd.read_excel('../data/healthcare-dataset-stroke.xlsx')
age_abs = pd.read_excel('../data/healthcare-dataset-age_abs.xlsx')
link_outer = pd.merge(stroke_info, age_abs, how='outer', 
                      left_on='编号', right_on='编号')
link_outer.head()
age = link_outer['年龄']
age_nomal = []
for i in age:
    if i > 0.0:
        age_nomal.append(i)

# 使用等宽法离散化函数
age_cut = pd.cut(age_nomal, 5)
print('离散化后5条记录年龄分布为:\n', age_cut.value_counts())

1

评论 (0)

取消