利用分类算法预测患者是否中风时,算法模型要求数据是离散的。 在实训2中巳对年龄特征异常值进行了处理, 现需要将连续型数据变换为 离散型数据 ,使用 等宽法 对年龄特征进行离散化。
实现思路及步骤
(1)获取年龄特征。
(2)使用等宽法离散化对年龄特征进行离散化。
上代码:
import pandas as pd
import numpy as np
stroke_info = pd.read_excel('../data/healthcare-dataset-stroke.xlsx')
age_abs = pd.read_excel('../data/healthcare-dataset-age_abs.xlsx')
link_outer = pd.merge(stroke_info, age_abs, how='outer',
left_on='编号', right_on='编号')
link_outer.head()
age = link_outer['年龄']
age_nomal = []
for i in age:
if i > 0.0:
age_nomal.append(i)
# 使用等宽法离散化函数
age_cut = pd.cut(age_nomal, 5)
print('离散化后5条记录年龄分布为:\n', age_cut.value_counts())
评论 (0)