我国始终把保障人民健康放在优先发展的战略位詈。“上医治未病",建立疾病预防控制体系有利千从源头上预防和控制重大疾病。某医院为了早期监测预警患者的中风风险,对现有中风患者的基础值息和体检数据(healthcare-dataset-stroke.xlsx)进行分析,其部分数据如表4-15所示。经观察发现患者基础信息和休检数据中缺少中风患者的年龄和平均血糖的信息,然而在年龄和平均血糖数据(healthcare-dataset-age —abs.xlsx)中存放了分析所需的中风患者的年龄和平均血糖信息,其部分数据如表4-16所示。现需要对患者的 年龄 、 平均血糖数据 与 患者基础信息 和 休检数据 进行合并,以便下一步分析。
实现思路和步骤:
(1) 利用read —excel函数读取healthcare-dataset-stroke.xlsx表。
(2) 利用read_excel函数读取healthcare-dataset-age_abs .xlsx表。
(3) 查看两表的数据量。
(4) 以编号作为主键进行外连接。
(5) 查看数据是否合并成功。
上代码:
import pandas as pd
stroke_info = pd.read_excel('Path')
age_abs = pd.read_excel('Path')
link_outer = pd.merge(stroke_info, age_abs, how='outer',
left_on='编号', right_on='编号')
print(link_outer.head())
评论 (0)