首页
关于
推荐
百度一下
腾讯视频
Search
1
你要的草莓熊来啦!——郑科院
1,258 阅读
2
郑州科技学院2023-2024学年第一学期期末统一考试 Python程序设计
1,181 阅读
3
第4章 实训2 删除年龄异常数据
1,014 阅读
4
Python程序设计教学大纲(董付国老师版)
979 阅读
5
郑州科技学院2022-2023年第二学期期末统一考试 管理学 课程试题
917 阅读
默认分类
登录
/
注册
Search
庞立智
累计撰写
71
篇文章
累计收到
289
条评论
首页
栏目
默认分类
页面
关于
推荐
百度一下
腾讯视频
搜索到
52
篇与
的结果
2023-11-06
第4章 实训2 删除年龄异常数据
基于实训1合并后的数据,经观察发现在年龄特征中存在异常值(年龄数值为小数如1.8), 为了避免异常值数据对分析结果造成不良影响,需要对异常值进行处理。实现思路及步骤 (1) 获取年龄特征。(2) 利用for循环获取年龄特征中的数值,并用if-else语旬判断年龄数值是否为异常值。(3)若年龄数值为异常值, 则删除异常值。上代码:import pandas as pd stroke_info = pd.read_excel('healthcare-dataset-stroke.xlsx') age_abs = pd.read_excel('healthcare-dataset-age_abs.xlsx') link_outer = pd.merge(stroke_info, age_abs, how='outer', left_on='编号', right_on='编号') age = link_outer['年龄'] age_nomal = [] for i in age: if i%1 == 0: age_nomal.append(True) else: age_nomal.append(False) link_outer2 = link_outer.loc[age_nomal,:] print(link_outer2)
2023年11月06日
1,014 阅读
46 评论
3 点赞
2023-11-06
第4章 实训1 合并年龄、平均血糖和中风患者信息数据
我国始终把保障人民健康放在优先发展的战略位詈。“上医治未病",建立疾病预防控制体系有利千从源头上预防和控制重大疾病。某医院为了早期监测预警患者的中风风险,对现有中风患者的基础值息和体检数据(healthcare-dataset-stroke.xlsx)进行分析,其部分数据如表4-15所示。经观察发现患者基础信息和休检数据中缺少中风患者的年龄和平均血糖的信息,然而在年龄和平均血糖数据(healthcare-dataset-age —abs.xlsx)中存放了分析所需的中风患者的年龄和平均血糖信息,其部分数据如表4-16所示。现需要对患者的 年龄 、 平均血糖数据 与 患者基础信息 和 休检数据 进行合并,以便下一步分析。 实现思路和步骤: (1) 利用read —excel函数读取healthcare-dataset-stroke.xlsx表。(2) 利用read_excel函数读取healthcare-dataset-age_abs .xlsx表。(3) 查看两表的数据量。(4) 以编号作为主键进行外连接。(5) 查看数据是否合并成功。上代码:import pandas as pd stroke_info = pd.read_excel('Path') age_abs = pd.read_excel('Path') link_outer = pd.merge(stroke_info, age_abs, how='outer', left_on='编号', right_on='编号') print(link_outer.head())
2023年11月06日
312 阅读
0 评论
8 点赞
2023-10-30
第4章 使用Pandas进行数据预处理之任务4.4 转换数据
代码 4-24 利用get_dummies函数进行哑变量处理import pandas as pd all_info = pd.read_csv('../data/user_all_info.csv') live_type = all_info.loc[0: 5, '居住类型'] #抽取部分数据做演示 print('哑变量处理前的数据为:\n', live_type) print('哑变量处理后的数据为:\n', pd.get_dummies(live_type)) 代码 4-25 等宽法离散化age_cut = pd.cut(all_info['年龄'], 5)#提取年龄 print('离散化后5条记录年龄分布为:\n', age_cut.value_counts()) 代码 4-26 等频法离散化import numpy as np # 自定义等频法离散化函数 def same_rate_cut(data, k): w = data.quantile(np.arange(0, 1 + 1.0 / k, 1.0 / k)) data = pd.cut(data, w) return data # 对用户年龄进行等频法离散化 age_same_rate = same_rate_cut(all_info['年龄'], 5).value_counts() print('用户年龄数据等频法离散化后分布状况为:', '\n', age_same_rate) 代码 4-27 聚类离散化# 自定义数据K-Means聚类离散化函数 def kmean_cut(data, k): from sklearn.cluster import KMeans # 引入K-Means # 建立模型 kmodel = KMeans(n_clusters=k) kmodel.fit(data.values.reshape((len(data), 1))) # 训练模型 # 输出聚类中心并排序 c = pd.DataFrame(kmodel.cluster_centers_).sort_values(0) w = c.rolling(2).mean().iloc[1:] # 相邻两项求中点,作为边界点 w = [0] + list(w[0]) + [data.max()] # 把首末边界点加上 data = pd.cut(data, w) return data # 用户年龄等频法离散化 all_info['年龄'].dropna(inplace=True) age_kmeans = kmean_cut(all_info['年龄'], 5).value_counts() print('用户年龄聚类离散化后各个类别数目分布状况为:', '\n', age_kmeans)
2023年10月30日
179 阅读
0 评论
1 点赞
2023-10-30
第4章 使用Pandas进行数据预处理之4.3 标准化数据 Page-110
代码 4-21import pandas as pd pay = pd.read_csv('../data/user_pay_info.csv', index_col=0) # 自定义离差标准化函数 def min_max_scale(data): data = (data - data.min()) / (data.max() - data.min()) return data # 对用户每月支出信息表的每月支出数据做离差标准化 pay_min_max = min_max_scale(pay['每月支出']) print('离差标准化之前每月支出数据为:\n', pay['每月支出'].head()) print('离差标准化之后每月支出数据为\n', pay_min_max.head())代码 4-22 对用户每月支出信息表的每月支出数据做标准差标准化自定义标准差标准化函数def standard_scaler(data): data = (data - data.mean()) / data.std() return data # 对用户每月支出信息表的每月支出数据做标准差标准化 pay_standard = standard_scaler(pay['每月支出']) print('标准差标准化之前每月支出数据为:\n', pay['每月支出'].head()) print('标准差标准化之后每月支出数据为:\n', pay_standard.head()) 代码 4-23 对用户每月支出信息表的每月支出数据做小数定标标准化# 自定义小数定标标准化函数 import numpy as np def decimal_scaler(data): data = data / 10 ** np.ceil(np.log10(data.abs().max())) return data # 对用户每月支出信息表的每月支出数据做小数定标标准化 pay_decimal = decimal_scaler(pay['每月支出']) print('小数定标标准化之前的每月支出数据:\n', pay['每月支出'].head()) print('小数定标标准化之后的每月支出数据:\n', pay_decimal.head())
2023年10月30日
171 阅读
0 评论
2 点赞
2023-10-30
第4章 pandas数据预处理(要7个学时左右)
一、 材料清单(1) 《Python数据分析与应用(第2版)(微课版)》教材。(2) 配套PPT。(3) 数据。(4) 代码。(5) 引导性提问。(6) 探究性问题。(7) 拓展性问题。二、 教学目标与基本要求教学目标以实际数据为例子,介绍数据分析的数据预处理过程,即数据合并、数据清洗、数据标准化和数据转换。数据合并介绍将多个数据源中的数据合并存放到一个数据存储的过程。数据清洗主要介绍对重复数据、缺失值和异常值的处理。数据标准化介绍如何将不同量纲的数据转化为可以相互比较的标准化数据。数据转换介绍如何从不同的应用角度对已有特征进行转换。基本要求(1) 掌握数据合并的原理与方法。(2) 掌握数据清洗的基本方法。(3) 掌握数据标准化的概念与方法。(4) 掌握常用的数据变换方法。三、 问题引导性提问引导性提问需要教师根据教材内容和学生实际水平,提出问题,启发引导学生去解决问题,提问,从而达到理解、掌握知识,发展各种能力和提高思想觉悟的目的。(1) 数据质量不高的情况下如何提高数据质量?(2) 数据预处理包含哪些内容?(3) 数据预处理各个步骤是否有先后?探究性问题探究性问题需要教师深入钻研教材的基础上精心设计,提问的角度或者在引导性提问的基础上,从重点、难点问题切入,进行插入式提问。或者是对引导式提问中尚未涉及但在课文中又是重要的问题加以设问。(1) 重复值是否一定要做清洗?(2) 时间数据中存在哪些信息?(3) 数据变换的目的是什么?拓展性问题拓展性问题需要教师深刻理解教材的意义,学生的学习动态后,根据学生学习层次,提出切实可行的关乎实际的可操作问题。亦可以提供拓展资料供学生研习探讨,完成拓展性问题。(1) 除了哑变量处理外,还有那些方法可以处理 离散型特征 ?(2) 能否将这些方法写成自定义函数?四、 主要知识点、重点与难点主要知识点(1) 数据合并的原理与方法。(2) 数据清洗的基本方法。(3) 数据标准化的概念与方法。(4) 常用的数据变换方法。重点(1) 数据合并。(2) 数据清洗。(3) 数据标准化。(4) 数据转换。难点(1) 数据清洗。(2) 数据转换。五、 教学过程设计理论教学过程(1) 堆叠合并数据。(2) 主键合并数据。(3) 重叠合并数据。(4) 检测与处理重复值。(5) 检测与处理缺失值。(6) 检测与处理异常值。(7) 离差标准化数据 。(8) 标准差标准化数据。(9) 小数定标标准化数据。(10) 哑变量处理类别型数据。(11) 离散化连续型数据。实验教学过程(1) 堆叠、主键、重叠合并数据。(2) 检测与处理重复值、缺失值、异常值。(3) 离差标准化、标准差标准化。(4) 小数定标标准化数据。(5) 哑变量处理类别型数据 。(6) 离散化连续型数据。
2023年10月30日
135 阅读
0 评论
2 点赞
1
...
6
7
8
...
11