Nothing is particularly hard if you divide it into small jobs.
Hi,同学们,本周是我们P3阶段的最后一周,前三周我们掌握了数据分析的基本流程、Pandas在数据分析各个流程中的基本应用,使用matplotlib&Pandas进行可视化的技巧,并且在项目三中得到了巩固和锻炼。我也陆续收到了大家的项目展示,都十分厉害,尤其是问题的提出以及可视化,非常能吸引人,只是数据整理阶段的代码还需再慢慢磨练,得以精简。本周导学呢,我们就是对之前所学做一个总结,希望大家也能自己做一份总结(这份总结才是最贴切你自己需求的),优达日的时候我们会一起交流一下自己的项目心得以及踩过的坑,等你们哦~
项目三(P3)阶段总共包含四周,在这一个月内,我们要对数据分析入门进行学习,学习数据分析思维,掌握Python数据分析及可视化方法,并使用所学知识完成项目三:探索数据集,尝试着自己完成整个数据分析的流程,得到一些饶有兴趣的结论,你一定会非常有成就感哒!那么以下便是这四周的学习安排:
时间 | 学习重点 | 对应课程 |
---|---|---|
第1周 | 数据分析过程-1 | 数据分析过程&案例研究-1 |
第2周 | 数据分析过程-2 | 案例研究-1&案例研究-2 |
第3周 | 完成项目 | 项目:探索数据集 |
第4周 | 项目修改与通过 | 修改项目、查缺补漏、休息调整 |
!!看这里!!:在P3课程里面安排了SQL的高阶课程,但是因为在项目三中并不会涉及到SQL知识,所以为了保证大家学习的连贯性,在完成前两周的课程之后,就开始项目。至于!!SQL的高阶知识,大家可以放在课程通关后进行选修!!;
本阶段可能是个挑战,请一定要保持自信,请一定要坚持学习和总结,如果遇到任何课程问题请参照如下顺序进行解决:
- 先自行查找问题答案(注意提取关键词),参考:谷歌/百度搜索、菜鸟教程、CSDN、stackoverflow、Python for Data Analysis, 2nd Edition 、Python Cookbook
- 若问题未解决,请将问题及其所在课程章节发送至微信群,并@助教即可
饭要一口一口吃,路要一步一步走,大家不要被任务吓到,跟着导学一步一步来,肯定没问题哒!那我们开始吧!
注:本着按需知情原则,所涉及的知识点都是在数据分析过程中必须的、常用的,而不是最全面的,想要更丰富,那就需要你们课下再进一步的学习和探索!
本周目标
- 完成你的项目,并且对P3阶段做一个自我总结,最好能以博客或者朋友圈文章的形式进行输出。
学习计划
时间 | 学习资源 | 学习内容 |
---|---|---|
周二 | 微信群 - 每周导学 | 预览每周导学 |
周三、周四 | Udacity - Classroom | 项目三 |
周五 | 微信/Classin - 1V1 | 课程难点 |
周六 | Classin - 优达日 | 本周学习总结、答疑 |
周日 | 笔记本 | 总结沉淀 |
周一 | 自主学习 | 查漏补缺 |
知识点清单
第六周-数据分析过程
数据分析的基本流程
- 提出问题
- 整理数据(收集、评估、清理)
- 探索性数据分析
- 得出结论,传达结果
Pandas在数据分析中的应用
- 导入文件(read_csv/excel/sep/encoding)
- 数据评估(shape / info / describe / columns/ isnull/ duplicated/ value_counts/ sort_values/ ascending/ unique/ nunique)
- 数据筛选(df[‘col_name’]/loc/iloc/np.r_/isin/query/groupby/
&
/|
) - 数据清理(drop/inplace/fillna/dropna/drop_duplicates/rename/replace)
- 数据融合(merge/concat/append/join)
- 可视化(plot)
- 导出数据(to_csv/index/encoding = ‘utf-8-sig’)
第七周-可视化
基本概念(fig/ax)
开始绘图(plt.subplots/plt.add_subplot/plt.figure)
坐标轴设置
调整范围(ax.axis/xlim/ylim)
调整刻度
- 设置间隔(locator_params)
- 设置顺序,角度(xticks(order_list,tick_names,rotation)
双轴(twinx)
标题与轴标题(title,xlabel,ylabel)
图例(legend)
颜色与样式(plot(x,y,’
color``marker``line
‘)网格(grid)
图像注释(annote)
平行于坐标轴的线(vline/hline)
常用可视化图形
- 散点图(scatter)
- 条形图(bar/barh)
- 直方图(hist)
- 饼状图(pie)
- 箱线图(box)
第八周-TMDb数据分析
- 如何提出问题? 找出关键变量,提与之相关的问题
- 数据备份(copy)
- 如何将一列处理为多列?(genres列的处理)
- 拓展:pivot函数
如何着手探索性数据分析?
- 单变量 - 双变量 - 多变量
- 关键变量 - 其他变量与关键变量
可视化
- 热度图(heatmap)
- pairplot
一些函数:
- 获取某一位置的数值 quantile
- 按列表筛选 isin
第八周-FBI枪支数据分析
- DataFrame行列变换:transpose
- 按字符串内容筛选:contains
- 按索引进行数据融合:join
总结
通过这四周的学习,你又掌握了:
- 数据分析的基本流程
- Pandas在数据分析各个流程中的基本应用
- Pandas常用函数的用法
- Matplotlib在可视化中的应用
此外,你还增长了这些软技能:
- 数据分析思维(化繁为简、化难为易、关键信息的提取)
- 耐心(EDA的过程,做过的都知道)
- 细心(有没有调试半天最终才发现是自己马虎导致的问题?)
如果你学习时间充裕,你还有可能掌握了:
- Seaborn在可视化中的应用
- 如何快速有效地使用搜索引擎
- 在Stackoverflow注册账户,提出问题,成为一名铜牌用户
- 有了自己的技术博客,并发表了第一篇总结性文章
- … …
哈!这么总结下来,发现不知不觉间,又掌握了很多!又进步了很多!我导师之前教育我说:“你之所以现在这么焦虑,都是因为你自己的能力满足不了你的欲望。”那么,同样因为对未来感到焦虑来到这里学习的你们,经过这段时间的学习,焦虑是不是缓解了许多呢?哈哈,所以,请不要放松脚步,KEEP GOING!