第七讲数据绘图 TODO

1. 课前准备
2. 绘图
3. 绘图 2

1 课前准备

安装 Matplotlib（Python 绘图） gpicview （图片查看器）等工具

apt install python3-matplotlib gpicview

2 绘图

昨天看到作业遇到的问题不知道陈嘉杰同学还有没有补充关于昨天的作业你要有补充的话还是讲一下那行这个昨天的作业还有我们还发现了一些其他的问题一会儿我们再补充一下关于大作业昨天有同学反映说同学后两周的小学期是电子工艺实习那么强度会非常大所以说我们准备改一下 ddl的日期在昨天上传的课程文件已经把它改了也就是说选了两门课的同学大作业的选了4周课的同学大作业的11号还是到26号大作业的ddl不变但是选了前半部分只有一二周的同学我大多数是工物系的同学这些同学的大作业的ddl 延长一周改到8月4号但是有同学会问我如果是选前两周的课同学和选4周课的同学组队了那么只要你们队伍里边有一位选两周课的同学你的ddl都延长到8.4 不过相信同学们会很快把它做完的因为大作业我们目前这个框架已经搭好了放在了这些地址上面然后我们会做最终的一遍检查然后就会把它作为作业发布出来那么总体来讲大作业的难度一个大作业相当于三个小作业因为比如说我们比如说TOLA这个部分我昨天画了一个pipeline的流程这是我昨天讲的流程那么在这个流程里边我们看它其实本质上就是三个小作业你看这里边是一个程序它读入两个输入文件然后输出一个文件然后这里边是一个程序它读入一个文件然后输出一个文件这里边是一个程序它读入两个文件输出一个文件所以说相当于是三个小作业那么每个大作业它都是这样它保证了它的简易性三个小作业的同时它还其实是在科学的前沿之上了所以说如果同学们把它做得很好的话应该可以会挑战人类知识的边界那么第二个大作业作为因为之前是有过竞赛所以同学们也可以去访问竞赛的网站来找到更多的内容也可以你也可以提前来做啊跟之前竞赛的同学拼一下分数在第二阶段我们也会尽可能的把另外两个大作业也做成竞赛的形式因为这是一个开放的问题整个科学界还没有一个完整的最终的答案所以说同学们可能会比你所做出来的结果可能会比目前任何人做的结果都要强所以说我们把它做成一个开放的系统比如说之前我们竞赛的网站是这样的可以在这些比如说决赛里边我们可以看到排行榜排行榜这边有分数然后如果你进来了的话还可以看到你可以看得到我网络还是比较慢比如说可以看到这样的排行榜因为第一阶段是一个确定性的作业所以第一阶段我们不做排行榜那么第二阶段我们也会把它做成一个类似这样子的这个样子大作业的形式好那么isoenergy的它的框架也已经好了数据的流程和昨天也都是一样大家可以查看一下按照这个流程上所写的大概分这里一个程序比如说这里一个程序有输入和输出这里的程序有输入和输出然后这里有一个程序有两个输入一个输出所以说都是相当于三次小作业的难度如果同学们遇到问题因为我们还有大概两周的时间有同学们遇到问题可以大作业也可以再进行调整那么在这些大作业里边我使用了一个程序化的流程定义使用的是Makefile 刚才跟同学们讲说大家可以安装这个 make 如果还没有安装的同学可以打 apt install make 那么它的基本结构它的基本结构是有一个输出的目标在它本来是一个文本文件它有一个输出的目标后面接一个冒号然后后边接你的输入的源文件然后在下面会有一个打一个Tab 打一个Tab键然后上面写上你执行的命令所以说这也就是说你如果这个程序要以冒号后边作为输入项以冒号前面作为输出项然后这个程序执行的具体指令是在这里写那么这里边有两个特殊的变量其中美元符号和尖号代表的是输入源所以说输入源你如果把文件写在这里这些文件在指令在执行的时候这个变量就会被这里的文件所替换如果这个目标这个目标就会把美元符号 @ 我们实际来看一下比如说在TOLA的大作业上面我们看到这里有一个Makefile 我看到这里有一个 Makefile 它其实定义了定义了这一点比如说一个叫 waves.h5 的文件也就是要求说你要写一个程序叫做 oscillation.py 这个程序会以这些个CSV文件作为输入这些CSV文件会传承放在这里变成一个参数它的输出是这里那么输出是一个 waves.h5 那么比如说这个地方有一个 ostrength.csv 它是你的输入文件然后offset.csv 是你的输出文件这样你就需要写一个程序叫做sample.py 它的输入文件是 ostrength.csv 输出文件是offset.csv 所以说整个的make 它就定义了这些关系我看前面有一个还有几个声明它首先声明了一个叫做all 的一个目标那么如果我们对all进行执行的话它会说我要执行这个就需要生成signal.h5 那么signal.h5 是在这里定义的它需要用wave.h5 offset.csv 来生成然后这里有个superimpose 它和我们之前的那个流程是一样的我们可以对比一下这是我们昨天看到的一个流程那么比如说最后一步我们要把 wave.h5 然后这个就是offset 它要生成最后的signal.h5 我们看到这就是最后一步的定义这个是在这个文件里边在一个叫做Makefile的文件里边依赖关系是在一个叫Makefile的文件里边写的输出目标输入源这个是在一个Makefile里面写的然后如果我是在比如说我把这个作业把它拿下来比如说我把TOLA的作业先拿下来克隆下来然后我看到这里是Makefile 它里边就是定义了这些依赖的关系我们看一下make 如果我们看它的manual 可以看到它的各种各样的各种各样的文档其中一个选项是-n n 是 –just-print 它只告诉我们要达到这个目标还需要做哪些事情我们看如果make -n的话它会告诉我们我们要做这些事情首先要执行oscillation.py 然后读出这些源文件station的文件还有频宽的文件还有光速的定义然后把它输出到waves里边然后第二步是用sample的程序从 ostrength 的一个强度来对offset来进行取样第4步是前一步的输出 waves.h5 和后一步的输出 offset.csv 作为它们的输入然后输出一个signal.h5 使用一个文件叫做superimpose.py 这个是你需要写的程序那么如果都写好了之后我们不打带n的进行make 它就会执行这些命令从而把大作业完成对是一个可以用的说明对就既可以给人读又可以给机器读的一个说明所以说它是符合我们透明性原则刚才同学的问题我重复一下它的问题是说当make执行的时候 Makefile到底是在哪走这个Makefile就是在你比如说我现在在目录里边这个目录里面有一个Makefile 那么我打执行make的时候它就会在当前目录里边找到Makefile来执行它所以说我们看到每个大作业我们都已经定义了流程图然后也定义了它的Makefile 而且都有一个就是说默认来讲我们什么都不打它就可以执行我又想起了一点那么我们看 Makefile里面其实它有很多的阶段如果我们只完成了第一个阶段我们想先生成这个位置waves.h5 然后后面两个阶段我们还都什么都没干所以说先想执行第一个阶段那么可以这样 make 然后waves.h5 这样它就只执行第一阶段如果我想只执行这个第二个阶段比如说我只想生成 offset.csv 它就会只只生成 offset.csv 所以说这样的话如果我们不把后面这个目标省略的话它就会默认在我们Makefile之下这一块把最终目标把它生成出来如果我们打一个阶段性目标它就会输出一个阶段性的目标这是我们大作业的总体组织形式然后还有一个依赖性的流程的定义有一个图片的文件除了图片文件还有一个机器可读人类也比较可读的模块文件作为大家总体的一个提纲在做作业的时候可以做这部分可以参考提纲来一步一步完成那么git的团队协作是我们留大作业让大家组队的一个一个比较重要的原因那么在团队协作中很快我们会通过Github的classroom 大家可以组队分组那么分组之后肯定会出现第一节课讲的版本控制和团队协作的问题肯定有可能会两个人分别动了不同的部分那么怎么把你们两个的差分进行融合起来那么一般来说如果没有特别的情况在你push之前先执行一遍git pull 它正好与git push是对应的我们已经用了很多次push了 push的意思是说再把我本地的查分量或者本地的commiu 把它传到这个服务器上那么假如说你们是两个队友一个同学 push了一个新的commit 那么它新的commit 就到了这个服务器上那么另一个同学可以通过pull 把另一个同学把第一个同学push上的commit 接收到了它的本地这样你就两个人就可以交换差分了那么如果如果真的两个人都进行了commit 然后都往上push的话那么就会出现一个问题肯定是早push的那个人成功后push的那个人因为你们两个所基于的都是同一个同一个commit 相当于两个人有一个分支了那么在这种情况下你在push之前先执行一下pull 这样的话就可以把你的队友的分支跟你的融合起来这是一般的情况但是还有一些更加冲突的情况也就是说如果你和另一个同学事先没有打好招呼你也改了这个文件的第三行他也改了这个文件的第三行这样这种情况下就没有办法自动的把两个差分融合到一起这个时候就会有所谓的commit冲突如果真的出现了这种情况你就要修改需要解决这个commit 那么修改肯定得沟通如果你遇到这种情况或者是说你想要避免预防这种情况请你学习陈嘉杰同学准备的 git教程这也是我在第一次课程公告里面第一次课程公告里边第一次课程公告里面发的链接然后还有一个是除了陈嘉杰同学的视频教程还有一个是在线的书籍这个书籍已经翻译成了中文版你可以在书籍里边找关于合并因为之前的小作业都是每个人一个一个git的仓库那么你只要自己不断的push 就没问题现在涉及到多人合作所以说要涉及到合并的问题那么大家可以先参考这些资料如果遇到问题大家要多多交流比如在群里边或者是在答疑的时候多多交流关于大作业其实还有一个还有一个事情有几个同学联系我说还有一些新的大作业的话题不知道同学有没有准备好大家好我们两个是来自上海交通大学的所以研究方向可能就不能和大家一起做然后我们要做的东西其实是研究或者各种政策评估然后国家自然科学基金每年给予了什么科学家的项目然后提供了很多资助我们经常研究一下这些科学家的获得这些资助之后那么它的整个的会去研究方向或者是它的产出那么我们面临的一个问题就是说在现实世界中不同的人可能有相同的名字尤其像这种比较普遍的名字比如说我们可以看到国家自然科学基金里面从1955年到2015年总共有18位不同的成功教授组成了39个项目我们想做的事情就是说我们知道这39个项目的信息我们怎么能才能把39个把它分归类为18个这就是我们想做的事情我们现在拥有这是一篇文献的背景我们想做的事情就是我们的数据源是1989年到2014年所有国家自然科学基金项目的负责人信息每一个项目负责人都有一个唯一的ID 我们就是知道18个他们是有唯一的ID的这就是构成了我们的精确然后我们有一个数据库因为刚才他不是在我们数据库里到我们的数据库里的信息大概是有点卡今天你只能提前先整好然后让大家看一下这就是他的问题我们的数据库是长的是这个样子从1989年到2014年所有国家自然科学基金项目它的授权编号就是他的项目然后以及就是每个人的编号那么我们可以这就是一张总体的表我们可以看一下我们发现李华他直接用他的机构就可以区分出来了所以不是很好的例子我们又找了一个叫李丹的是吧我们可以看到其实其实很多时候我们用因为其实在获得国家自然科学基金的概率就已经很小了那么他们在来自同一个大学然后又获得了国家自然科学基金的概率然后是同一个名字的概率就更小但是我们发现了刚好是清华大学的两个叫做李丹的人看到他们的不一样所以我们可以对比上汕头大学它的所有的项目名字是不一样的但是它的人都是一样的这里获得国家自然科学基金的来自汕头大学的都是同一个人但是我们发现清华大学他俩他们就不是同一个人我们要做的事情就是能够区分出这两个李丹不是同一个李丹我们大概就是这个意思我们第二步要做的就是我们要掌握我们所用的信息包括他们申请的年份领域然后还有他们申请的项目的标题然后关键字我们要做的就是没有 label的情况下把它区分成两个人我们只有在精确集的情况下验证我的模型好然后我们也是初次学习所以然后我们就构造一下我们把我们所拥有的信息全部构造出来然后包括标题的相似度关键词的相似度他们研究领域的相似性然后以及他们的合作者信息我们就来判断这两个人他是不是同一个人然后再选择算法然后构建模型然后最后用我们把我们的精确集拿一部分作为测试集然后来比较算法的效率然后最后得到它的假如说以K均值算法然后是它的F值然后看看各个模型哪个模型的效果更好然后最终选择一个可以普遍应用的整个是我们的一个大概然后就讲完了你有没有什么要补充的你把这个流程再讲流程其实就是我们上面整个过程我们最开始拥有的信息就是整个项目负责人的信息还有它的项目信息然后它的项目产出信息这个是后面的然后我们就看看这些信息有哪些是可以用的然后把它作为提取它一个特征然后加在我们的模型中然后最后我们选择一个自己学习的几个算法然后比较一下他们的哪个算法更优然后我们要做的大概就是这个事好谢谢大家因为我觉得我们这个概率非常大的比较匆忙没有找到更多的数据但是这个就是一篇文献里面也是用到国家自然科学基金慢慢就找到了18个刚刚给你看的就是精确集我们拥有的这个是因为包括整张表是长这样的我只用解决李华这个问题上我只用机构就已经把它给全部区分开了我要用李丹的话我可能还要必须要加上他的研究领域那就是我们要希望把所有人重名度高的人都可以用一种模型就能很快地区分出来我们可以看一下是一篇文献统计的他叫陈明的他总共分享39项然后他其实是18个人有3个人还有37个的项目然后还有18个人我们是想训练出一个模型能够普遍的区分出这些有多少人而不是针对某一个人叫什么来谢谢分享我理解刚才的问题如果我们把不同名字的算一下相似度它肯定是不相似的那么肯定我们的训练集里边肯定是negative的标签是最多的然后positive的标签是比较少所以说这个问题还是挺具有挑战性那么如果在座的同学如果有对物理的几个问题不感兴趣然后可以也可以选择选择作为大作业的前半部分好刚才抱歉占用了大家下课时间咱们继续往下讲我们一会提前下课一会有上厕所的同学只有一个同学上厕所昨天我们讲到了这个数据可视化的部分啊我们卡在了安装上相信同学们都已经把安装已经完成了是吧然后数据也下载下来那么我们就可以来验证一下有没有安装成功好像我没有安装完成谁知我安装完成还可以我们看一下 matplotlib 一般来说我用 matplotlib的时候都是 from matplotlib import pylab as plt 在matplotlib的文档里边可能是历史原因取得它俩是一样的吗它们确实不一样天哪我刚才打了一个命令 dir 是列出来pylab的名字空间里面都有哪些量比如说名字空间里边有这些量然后 pyplot 它的名字空间里面有这些量然后我们发现这名字空间竟然不一样我们还是用pylab吧你确定为了响应同学们的号召我开始现场学习pyplot 这就是已经验证了 matplotlib 它已经安装成功了那么 scipy 比如说我们 from scipy import signal 如果这个import signal 没有出问题的话说明scipy安装好大家执行这两个命令都没有出现错误出现错误的同学马上打断我这个数据大家也下载了是吧下载并且解压下载我下载了一下如果你没有这样打开python地方和下载数据地方放在同一个地方的话那么接下来你的操作你需要指定一下它的路径你就要特别指定路径当你下载下来之后可以把它解压缩解压缩的命令是 tar 它是什么的缩写它是tape 就是磁带最开始是对用磁带进行数据归档用的命令现在已经现在也在用但是它有了很多其他的功能比如说xf x的意思是解压缩然后f是指定文件现在命令还可以操作磁带比如说我们能不能这样prs -v 是说输出输出它做的事情然后-f 是把文件指定这样我们可以看到我们解压缩了很多 hdf5文件一个json文件然后一个是jupyter的 jupyter notebook的文件然后这个是一个python程序这些是一个python的一个用作于库好这些数据都准备好了然后我们先用json看一下 json文件我们在学习json的时候也看了这个文件我们看一下这个文件这个文件在这里叫做BBH_events_v3 我们把它命名叫做evts 我进行的操作是 evts json.load 然后把这个文件打开把它laod 进去看一下evts是什么因为json 它就是按照按照这个字典来设计的所以说我load的进来把json load进来之后它直接就是一个字典我们来看一下这个字典里边大家都load进来了吗没有那就稍微等一会稍微等一会我们来下载一下这个数据今天因为大多数同学都下载了数据所以说应该不会太慢已经下载的同学可以自己探索一下 evts 它里面都有什么比如说我现在探索一下没有我刚才讲了一会都会再重复刚才我只是自己玩了一会大家都下载成功了吗解压好了是吧好我们就开始工作先把 json load进来然后用json打开这个文件少打个括号这个符号就是那么这样就把json文件给读进来读进来之后我们看一下evts 就是一个字典那么字典里面都有什么样的键我看这个字典里面是有一个引力波的示例一共有4个示例所以我们今天先去看第一个事例也就是150914 我们把这个事例赋给一个中间变量比如说GW 然后我们再看一下 keys 里边都是什么一共有这个name 这些我们把GW整个都打印一下这个看起来比较难受我们看一下它有它的名字就叫GW150914 然后这里有一个 fn 看起来是 file name 的意思然后H1和L1分别是代表 LIGO的两个基地啊一个基地是某个H打头的地名一个L应该是 Louisiana 是把G2转化成字符形式对然后转化成字符它变成字符串了但是没有什么用所以说大家忘了是我刚才做了一个实验发现没有成功是的对所以没有什么用我看是不是这样会好一点这也不行好没什么用大家都我不需要管它那么第二个是H1 L1 它指向了这些文件名所以说看起来这些文件名都是有用的数据我们看一下这个文件这个文件是什么比如说我们用h5py把它打开把这个文件给它打开看一下它里面都是什么比如说我们取一个我取一个变量名叫fH1 然后看一下这里边的文件都是什么 h5py里面都有什么这个取的就是刚才的这个字符串其实我们可以直接这样取用字典的变量是一个道理好我把它读进来把hdf5的文件读进来了读起来我们看一下它有什么keys 上一步我回顾一下我们看到有4个events 我们就可以把其中一个event 把它取出来叫做gw 然后gw里边我们看了一下我们看了一下这里边有一个看起来是数据文件的东西什么什么.H5 所以我们要把这个数据文件拿出来比如说这样我们就把字典里边的数据文件的文件名拿出来那么有了hdf5的文件名我们就把这个文件打开这样把它打开这样就把它打开了我把它取一个名字叫fH1 我看一下这里面都有什么都什么东西这样看不到我把它转换成列表看里边有 meta quality strain 我们应该先看一下meta是什么 8 members 看看能把它都 list meta 里边有 Description Dector GPSstart Observatory UTCstart 我看到它有一些有一些变量比如说这个变量我们看一下 Description 看一下这是一个 Description 我看不出来它是什么类型 dataset类型能把它都取出来吗好它是一个非常奇怪的array array里面只有一个元素 Strain data time series time series from LIGO 刚才我的探索过程是这样的我一级一级我打开了hdf5文件一级一级往下看我看到有meta data 是这样然后Description 这个这个给出了这个文件的一些说明所以说遇到一个陌生的文件的时候我们会经常遇到这样的这样的探索的过程所以说有的时候如果我们有一个hdf5 查看器然后或许会更好比如说我看这个文件好像太复杂了我们把它dump一下看看 dump 我们不是之前有一个命令叫h5dump 然后看一下文件 h5dump 我们现在随便当可以看起来这些文件应该长的都是一个样子 dump可能会非常大所以我打一个 |

less

注意一点这里加一个竖线表示说把这个dump的内容把它放到less里面去你这个是本来dump的时候它一下很多东西我想一点点看那么我就让它变成一个会翻页的部分这就是加一个| 然后加一个less 这样就用less程序来分页的来读这个数据比如说这样看可能就更舒服一点比如说 Description Strain data time series 然后 DescriptionURL URL在这里然后Dector Detector 是 Louisiana 然后Duration是32 然后这里GPSstart 这里有一个时间的标志然后我们可以继续看到 quality 这里边还有一些quality的解释我看一下那文件叫啥来着这个文件叫gw 我们可以看一下这个文件爆炸了这样就看一下大概看一下这个文件里面都是什么哪个下划线这个下划线是装饰不用管了不需要装饰但是我也没dump成功这个文件可能是有问题这个文件是坏的竟然 LIGO竟然给了我们一个这个部分损坏的文件那我们换一个别的文件比如说但是用h5py读出来还是好都没有问题用h5py 一部分是好至少大概就是这样的一个我可以选一个别的 hdf5文件它们这些文件的格式应该都是一样的有同学用h5dump不成功的吗好大家不用太过纠结这件事情同学们不用太过纠结这件事情这只是一个小插曲因为LIGO合作组也知道自己文件太复杂了所以说它给我们提供了一个帮助程序这个程序叫做readligo 刚才解压的部分里边有一个文件叫做 readligo 是这样一个程序这个readligo 它其实是很长的是把readligo打开然后翻页查看这里有个readligo 然后我们看readligo 其实很长的它有一个非常长的辅助文件告诉我们给了我们一个文件这个文件里面定义了很多函数这些函数来帮助我们把LIGO的数据读进来所以说刚才我们看到了一个 hdf5 它的内部还是很复杂的所以说LIGO给我们提供了一个帮助我们读入的这一个程序所以说我们需要做的事用LIGO自带的程序来进行import readligo as rl 这一点其实非常有意思不是不知道大家有没有注意到我现在是把readligo 当成了一个模块来读入的我是import 那么它是从哪import的呢它就是从当前目录 import readligo的文件所以说这是python一个另外一个非常便利的地方我们可以非常容易的创建一个模块只要把只要把我们想要做成模块的文件把很多函数放到里面然后把它放到当前目录下我们就可以import import 这个 readligo的程序我看这个rl里边都有什么样的函数比如说我们用dir(rl) 看一下 readligo 里边它都定义了什么函数我们看一下它定义了什么 loaddata 它也输入了numpy 还有 read_frame 然后还有什么read_hdf5 还有什么 getsegs fnmatch 它大概实现了这个功能看起来就是要把 LIGO 他们约定的文件格式读进来好那么我们用一下就用工具这个工具是这样写的刚才我们是把这个文件名拿下来了这个文件名叫做gw 这是我们刚才要的文件名我们就把它load进来它load进来是会出来三个量 rl.loaddata fn_H1 这个地方要改成我先把这个文件名先给它一个变量这个变量就叫fn 然后我再把命令从我的slide里面复制过来这个 strain_H1 time chan_dict_H1 它loaddata的时候我就使用了 LIGO给我提供的read readligo的模块用这个模块里边的函数来进行读取读取之后出来的是三个量第一个量叫做 strain 第二辆叫做 time 第三个量叫 chan_dict 好读进来了我看一下这三个量都是什么 strain_H1 这个很好看起来是一个numpy array 那就是说它应该是我们比较有用的数据的看一下它的shape 这看起来非常好在这一步这些都是从哪来的在这里来的或者你打出来我上传了不好意思我记得我上传我把原来的更新了把原来这个更新了那么即使不看课件也没问题我们取一个简单的名字就叫H1 这叫ti 这个叫cdH 这样好吧这样大家可以少打一点这样就把这个文件loaf进来我们再看一下这个rl是我刚才把它的帮助的模块给它导入进来取名字叫rl 然后loaddata 就是他rl 它里面配置的一个函数这个函数里面第一个参数是我需要读的hdf5的文件名第二个参数H1 代表的是第一个LIGO Detector的名字具体来看我们要看这个函数定义我不知道它函数有没有定义我看一下它有没有定义是有定义的 Input file name should be a LOSC hdf5 return list 一个是STRAIN 一个TIME 一个是CHANNEL 说明它的readligo的模块写的还挺标准的它的函数里面都有文档我们可以看看这个文档刚才我执行的命令是这个大家都可以可以无无坑地执行了吗你没有那个文件有同学问说为什么参数只有两个返回值就是三个那么因为这个函数定义你可以有任意多的输入和任意多的输出它们没有必然联系

3 绘图 2

fn_{H1是我刚才把文件名} 赋值到里面的这一步我为了和它的示例代码一样我就又把文件名给改了我的刚才输入的东西是是吧没写吗 ifo 说明它这个文档写得不好是吧我们看不出来它是啥我们如果啥也不输看能怎么样好像什么也不会发生它那个变量好像并没有什么用好像还是一样的好像并没有什么用就这样大家不用太纠结说明LIGO的组他们在不断的更新代码然后更新的时候他们没有坚持一次性原则所以说旁边的一个程序改了然后文档的这部分还没改所以可能会出现一个信息不同步的问题大家都解决了疑问吗我们大概理解这个意思你看他们后面都一个不是有的同学一直有疑问说为什么我输入一个就出来三个就是这个函数相当于一个管道然后你放进去什么东西出来什么东西是根据这个函数决定的这个函数就可以返回三个这函数也可以任何的不输入然后返回三个比如说我你看我什么也不输入然后我凭空返回三个东西那么我执行这个函数的话我就可以给三个变量赋值了然后 a b c 输两个就会出问题我说后面首先这个函数它的输入跟输出是没有任何关系的就是这个格式是没有任何关系的然后我这个函数既可以输一个还可以输两个是因为这个函数应该是这个函数有一些缺省的参数比如说这个参数这几个参数所以这个函数我最多可以输4个参数但我如果不输的话这个参数就会给出一个给接受一个默认值所以我只输一个参数的时候它就是filename 输两个参数就是ifo 第三个就是带 tvec的所以这一步是我让这个函数读这个文件然后返回出来三个数据进行返回了返回来我们看最感兴趣的应该是 H1.shape 上面有非常多的数非常多的数那就意味着我们有非常多的数据我们是最希望看到的事情我们看一下这个数里边都是什么然后我们如果看一下我看会发现只能看到第一个第二个第三个然后因为这数实在太多我们没办法把这些数都看一遍比如说我们可以可以这样看比如说每隔100个看一下还是很多好吧然后我们看都是非常小的数所以说因为数据太多我们没有办法虽然我们可以读但是这个还是没有办法理解全局所以刚才我们所用到的 matplotlib 就可以上场了我们看 H1 它一共有这么多的数我们先画一个最简单的图 plt.plot(H1) 这样就把H1给它plot 很粗暴的plot 好像刚才退出了一次 from matplotlib import pyplot as plt 刚才同学们已经做过了但是我忘做了 H1 它说已经plot完了但是却没有任何显示我们把它有些同学可以把它show出来但是有些同学可能show不出来我们来把它先存一下存一下把它存成一个文件 plt.savefig H1.png 把它存成一个图刚才我们要画的东西存成一个图存好了我们看一下图片是什么样呢我们是在文件夹里面看看有没有新的新的图有个H1.png 这个时候大家可以查看一下这个图查看这个图有多种多样的方法比如说你可以使用VScode的remote 来查看文件然后对于我来说我是用另外一个工具来查看文件但是你可能没有安装但是你用自己的方式来看图就行反正就是这个图是这样 plt.savefig 然后你打一个图的文件名他们把什么把你刚才画的存到图里了 png 好像是 Portable Network Graphics 新文件你要存下来的新文件对这个H1是这么来的吗用你平时看图的工具看 png 你比如说用VScode的把png打开我平时是这么看png的但每个人都有平时看png的方法这个就是它画出来的图现在还看到不是看到那个图大家就能感受到做实验的时候一般来说看到的都是这种东西因为它跑的时候会它默认使用了奇怪的后端它没有pyplot 我们先下课好刚才有同学遇到了一个问题我先把它改一下啪啪刚才同学问遇到这个问题当你在打 plt.plot 时候出现了一些没有 DISPLAY 这些的警告那么我们课间的时候紧急的看了一下解决方法你需要import matplotlib 把matplotlib的顶层的名字空间导入进来然后进行mpl.use 使用 Agg 你会按汉语拼音来读吗就是说 import matplotlib as mpl 如果刚才plot成功的同学就不用做这个步骤了 mpl.use("Agg") 这样即使你没有你在你的环境里边没有图形界面也可以同样可以用了 Acg是什么意思我刚才也想知道但是我一直没找到它是什么意思我猜是什么这样的话我们就可以进行plot了刚才我们把它存到了一些H1 plot之后它会返回一个对象告诉我们说plot了一个线这个线是二维还是不行是吧我们就只能另开一个新的了这个问题太悬学了我们开一个新的再把 pyplot 载入进来之前就应该有设置先这样读入然后use Agg 要从里面打的太多了打的太多了那也没办法我们刚才如果把它存成一个脚本就好但是今天只是说练习一下画图我们还没有真格的去分析LIGO的数据遇到问题的同学要在 import pyplot 之前先把 matplotlib 的后端设成 Agg 这是一个一直以来困扰困扰数据科学界的问题但是这个matplotlib 到现在还没有彻底解决它大家担待一下工具然后我们就得重新把它读进来继续 import readligo as rl 是吧我们还进行了 import json 然后有一个evts GW150914 这个是我们的evts GW有一个fn_H1 就是这个文件名然后我们要用rl,loaddata 把这个文件名读进来对吧读进来之后出来了三个变量一个变量是H1 一个变量是ti 然后一个变量是 channel data 这个文件已经被打开了我先把这个退了就好了好我刚才重新做了一遍哈首先我把matplotlib的它的后端改成 Agg 然后 from matplotlib import pyplot as plt 然后我把读入LIGO数据的模块放进来然后我读入了json 同学们如果觉得它太长可以把它存到一个脚本里面然后我这样loaddata 把这个文件就读进来了这里就有一个H1 是吧 H1 我看到非常的大一共有 13万个数据点那么每个数据点相当于是LIGO的这一台机器每隔一个时间点每次采样一共采了13万个值然后因为这个值太多了所以我们来进行把它进行plot 这个plot大家都能成功吗把backend 使用Agg之后它就应该可以成功的不能打 Show savefig("H1.png") 这样就把我们刚才画出来的图存成了图像文件我们来看一下这个图每个同学都有自己看图的方法可以用VScode把它打开或者是你用其他的方法都可以我是用的这个工具看图这就是我们刚才画出来的图大家都能画出来这个图吗有的同学画图的时候遇到了困难因为Vscode打开这个图看起来还是很方便的有没有同学在画图的时候遇到了困难我们刚才其实是遇到了 matplotlib 的一个缺陷缺陷是只有当matplotlib 还没有画图之前就来打这个命令一旦画了图之后命令就没办法改变了就不起作用了没有办法这个是matplotlib 就比较伤但实际上新版本会自己检测出来是吗反正就慢慢的不知道你这东西对然后因为我昨天专门查了一下操作的这么说它已经解决了没有跟上的同学可以可以参考一下这个部分然后其实我们已经打了这么多条命令这么多条命令其实已经不太适合交互式的开发了我们其实已经应该把它放在一个脚本里边来运行但是今天因为我们想把数据读进来然后画一个图我们今天是比较特殊的我看很多同学已经把这个图已经高级版的图已经自己在私下画出来了非常好比如说 HDF5里面有各种各样的数据你可以把它们都画出来可以探索一下这几步都执行完了吗同学们好我们刚才把图画出来这个图有很大问题一个是看起来很丑它其实告诉我们一件什么事实际的实验数据如果我们不做任何处理乍一看都是这个样子虽然我们已经知道这里面有一个引力波的事件在这里边这里边是有一个引力波的事件的是吧但是我们如果不经过训练或者是不知道我们该看什么其实我们根本看不出来它里边有引力波的事件这就是人类看到的第一个引力波事件是吧但是我们就很不容易发现它比如说这个图还有一些别的问题比如说这个画出来之后我根本不知道它的单位是什么是吧这个图我只是看到一个看起来随着时间变化我知道它随时间变化但是在这个图里面也不明显但是一般来说看这个看起来就像一个声波一样的东西那么它应该是一个随时间变化的那么这个单位是什么目前默认的单位我们只是给它传递了一个数组它默认的单位其实就是它本身这个数组的标号就是说它一共有13万个数据那么它 X轴就一直长到了13万 Y轴是这个数组里面数的值其实是这样看起来看起来非常的小 10的-18次方但是我们并不知道它是啥说不定是米因为它的精度是10的-19次方我猜的所以说我们可能会给它加一些别的东西比如说我给它加一个加一个X的 xlabel 我给他加一个X的坐标说明比如说它是现在这个是标号是index 发生了什么这是一个这样的index 然后我们再存一下 reload 我也不知道是怎么reload 重新打开一下你看刚才我们给一个坐标轴加了一个说明叫做index 现在这个图里面就出了一个index 比如说我们再加一个别的说明比如说开头比如说 title 大家打什么都行我给这个图起了个名字然后再save 我刚才给这个图起了个名字这个图的标题就有了好复习一下刚才我说我打xlabel 它就可以给X坐标起名字然后打title 它就可以给这个图给一个标题那么大家应该可以举一反三的比如说 ylabel就给Y坐标轴取名字比如说它叫 strain metre 它就可以给Y坐标轴起名字好假如我起的名字我不想把它就放在我想给它放到外面的地方你可以看一下这个文档这个问题很好但是我不知道怎么改 X坐标轴说明的位置肯定有方法但是你也可以说把一个 text 文字放到这个图的任意位置你可以看一个叫做 plt.annotate 然后说 Annotate the point 但是但是你要说把这个这个图上的这几个元素然后给它换地方比如说它换到这儿换到这儿这个事情你要仔细查一下目前我也不会平时没有做过这件事但肯定是有这个功能我们还可以做的讲几个常用的命令我们还可以做的是比如说 Plot画一条竖线比如说画条竖线 vlines 比如说我们看我想在4万这儿还有8万这儿分别画两条竖线对吧从-0.6画到0.8 从-0.8 画到0.8 10的-18次方那就是-0.8 10的-18次方 0.8e-18 这个命令的意思是说在这个图上画两条线 4万和8万然后从-0.8 ×10的-18次方一直画到正0.8 乘以10的-18次方画完之后我们再存一下这个图我们看到了有两条线这两条线这有一条黑的竖线这有一条黑的竖线那么plt它还有非常多的功能我先把命令放这给大家半分钟的时间刚才有一个同学建议说说这个图看起来太难受了根本不知道它到底到底这个信号是怎么走的我们能不能看一个直方图呢再给大家几秒的时间然后我们看一下直方图怎么样 vlines 就是竖线为什么你是不是把它show出来了你如果show出来的话可能会清空你如果savefig 它就不会清空然后它就会那样一点点叠加上去所以说你应该可以理解这个发生了什么你想画成一个叠加的我觉得你也是会的是吧也就是说 matplotlib的约定它认为你show了之后你已经看到这个图了下一步你是想重新画一个新的图你一旦看了它的状态就变了是但是我savefig 然后我就把这两个相干性给它解开了这样我就能分别去看了全部在这里好 vlines 大家没什么问题用于我们标记这个位置还是很有用的一个功能然后hlines就是标记横的横线但是肯定有非常多的功能比如说我刚才看到了这个命令比如说xkcd 就是说把把这个图改成一个漫画的形式我们看一下它怎么用比如说我们试一下竟然没改大家可以自己探索一下我的notive尝试没有成功可以用xkcd来把这个图变成一个漫画的风格哪呢我再plot一个我先把它clear 我画一个xkcd版本的果然变了所以说 matplotlib 它还有非常多的功能今天可能只举几个非常常见的例子好我们刚才一个同学说这样的一个一个图看起来都重叠在一起然后也找不到什么规律我们是不是看一下直方图我们再介绍一下直方图的命令直方图就是 hist 就是Histogram的缩写看一下hist它都要什么参数这有一个x 就是你要给的这个数据然后bins是一共分成 hist分成多少个组我们来hist一下 H1 发现它一共默认分成了 10个组然后我们把它存一下因为我没有把大家可以用clf 就是说把 fig清掉重新再打一次还是xkcd的风格但是大家也可以看是吧看起来反而更清晰一些我们看到信号看起来很像一个高斯的形状是吧它就是在0中间来回震荡也看不出来什么规律是吗那你把它的均值和方差非常的好这位同学刚才做了一件事情我怀疑它是高斯然后他把分布的方差和均值都算出来然后用高斯分布模拟了一下取出来一些数然后跟它对比了一下发现形状长得并不一样那说明我们的假设是错的好同学们非常好做这些探索好那么hist也是这样刚才我们plot的时候直接plot一个方向我们看一下其它的数据是什么样的比如说H1是这样的你看看time是什么样 ti 我们刚才取的名字叫ti ti和它的shape一样那么time既然是这样的我们看一下time 一个什么样的什么样的数据我先要把这个图清空 clf 把它清空然后我们看一下这个time 然后我们把它存起来存一下看一下这个ti是什么看起来就是一条直线那就是时间就是一条时间所以说我们可能说这个时间我们分析一下这个时间有这么13万个数据然后 H1 有这么13万个数据说明这个时间和H1是对应上的那么就是说在这个时间检测到的剪切不是剪切拉伸量是这么大所以说我们想plot的时其实是想把这两个关系plot出来那么在plot两个量的时候第一个量就是对应一个X轴第二个量是对应于它的因变量所以我们要先把图先清掉然后我们plot一下这样子根据时间来说然后我们看一下它把这个图存起来那个是H1 存完了之后我们看一下这个是我们看跟刚才没啥区别但是区别在于横坐标变了横坐标和原来不一样它是一个什么 1.1加上 1.1×10的9次方加上这些45 50 56 60 75啊看起来是一个秒的单位我们要看 LIGO的数据的约定我猜它是一个秒的单位这个图和刚才图完全一样只不过X轴画原来 X轴我们用的是数组的默认的标号现在 X轴我们把它加上了时间这样的一个图就看起来更加的更加具有科学性我们再读一下别的数据比如说L1 之前H1我们是怎么读的 H1是这么读的是吧刚才我们这样把H1的数据读了起来现在 LIGO不是有两个单元吗一个是 H H某一个州然后L是另一个州路易斯安那州然后我们这样这样我们就把路易斯安的数据也读出来把它改一下把 H都改成L 把它再读一下我很好奇它这两个时间是一样的吗刚才ti是我没有import numpy 它这个时间确实都是一样的也就是说这两个数据这两个数据的X轴是一样的然后它是在LIGO的两个不同地点的机器上所接收到的信息一个是在H地点接收到的信息一个是在L地点接收到的信息我们再看一下 L上面是什么样的是什么样的是什么样的变化趋势我们就直接一步到位了我好像忘了clean 我先把那个图给它清掉再plot 然后再把存起来这是L1 这个图 L1 就看起来不完全一样但是好像也是这样比较混乱的一个信号我们应该可以把xkcd给它关了 xkcd应该怎么关行不管它了我们就继续以漫画风格前进刚才我们画了L1 看了L1 它跟 H1看起来差不多但是不知道大家注意到没有 L1的它的中间值就不太一样我们如果画一个它的LE的柱状图的话探索一下 L1里边有什么它的均值是-1 -1×10的-18次方但是前面 H1它的均值是0 所以我们看似乎它们是有一点区别所以我们就很想有一种冲动因为X轴也都是一样的刚才我们已经看到 X轴一样我们就有一种冲动把这两个图画在同一个上面让它们共享X轴这样好比较 L1和H1这两个距离比较远的地点他们接收到的信号是什么样的说不定我们能看到一些什么关联所以我们要做的所以我们要做的是先把L1画上然后再把H1画上然后再把这个图存一下然后我们看一下它们就画到一起了画到一起不是很容易看出到底哪个是到底哪个是L地点的哪个是H地点然后0的这一点是 H地点的 -1的是L地点但是我们这么画在这儿放在这儿肯定是过一段时间我们可能就忘了到底哪个是哪个所以说我们要给它加一些加一些label 加一些标签比如说然后我再打H1 我再让它把标号的图例放上去还需要图例然后我们再savefig 把它储存起来然后再看看这样我们就知道原来黄的是H1的部分蓝的是L1的部分然后横轴是时间如果我们把它写的把它写的完整一点然后你再把横轴放上去是以秒为单位的然后纵轴纵轴是Strain 以米为单位的然后 title 比如说 LIGO的拉伸的这些数据这两个地点的这样这个图就比较完善了存起来存起来之后就有了就有了这样一个比较完整的图但是我们看到会有一些瑕疵比如说这个跟标题被覆盖了然后挡住了一部分数据然后这部分被切断了这可能是xkcd的一些问题我们如果用一般的我们用一般主题的时候有时候也会遇到这个问题这个时候可能就需要按照刚才同学问的要调整一下它的位置要不然它可能会重叠在这一点上还没有办法做的特别智能好我们先下课休息一会好上节课我们一路一路用漫画风格画出了这个图同学们都成功了吗没问题不一定你用你的风格就画出来就行默认风格大家都成功了吗有没有遇到困难的同学没有遇到困难的同学是吧非常好我们会今天会有一个小作业这个小作业就是大家敞开心扉的画图然后画什么样的图都行然后我们先请陈嘉杰同学来总结一下昨天的特别的小作业了这是昨天的那道题对吧大家做的感觉怎么样然后给大家讲讲数据是怎么出的数据首先先搜了这么一张然后我在上面取了一些点然后就变成了大家拿到的数据所以大家拟合出来自然就会变成这样一个图案理解了吧我是先拿这样的一个图在上面写了一个点我把它拆成了4个组件然后把每1个简单的案例分成4个组件然后最后让大家画的时候大家画成4个的时候合起来然后你们今天还会在干嘛然后分数计算方式啊大家可能都看到网络学堂上给大家评分了然后大家有没有想问所谓的指数它也是怎么做的很简单然后这个系数的话大家可以看一下这个系数大概怎么换算然后乘0.8是80% 还有一个20% 然后时间大概要有一个分钟然后大家可以验算一下如果我们算错的话或者大家可以看commit的这个提交时间有疑问的话可以下来找我然后然后右边这个图就是用pyplot的方法刚才其实上面已经讲了用hist 然后把这个函数丢进去然后它就能生成另外这个图就是最后的分数分布看来大部分同学还是比较高的低分主要是交得比较晚然后发现虽然指数但是其实指数因为大家都在调低的部分其实是越来越降越来越慢所以学生分数并不那么差 OK 然后我们提供了两个参考答案都已经放在Github里面了然后大家可以回去看一下然后待会我给大家演示一下然后这两个其实因为我们自己不配给自己100分所以给大家看对然后这两个分别是比较经典点大家把矩阵取出来然后再进去然后第二种方法是提供的函数然后它能直接帮你做这件事情然后这两个代码的话然后然后我主要是给大家讲讲发现的普遍的问题大家我们是从头写到尾写完整个程序之后然后跑一遍发现不对然后我慢慢看我先看第一点好然后我发现好像看来没问题再看第二段好没问题现在我从头到尾看了一遍还是没有问题再讨论这个问题然后瞪了半天然后这时候其实最重要的需要的大家一个能力就是说大家需要学会用print打印中间的一个信息然后这样才最方便大家一个调试而且实际上如果是让我们自己来写的话就像我们并不像大家那样而是其实我们是这么解决的我们是先写一小段然后print看一下效果对不对如果这是对的我再继续往下写写一段的代码分析一下判断我没有问题继续往下走然后给大家演示一下好的时间关系我就直接抄标准答案这个是一个终端然后首先 txt 现在是大家原始名单发下去的文件然后发现它现在啥也没有没有语法错误对吧好这时候我就会怎么做比如说这边读data是吧我先看它是个啥对吧好好你就不这样了但是它还是不对但是它应该能够对我觉得好好这时候我们应该就能看到 data里面的数据是什么样子可以看到它然后它有个对吧我们应该就知道说从这里我们要先通过把它读出来这时候我们可以手动确认一下这里可以看到每个点都正确读出来了或者是你写的代码是没问题这时候我们可以接着往下写就是不要先rush的把代码全部写完待会再调而是应该你写一步的话一步接着一步可以看到它确实是得到了这么一个方程然后他也确实能够非常好然后大家如果在这里如果细心一点的话大家也可以但有肯定会有要求的可以估算一下这个位置其实大家可以直接看数据表如果你大概都没问题然后大概到这儿你就能猜明确实算的是差不多对的我们继续往下做然后这时候我们再去跑print 对大概这么一个说大家写代码不要从头到尾直接写完然后带着头脑去瞪眼瞪眼法去看代码而建议大家是一个是大家可以边写边debug 你写一段看一下对不对起来看对不对然后这样的话也可以有效的帮助你肉眼debug 缩小了很多然后当然主要是这门课也没有教大家去用一些更高级的方法去调试比如说你这样可以做到每执行一行代码然后就跑就可以看它的各个变量这个可以但是这个东西你需要配置一下环境比较麻烦我上课不会讲大家下课可以过来去学习然后现在来给大家看一看就是今天的东西对然后那边应该马上我们就好的今天还是爱心主题大家都在互相看 OK 好的刚才今天刚好讲的内容是画图对吧然后刚才我跟大家说了我们之前给的数据就是画出来的我们想我们让大家自己画一下可以了然后能给大家一个说白了给大家自由发挥的空间我们让大家写一个然后用刚才学的那些知识你可以给你去网上找一个好函数你也可以去自己设计一个反正你可以自己决定然后我们会有一些规则就是说你可以做基础就是你画出来你一定要一眼看上去是爱心对吧不能有奇怪的东西对吧不能在上面一看一眼啊那只是个圆然后你说的爱情但是为了让大家有一点动力来做更多的学习更多深入的东西还会有一些加分项就是说比如说如果你画一个实心的爱心就加个界面对吧然后对这些都可以加分然后你甚至还可以加人名我也不认识你会写谁对吧你大胆放心对吧反正这个团队放心第二个就是可以有不同颜色比如说你可以选择怎么样这是爱心对吧对吧你也可以不止比方说可以在爱心里面再画一个特别的特效大家可以自由发挥发挥多了以后就可以把这个东西然后也可以做些变化比如说你爱你的爱心不够对吧你可以搞一个爱心阵列你可以这个爱心大一点那个爱心小一点看出立体三维效果我说的都是我们实践的然后最后一个就是这个的话我们都可以因为你那一张图画都做过也可以把多个不同的爱心都可以反正这个题目的话我主要是给大家分的基础分很简单只要你能画出爱心的然后当然有一些像形状然后这个也是大家主要要做的你可能是在网上找了一个函数过来然后发现会有坑就是说你在边缘上接不上比如说你把爱心分成了4段边缘那个可能会差一点点你要想去弥补那个地方然后你只要做到这些事情就可以了就能达到满分当然还有白盒白盒本来就需要代码风格列举然后后面给大家自由发挥的我们这次没有grader 所以大家就再也不用去考虑grader了反馈然后大家自我发挥这就是我们今天作业的情况然后应该马上就布置一下就是commit的白盒还是讲一下你这么期待吗我刚才想到了一点昨天因为时间比较赶所以有些同学在commit的时候就直接写了一个 complete或者是完成然后就commit 可以理解昨天因为时间限制比较严格所以同学着急那么肯定是没有写太多希望大家在今后实际的使用中能够把commit写的更加信息更加丰富一些然后到目前为止今天应该是前两周的最后一次课程同学们主要是对大作业还有什么问题吗还有什么疑问吗没有什么疑问那么大作业的目前的大作业如如果你可以到这个Github 我们组里面 physics-data这个里边发个公告是吧我看一下这个公告好同学们可以把这些repository 把它克隆下来然后可以在本地可以先试验一些大作业的实现了那么然后大家先看一下正式开始我明天把让同学们的分组信息体现在Github classroom的上面对那个公式还没有算出来我学弟还没有算出来我想我目前的设想是我来指定一个公式或者大家自由使用公式你用不同公式的话就是你算一个散射的公式把它放进去我先给大家提供一个公式然后你要如果觉得不合适的话你再自己换一个公式然后我们再讨论一下我们来回顾一下这两周我们都干了啥其实希望这两周能够让同学们有所收获那么我把第一天讲的部分我又拿了出来主要是在进行数据分析的时候我们有4个原则其中最重要的原则是复现原则如果大家把这门课都忘了这个这个原则也都忘了但希望你还能记住这个数据分析要保证可复现性要不然这个分析它就不是一个科学结果它是一个广告这是一定希望同学们一定要记住复现原则还有透明原则还有一次原则还有最佳工具原则这个原则在这两周里边的各个部分我们都看到了这些原则的应用接下来我们也会继续应用这些原则来跟大家介绍更多的内容在这个原则的基础上就是我们我觉得这门课里边目前我们讲过的最重要的比如说如果按照重要性排序的话那么最上面1个就是4个我觉得这个部分是最重要的即使你没有学会写程序你没有学会python 然后什么都没有学会但是希望还是能够记住这4点如果你这4点都没记住希望能够记住这个复现这一点那么在这个之下其实我觉得最重要的是数据的格式数据的格式为什么数据格式非常重要呢因为我们得出的结果这个过程其实很多时候虽然这个过程也要去被别人验证但是大多数时候在科学的社区里面大家是互相信任那么你得到结果最重要的一步是大家能够能够理解这个结果有时候理解这个结果就是说他能够把站在你的肩膀上继续前进那么他站在你的肩膀上一般用的是什么呢一般是用的是你生成的某一个数据格式比如说对于你来说是你研究工作的一个结论那你可能放出一部分数据那么对于其他人来说他可以在你的结论的基础上继续前进啊所以说在我们讲大作业的时候我们都画了很多这样一些框图是吧这些就是一这样一步然后这样过来生成的这些部分那么这些框图是我们做数据分析的竹坪而这些框图它的表示为了让大家能够交流其实这些框图这些部分的格式非常重要的如果这个格式不能被你的队友理解的话或者是说从广义上来讲所有人都是你潜在的队友所以你一定要让这个格式能够让大家理解那么接下来我们讲的git和版本控制对那么所以版本控制我把它摆到了第三位上面就是说如果你没有版本控制你做到了这个数据格式的很有效的性质我觉得已经已经很不错了那么版本控制主要是对我们在工作的过程中在生成很好的数据然后跟大家分享这个过程中它的一个手段才能够帮助我们自己能够记住这个过程是怎样进行的它经历了什么样的历史然后也帮助我们和队友进行合作来达到这个目标所以说它只是达到目标的一个辅助的工具那么完了最下面的重要性我觉得才到我们学习的就是在课堂学习的学习最多的是python 那么python 其实我们可以看成是版本控制之下的一个手段那么如果我们可以进行版本控制的话那么我可以对整个的目标下的工作流程的一个总体的设计那么有了设计之后其实我们不用python 用其他的工具比如说其他的语言或者是同学们熟悉的别的数据分析软件这都没有问题使用pythpn只是我们综合了各种因素考虑认为它是完成这件事情的最佳工具但是它其实如果今后出现更好的工具同学们也希望能够一个开放的心态能够接受新的工具因为它可以大大提高我们的工作效率那么这是我们主要的课程在前两周所讲到的内容那么对于python来讲还有这个git来讲前面这个原则和数据格式大概大概来说相对来说内容比较少我们知道这个原则在平时的研究和学习中能够经常碰到再想起来就已经非常好数据格式一共数据格式变化的也比较少因为如果它非常快的变化肯定会不利于交流所以说这个数据格式在未来的 10年或者几十年的可以预见的未来可能不会太变化所以说基本上我觉得同学们已经大概上掌握了前两点但是后两点它其实这个内容是非常丰富的比如说git版本控制现在通过他来交小作业其实还只是它使用的一个最基本的使用今后今后肯定有更多各样的使用场景各种高级的使用场景如果同学们感兴趣的话相信大家可以自己去查资料或者是看陈嘉杰同学的这个视频教程那么git版本这个版本控制在接下来大作业大家肯定也可能需要自学一部分东西那么这一部分东西我们可能会通过答疑的形式或者是同学们之间互相帮助的形式来把它解决我们没有办法做到面面俱到把各种可能的场景都给大家讲出来也希望同学们在平时的学习的过程中以一种问题驱动的形式来对待这些工具因为这些工具其实跟我们跟我们的具体的学习的目标也没有结合那么紧密只是我们用到的就把它学习一下然后那么我们用到的多的肯定就是我们学习的多的肯定就会自然而然的记住就是说我们学习一门外语大概类似的学习习惯那么python更是这样比如说 python的软件库里边大概有10万个以上的这样的工具所以我们根本没有办法把它们都遍历一遍在实际的工作中肯定肯定是会遇到各种各样的问题希望同学们能够有有条件去查阅资料第一天不是第一天大概在第二天的时候给大家上传了一些课程的文件应该是在这些资料的下载里面不是不是教材和参考书的云盘下载链接那么昨天有同学说看起来感觉读书比较稍微遇到一些困难我还找到了一些中文版的它们相对应的翻译版放在了这里那么这些肯定我课上讲的比如说今天讲的mtaplotlib 然后还有numpy 还有scipy 甚至都没有具体来讲那么这些肯定是没有办法照顾所有的内容所以说同学们在实际遇到的时候一个是可以遇到这种查阅然后另外一个可以在教材的基础上先给自己获得一个知识的平台在这个平台之上在现学现卖其实就会比较舒服了因为从零开始现买可能会比较困难但是一定一旦你有一个最低限度的基础那么再前进就会比较方便我觉得 python的学习方式还是计算机语言也是各种各样很零碎的知识那么有很多部分是需要通过练习来实现我们平时的小作业给大家的练习其实并不是那么的充分其中也是有些部分也是根据同学的反馈再调整难度所以有感觉吃不饱的同学觉得作业太简单的同学可以在这一本书和这一本书里边找相应的练习来做一下然后或者是大作业它本身也是开放的大家可以把它做的更加在要求之外可以加一些新的创新在里面因为它本身就是来自于科研的最前线所以说大家加了这些创新肯定是会有实际的科研价值不是一个我编出来的场景然后做出来做的很完美也没有什么用所以说希望同学能够理解设计那么在大作业里边如果你觉得平时练习的不够可以把大作业做得更加功能更加全一点好所以经过了两个星期非常感谢大家能够能有这么多同学每天都坚持来上课我就感觉非常的欣慰需要非常希望啊同学们能够在这段时间里边能够有所收获然后下一周我们会改到6A207 去上课然后可能有一部分同学就要去上其他的课那么如果大家有什么问题也都可以随时来答疑即使你只选了前半个前半个小学期你可以随时来答疑然后你如果想来蹭课的话也非常的欢迎好非常感谢大家那今天就讲到这里下课好谢谢大家

第七讲 数据绘图 TODO

Table of Contents

1 课前准备

2 绘图

3 绘图 2

第七讲数据绘图 TODO