第十四讲 DataFrame 表格数据结构 TODO

Table of Contents

1 课前准备

安装 pandas

apt install python3-pandas

2 表格数据结构

3 Pandas

Pandas 是把 R DataFrame 思想不完全忠实地应用到 Python 的产物,还是处于变动阶段,接口不稳定。 Pandas 自称是 Python 数据结构和分析库,在 Python 中是矮子里的将军。如果有条件,应当使用 R 来进行 DataFrame 处理。

我们就用pb来代表can't 然后我们还要看一下拍纳斯 就是 可以看他一些 说明他可以做一些事情 这些事情和那些事情 比如说他可以 很怕说plus 查理镇 我们的生产力动作 所以他讲很弱 可能都有 好 小写 为什么说我们为什么 你安装成功了吗 没什么问题 到他可能不觉得什么意思 开始开始开始 好 我们试试下一步休息一会 Plus我们看了一下它的基本 特点 然后他都可以干什么事情 比如说我们来生成一个文件 我们用刚才的方法 生成一个文件 开始 嗯嗯嗯嗯嗯 我们先设置一个地块的 让dk等于这个1万 整形 中心

  1. 这样

我们先设置一下低碳 它就这样写 首先它外面是一个列表 列表里边是每一列 每一列的这些 这个定义就是 第一列 前面是它的 每一个是一个不可变的列表插口 第一个是它的名字是一个字符串 第二个是 第二项是它的类型 然后是下一类 也是一个字符串 然后一个类型 好 再下一列是 也是它的名字 一个字符串 然后它的类型 然后如果它的类型 不是一个 单个的一个数 而他自己内部也有结构的话 比如说 四这么长的速度 就可以这样写 我们定义的低碳 我先简单的来 明白 弄一下 刚才我们讲到了 Kate内 我们再复习一下 你开进来 可以把两个数组 接起来 变成一个长的速度 比如说NPS又一个0的速度 三 R D tut 是我们刚才的写的 写的上面第二行 定义的 复合的数据结构 刚才我忘打了一个 忘记打了一个列表 因为很开心的那个时候 他作用的对象是一个列表 他要把列表中的每一个元素 连接起来 就是说Y这个是唯一的速度 BT 打点bb 还可以看到 在终端里面打的时候括号 一多就有点晕啊 所以说我们写程序的时候 用一个比较好的编辑器 这些括号都能看到模式 其实 好 我们生成了 生成了一个速度 这个数组我打命名叫 然后我把它存成htm5 27 25也没安装 当我看到SB M没安装的时候 可以把它安装 哈哈哈哈哈哈哈哈 打错了 应该拍成三十几 嗯好我们又复习了一下 安装 数据 我们就可以把这个 数据 好 来 我的意见 刚才他出错了 我进行了一波操作 让他可以运行 他问一下 结构化数据 同样这个意思大家是 状态 然后还有一个 对 反正你不能麻烦我喂了 我给你打 你说打成这样的 这就是讲第7步 你说这部分 也可以 对 也可以应该 不申请 不用考虑了 这样也可以 你看也可以 这是一个空数组也可以 但是要写写起来可能比较麻烦 我先不写 一噢我还是写一下 比如说012 2345这样 好 这样 这样 这样就可以了 具体还有没有 所以的结构化数组 也可以这样手打来生成 我们如果不满足他这个预期 他会告诉我吗 没有报错 它就变成了OPPO点 Offer就变成一个 非常一般的数据形式了 这就很难处理的 不是说你就没办法取列了 所以你写成这个地太谱的时候 它会更方便处理一些更结构化 好 刚才我们停在的地方 是htm H 5PY然后我们存一个文件 叫F作为 asked 瑞SAS1.H5 CRM S. 的 没有 数据 刚才用H5ppi 刚才H5PI存了一个文件 这个文件叫S点H5 然后这个是写入 写入写的5个是 然后刚才把这个 好 谢谢 我刚才把这个字义 自己就这样存到了 H5派文件 里面 嗯嗯嗯 好 谢谢 存到这个里面之后 我再把这个文件关掉 这个文件就应该已经存在 我的硬盘里面了 在当前目录下了 有时候我看SA点H5 在这个地方 稍微一会等一下 同学们 我们把这一个结构化的数组 存成了H第二部文件 联系不到你的 我中间这部分 他们黎华 没有在这 培训在哪 我开了另外一个窗口 你为什么让大家能同时看到两个 窗口 所以我就把两个窗口并列在这 法庭辩论 你再点一下再开一个双方 你这个是 我这个是有一个快捷键 然后它就可以有多一个窗口 然后我 你再点一个窗口打开啊 存在 这不在这 这里创建一个文件 然后把我刚才创建结构化数据 给它存到里面 然后再把这文件关闭 这中间就称号了 是吧 存好了之后 我们可以 我们再做一下安装的练习 我就可以看一下 这个文件里面 都有什么 对吧 我们刚才出了一个文件 叫S点H5 我们可以看这个文件在这里 SEH5 然后我们来用H舞大妈 看一下 它里面都有什么 因为他这个文件太长了 所以我们用less 他是一个 hd F对于sat 的LV 在南派里面的撒QI对应的是 hd F母的康帕姆数据格式 都是符合格式 那么 第一个是64位的整数 一般 第二个是64位的整数 China 然后是艾瑞一 共有4个元素 4每个元素都是 64位的铺垫 我看得三口一共有8个 因为我们把里面放了 3个0的元素 和5个1的元素 你怎么看 这是一个一维数组 然后它里边就是这样的 和我们刚才看的是一样的 那么回过来 回过来 我们创建了一个复合速度 并且把它存到了HP F物理 那么用plus 可以一不读入这个数字 它是叫做埃瑞的hf Free. 在判断式里边 只要执行这样一步 就可以把这个速度读起来 数据 坏数据 好不好 没有异议 这是我们做的 我又翻车了 我们来看一下 这个函数就是 可以 刚才我翻车是在这个地方 因为我刚才有一个Z刚才我们 看到 如果我们忘了 这个函数应该怎么写的话 这些党校 就可以看到 他应该怎么正确的读入车 嗯好 你看这个东西 有毛病没什么 好好好好好 好 我们再仔细看一下 好 数据 远远坏数据 坏数据 数据 数据 数据 什么情况 数据 数据 数据 数据 嗯嗯嗯 大家数据 数据 好 屁 我们可以去 有没有补充的数据 五 这个不是一方面的问题 五 好 然后咱俩沟通一下 坏谁知 数据 数据 坏数据 数据 数据 数据 数据 数据 数据 数据 我们大家知道什么 我在疯狂的试验 但 我们我问一下 我知道了啊 挺大 应该是攀纳斯他 我们不支持这种 内嵌而瑞的这种形式 3月28号 这个是 好 嗯嗯嗯嗯 没有充分的证据 我们把它改一下 记忆出现了问题 我们重新定义一个地区 我们只取地契的前两项这样啊 往下边弄的这是一个 一个函数可以用 叫三角形就是三角形 CS. 还有吗 没有异议 是吧 或许像因为一直对着他 我们简化一下 简化一下这个场景 刚才这个场景太复杂了 好 没问题 D T2 让它变成这个样子 我应该是 我们重新生成 什么东西 我已经 我们重新生成一下数据 OK. 我们刚才 刚才做操作时 我现在怀疑他这个数据 有判断 是没办法 没办法处理 所以我们只选一个前两列 都是可以的 只选前两列 那么就是一个劣势 11,000是China 刚才我打的和和刚才是一样的 那也就是NP zls去三个 然后D txt 娶我刚才定义的 D tut的 前两位 然后NP万452 取 D txt的两位 这种情况 然后我们再把这个文件 换一个名字 还是好谢谢 好 大家有问题吗 问题能不能通过 我想刚才就是这样的 也是我们在里面 我分配来合伙 我想和我都把它打开 然后新建的塞车 这样 在这W对方变成A这样 33AA是iPad 汉族 然后你说Z0 然后变成了地 对不对 嗯嗯嗯可以 这样我们就加了一个新的 这样 我们看一下 H5 SH难道我要把它关闭 鼓励 那不是很好 但刚才我遇到的问题是 文件没有被彻底关闭 我们看到这里面有一个自己 是我们最初比较复杂的 数据格式 然后我们又新弄了一个系0 这灵里边只有一份和China 这里面有一些数据 然后我们现在用看到是把它读 进来 这是我们的目标 发展的一个基础建设 这样我们就把它读进来 看起来确实是 判断是没有办法 没有办法搞定这种情况 汉达斯还是一个比较年轻的库 他的阅历还不够丰富 所以这样就把 就把给把 Z0补进来 荣一部 ASDF就把自己给堵进来 读进来之后 我们比如说把它读进来之后 如果我们再给他付个叫A的话 比如说我可以取它的 我也可以这样去 我试一下 这是第一个 就潘大师他 他那时他就没有那么的 我们应该这样去 与 他那时就没有那么的直观 我需要取他某一个行的话 我需要打 A.I. O C露 K讯 Index 好好回来复习一下 我因plus 刚才我已经报了end Sp 然后pb瑞的hb F然后接上 我那个文件名 然后和我要读的表 然后可能付给一个变量 这是我刚才做的过程 所以我们看到 当我们要读取这种 表格性的数据的时候 用plus 对 相对的啊简单的这种数据用餐 是相对来说比较方便 因为直接一句话 就可以把它读进来 那么这个A我们可以看到 它就可以比较 比较 规整的 把这个表格给打了出来 还标了行号 那么A我要娶她的烈 这里面需要用一些特殊的操作 比如说LOC要用LOC来去 比如说我取第三列啊第三行 取他的行 就取第三行 第一行到第三行 就这样 就把第一行第三行取出来 对 同学们提的非常好 他这里边连左臂右开都不是 1~3变成了闭区间 造成的原因主要是 因为潘呢是他在学习 另一个语言 也就是说统计语言叫做耳语言 在二语言里边 这些标号都是 啊左右都是封闭的 所以panda在模仿 所以说 他把变成了左右 都是B的这种区别 所以说同学们用的时候格外注意 同一个拍S这个环境里面的不同 工具 它的一些约定是不一样的 这一点其实还是挺坑的 挺容易出问题 回答要格外注意 应该也可以 因为我想 我觉得你今天的第三点 去中间的原告方 然后讲噢 我无法看到 然后我们也可以拿他的 这个列 然后列就这样 你可以看到 这个 列变成一个奇怪的东西 他就是plus cool CS 啊变成一个奇怪的东西 也我们可以看 China这个 例子 好 他也可以 潘德斯本身 它也可以直接的输出ATM 但是它输出的格式 是跟其他的st F都不兼容的 OK 他的API有明白吗 就只有他能赌进来 因为它是使用 底层是用的 pet apple 这样一个富 来进行输出的 所以说一般来说 我不推荐大家用plus 他自自己的htm负数 还是把它变成 H5派来输出 我们看一下H5派 他是怎么输出的 比如说他可以 sk two X txt它就变成了 结构化的 它就变回了结构化的 速度 但他家了又多了一个index 这是它的行号 所以plus是私自的 在我们的数据里加了一列 行好 我把它删掉 怎么删掉的对 A to X吗 我们看一下他的帮助 这里面有一个index的一处 Bye 对 数据 这样我们就找到了之前的 结构化而为 所以part 他可以跟一些简单的结构化 可以相互转化 我们为什么要学习plus 因为它有一些 稍微高级一点的功能 用起来很方便 我们今天只是熟悉一下 判断是怎么输入 怎么输出 怎么跟结构化的锐互相转换 那么把结构化瑞拿过来 就可以判断 对他们的认可 I V靠are right 这样我们就可以把 Z可以先to X次 我们先把它 把它变成X啊然后 可以不让我们开始 这样就就变成了汗 siri The panda睿 可以和这样相互转换 然后一般来说 可以把plus转成结构化的而 瑞 然后再输出etf 这样的交融性会比较好一些 所以说我们现在学习的工具 它已经不是很完美 在我们这个课程里面 就可以看到 他的一些缺陷 比如说第一个缺陷 他没办法 没办法读取这种情况 第二个缺陷 它输出的一些不 兼容性比较差 第三个缺陷 他没有办法直接输直接取行号 而需要打一个LOCR这种情况 它的语法 我的话可能 没有那么大 对 他需要lc 而且lc取一个的时候 它变成了另外一种数据格式去量 的时候 它还是一个推广 所以我们发现 这个软件包有比较多的缺陷 所以我们取它里面 非常可取的部分 抛弃他们 它里面的这些糟粕 让大家使用的时候能有所取舍 比如说 它可以进行 因代词取数 可以取列 也可以进行连接 连接是什么意思呢 比如刚才A是这样 我举取一个复制一个而已 数据 我双靠谱因特的copy 然后 copy了一份 和AA一样的 这样的一个 一个parts的贝多芬 他是为了保证我A和X指向的 不是同一段数据 Copy的功能 因为我们一般对变量 进行赋值的时候 只是把变量名传给了他 并没有把把这个数据本身 进行改动 是什么意思 如果我们把 A我想 我想生成一个跟M完全一样的 副本 我如果直接这样负值 那么Y就和A是一样的 这个时候我对A进行改动 对 Y也会变 A以外 为什么呢 Y. 103 我看到YRY这里也变了 是吧 但是我刚才 A X是从A copy过来 的 他进行一次复制 那么X这里就没变 这是拍上了 派送的默认的copy 它都是直接把指针给他拷贝过去 如果我对A做了一个预算之后 然后我再让8月 然后后面A之后 我是不是就不变了 应该是独立的 按具体情况来具体分析 然后我们可以做一个操作 叫做连接 对吧 教练的语法我也忘了 签了 On应该是二 不是不爱 使命 把X的钱给他 这个事情 谁知 太扯了 好像没有 数据 数据 数据 我觉得我开始疯狂翻车了 部分我们 超过原先跳过 就是说谁知 我心里边对潘纳斯有一种抗拒 可能他也开始对我抗拒了 对不对 他们自己都是一直考虑过吗 用它过去的一个版本 最近没有 或者是一点都不高 然后也就是说 我很赞成 所以说不仅跟大家 让他装了 潘大 才 让大家坐哪儿 PY然后我今天晚上仔细的捋一 捋 然后就不浪费大家的时间 然后自己再捋一捋 刚才跟大家讲的关系是这个样子 也就是说从一个集合里取一个 取一个元素 另一个集合里有个元素 它们之间有某一种联系 组成一个队 这就是要他们的关系 然后关系代数 是在集合的基础上 定义的啊 这种运算的一个封闭的系统 所谓封闭系统 像一个群一样 就是运算作用 在这种关系上面 它生成的还是一个关系 还在范围之内 围绕关系代数设计的这种 所谓关系数据库 大家会有所耳闻 它是存储海量数据的 基本的标准 那么其中具有代表性 就是所谓的 sql语言 但是我们在课上 可能会涉及一点S幼儿园 但是不作为 重点 那么整个的所有的 所有这种啊关系 它其实就具有一定的一般性啊 它不是一个 专门只有关系数据库 才适用的一种代数结构 它的一般性在于它 你使用这种代数结构 就可以把这个对数据做操作的 一些 日常的工作 把它抽象出来 比如说管理数据 添加数据 删除数据 分析数据 把这些基本的程序操作 抽象出一个数学体系来 那么有了数学体系之后 有了这些数学体系之后 就可以像正则表达式这样 我们应用方和引擎的制作方 就可以进行社会分工 那么最初进行设计 这种关系代书的时候 设计师是后 教授 他这样设计的基本动机是说 所有数据都应该能够自我描述 然后他对各种自我描述 进行了归类之后发现 他们能够抽象成一个代数结构 然后以及代数结构上的 有限的几种基本运算 就可以把所有的 这个数据处理的动作 都可以概括起来 那么数据为什么要能够自我描述 呢 我们其实我经常 在这个实验里面 会遇到一些例子 提到一些例子 比如说什么情况 像一个文本的表格 那个表格 可能我们随手写一个表格的输出 它里面可能是一堆树在这里 然后因为输入在这里 他可能第二行 不一定跟第一行是一样长 好 第3行可能是这样 第4行我们再 这个时候 我们根本无法知道 这一堆数据什么意义 有可能我们需要跟作者进行谈话 问你哪个是什么意义 他自己也可能过了一段时间 也记不住 可能需要看它的程序 然后怎么输出 才知道它是什么意思 然后如果这种 这种文件做一些改动 比如说这个地方不是那么 它是这么长 那么可能它的意义就变了 他的意义一旦变了 我们读取数据的程序 可能还需要重写 这是一个 数据格式跟程序 强烈的耦合起来之后 出现的后果 就导致我们每拿到一个数据之后 都需要写一个相应的程序 才能把这个数据读取出来 这是一个非常非常具有限制性的 这种耦合 这种我会非常的不好 而这个数据应该自我描述 那就是说我在程序 在读取这段数据的时候 比如说不是这种模式 比如说htm5合适 或者是其他的格式 我首先可以读取这个数据的描述 这个描述是标准化的 然后按照这个数据的描述的引导 来一点一点读这个数据 这是当时设计关系 代数 以及所相应的关系数据库 最初的动机 那么一方面 我刚才举了这样一个返利 还有一个在计算机界 经常使用的量表 我们量表量表是这样有 有一个单元 这个单元里面存了一个数 然后它指向了一个下一个概念 当然成了一个数 然后这里边再取一个三角 这里面是指针 比如说是 C元的区分 有些时候这些量表 我希望加一个分分支 我加了分支之后 这个地方的电表 就需要我把这个电表的 这个种类还需要重新定义一下 然后我才能加一个新的 那么我一旦把存储的格式 进行升级了之后 读取这个量表的程序 所有的全世界 都是一个列表途径 都在做项目 要不然他肯定没有办法 提出 第二个准备的位置 有的时候 甚至我要改这个量表 我把第二种人又删除了 那么肯定所有的人没有用掉 又来重新的 进行一次更新 这样的 所以说在当时的历史条件下 套的教授认为 这种 这种每次数据结构要改变 那么程序就要改变 这种情况是不能忍受的 在我们身边有很多这种例子 比如说随意写成的一个 Excel表 我们如果里面没有文字的话 我根本不知道这些数都是什么 所以说 如果我们能把这一部分 所有的数据操作 把它抽象出来 它能够 它就可以方便的扩展到 非常大规模的数据处理中 为什么 因为如果我们把它形式抽象出来 我们可以专注于 如何使用这个形式 对数据进行处理 这个数据具体到底是怎么处理的 可以有一另一部分专家 来专门的做这件事情 比如说那部分专家 他可以写出一个 非常大规模的数据处理程序 然后他可能本身并不懂物理 并不懂生物 并不懂海洋学 但是物理学家 生物学家 海洋学家 就可以用它的提供的这部分数据 接口 来进行大规模数据的处理 也就是说本来的一个程序 本来一个程序 在读取数据的时候 它可能是一定要这样 匹配的 才能把数据合起来 那么加入了 嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯 嗯嗯嗯嗯嗯 加入了这部分 关系代数的抽象之后 他可能这个程序 就变成了 这个是程序 然后这个是数据 这个是中间的引擎 你觉得 引擎来读这个数据 然后 程序只是驱动引擎来工作 就变成了这样一种模式 这样一种模式的好处 在于这个地方 它的争议是官司败诉 B. 它是一个可以严格定义 的数据结构 而且它可以是一个 非常简明的简洁的一个数据结构 所以说数据结构 它是一个永恒的 一一个结构 即使燃料不存在 这个结构也不存在 所以说在这个地方 这个接口就可以非常的稳定 经过几十年 也没有根本性的变化 不会出现这种不兼容的变化 所以你的程序 几十年前 写到现在应该可以 一九十吗 对 但是 整个引擎的部分 可能经过几十年 有过非常多的优化 它引擎部分跟这个数据 可能是变成了 这种方式 我说 可能变成了这种方式 最后有非常多的优化方式 到了当今这个时代 这些引擎都非常的强大 所以说它就像我们之前接触到的 形式化语言和自动机和正则表达 式一样 促进了整个的 社会的分工 使得引擎 比如说 现在可以艾特QQ停 这个引擎 可以 在内存没有那么大的情况下 操作比内存大很多的数据 比如说引擎 可以自动的进行并行计算 甚至自动的 自动的把数据 都放到超级计算机上 进行并行 执行 然后返回来之后 还是在一个 比较小的内存 有限的计算机上返回结果 所以说到了这样的一个分工之后 不仅是应用人员 还是开发人员 都可以面对一个相对一小的问题 把它结偶合之后的问题 可以专注于自己的 专业 整个社会变得更加的强大的 好 这以后我们讲到这 希望大家能够感受到 这个地方关系 代数抽象的力量 然后我们留到下节课 再具体讲具体 关系代数 都有什么样的形式 有什么样的运算 运算的 算服务 好 你下课

Author: 续本达

Created: 2023-04-22 Sat 00:02

Validate