KnowledgeCity

数据可视化与表达/叙事

在这些课程中,我们将聚焦于图表与用来创建图表的底层数据集之间的关系。并非所有数据都是相同的,针对特定情境,有些图表的效果会优于其他图表。我们将探索若干适合制作直方图、散点图和热力图的数据集。对于直方图,我们使用可被视为一种分布的数据集——例如掷一千次骰子及其相应的结果——这使我们能够看到该分布。

在这些课程中,我们将聚焦于图表与用来创建图表的底层数据集之间的关系。并非所有数据都是相同的,针对特定情境,有些图表的效果会优于其他图表。我们将探索若干适合制作直方图、散点图和热力图的数据集。对于直方图,我们使用可被视为一种分布的数据集——例如掷一千次骰子及其相应的结果——这使我们能够看到该分布。

我们将向你展示如何把随机数、Numpy 与 matplotlib.pyplot 结合起来,通过取用一次 NASA 火星任务的数据来创建具有某种分布的数据集,从而绘制散点图。NASA 有一颗环绕火星运行的卫星,它会拍摄火星表面的图像;在这些课程中,我们将探索该数据集,以绘制出火星表面的各个区域。你还将探索热力图的工作原理,包括热力图中不同变量之间的关系、它们在何时合理、又在何时不合理。

学习目标:

  • 理解底层数据与其适用图表之间的关系
  • 评估使用 Numpy、Pandas 与大型数据集的实践方法
  • 描述数据集与表达数据集的典型方式之间的关系

作者: Bill Hood

时长: 19m · 3 课时
级别: Intermediate
语言: 简体中文

你将掌握的技能

Data VisualizationInformation VisualizationScatter PlotsStatistical GraphicsVisual SimulationsVisualization

您将学到的内容

  • 理解底层数据集与最适合表达它的图表类型之间的关系
  • 通过结合随机数、Numpy 和 matplotlib.pyplot 来创建分布数据集
  • 为代表分布的数据集绘制直方图,例如一千次掷骰子的结果
  • 根据 NASA 火星任务数据集构建散点图,以绘制火星表面的区域
  • 构建热力图并评估其变量之间的关系
  • 在 Numpy、Pandas 和大型数据集中应用实践

关键要点

  • 并非所有数据都是等同的,在某些情况下,某些图表的表现比其他图表更好。
  • 直方图适用于可被视为分布的数据集,例如一千次掷骰子及其结果。
  • 散点图可以根据真实数据进行绘制,例如 NASA 卫星拍摄的火星表面图像。
  • 热力图取决于其变量之间的关系,这决定了它们何时有意义,何时没有意义。
  • 随机数、Numpy 和 matplotlib.pyplot 可以结合使用,以创建具有分布特征的数据集。

常见问题

本课程涵盖哪些内容?

它专注于图表与用于创建它们的底层数据集之间的关系,探讨直方图、散点图和热力图以及每种图表何时适用。

我将学习创建哪些图表类型?

您将学习使用直方图、散点图和热力图进行绘图。

本课程使用哪些工具和库?

课程使用随机数、Numpy、Pandas 和 matplotlib.pyplot 来处理数据集并创建图表。

哪些数据集被用作示例?

示例包括一个分布(例如一千次掷骰子及其结果),以及来自拍摄火星表面照片的卫星的 NASA 火星任务数据集。

我将获得哪些技能?

您将建立数据可视化、信息可视化、散点图、统计图形、视觉模拟和可视化方面的技能。

字幕文稿

字幕文稿

在本课中,我们将讨论直方图,什么是 它们是什么以及您何时使用它们。 直方图显示频率分布以及我的意思 那 是某件事发生的频率 和---关联 其他事件。 例如,让我们使用掷骰子。 只有六个可能的答案。 从一到六,我们掷骰子。 我们将得到一到六。 我们掷骰子 1, 000 次。 我们期望什么 那些骰子掷出的。 让我们继续模拟一下。 让我们问这个问题。 让我们构建一下直方图 当你想知道什么时,这实际上是正确的答案 数据看起来像。 在本例中,我们想看看掷骰子是什么样子。 所以我们将使用直方图。 我们要直接跳进去。 我想我们都熟悉这三个导入 点,所以我们不会花太多时间谈论这个。 我们将创建一个名为 rand 的列表,其中包含数字 case r,将其设置为空白。 然后我们将创建六个垃圾箱,我们将它们称为 bins 因为没有更好的名字。 进而 在 0 到 100 的范围内,我们将创建 X,即 将是 1 到 6 之间的随机数,这就是 模拟掷骰子,就是这样 然后我们将把这些结果附加到我们的 列表。 然后将其绘制出来,看看它是什么样子 喜欢。 让我们从 100 条记录开始,然后运行它。 我们会注意到,在这种情况下,这是我们的骰子 卷 1、2、3、4、5 和 6。 这就是频率。 我们掷了 1 20 次。 我们掷了 2 15 次。 我们掷出了 3, 看起来比 大概17次。 我们掷了 4 15 次。 我们再次运行它,我们会得到不同的答案。 但我们会开始注意到,肯定有一个 趋势 这个趋势是这是一个均匀分布。 我的意思是当你掷骰子时 你得到 1 的机会与你得到 1 的机会完全相同 6,与您得到的 4 完全相同,依此类推。 那么当我们开车时我们期望这些数据是什么样子 计数增加是因为它变得明显均匀分布 现在你可以开始看到它了 175 大概 180 是最大值,但你可以看到 骰子肯定在这儿 出来了,看起来确实很均匀,即 任何答案的概率相等。 我们现在要跑 10, 000, 最后看一眼,你就能真正看到我们正在驾驶它 真的很适合这种制服外观。 好吧,我们可以看到这是一个均匀分布, 这就是为什么你会使用直方图,这是类型 您在使用时想要查找的信息 直方图。 现在让我们 把这个提高一个档次,看看 当你掷两次骰子时会发生什么。 所以现在我们将继续采用相同的方法 除了我们要掷一次骰子,然后再掷一次 是时候我们把这些骰子加在一起了 将其附加到我们的随机数中。 现在我们为什么要这样做? 因为这更像是掷骰子。 现在有两个骰子的骰子是均匀分布的吗? 不,不应该。 原因是因为有两个骰子,有很多 你可以滚动四、五、六、七、八的方式, 因此,一些游戏就是围绕这一点进行的。 但对于两个骰子,选项是从 1 到 12。 我们会发现其中绝大多数是 会在中间出来, 分布区域为6、7、8等。 我们已经可以开始看到这种形式,而且我们当然可以 告诉你这不是均匀分布。 现在让我们再运行一​​次,我们可以看到 绝对是有形状的。 我所说的形状是指这里有一个 2,好吧,这就是 最低的可能性,它发生了一百次。 这是 8,这是一个更高的概率。 发生300次。 所以8明显 发生的可能性比 2 更大。 原因是因为只有一种方法可以得到 2, 一个1和一个1。 获得8分的方法有很多。 下一课是散点图。

随时随地学习

随时随地学习——使用 KnowledgeCity 应用,您可以在移动中观看课程。