作为一个数据分析师,经常要和数据打交道,而数据存储在数据库中,所以掌握一些数据库知识是很有必要的。
而前面学习的Excel只是一个数据处理和分析的工具,并不适合存储数据。
数据库有很多种类型,常见的数据库有MySQL
、Oracle
、SQL Server
等,这些都是关系型数据库,因为它们的数据都是二维表格模型,就像Excel表格一样,由行、列组成,每一行表示一条记录,每一列表示一个字段。
例如,数据库中一个学员的信息记录表,格式如下。
id | name | sex | birthdate | class | city |
---|---|---|---|---|---|
20161001 | Sunbin | 男 | 1990/1/1 | 1 | Beijing |
20161002 | Wangwu | 女 | 1991/1/3 | 1 | Beijing |
20161003 | Lisi | 男 | 1990/11/4 | 1 | Shanghai |
20161004 | Ximen | 男 | 1989/8/7 | 1 | |
20161005 | zhangsan | 女 | 1989/1/2 | 1 | Tianjin |
20161010 | Leilei | 男 | 1990/12/5 | 1 | |
20161015 | Niuer | 女 | 1990/7/6 | 1 | Guangzhou |
除了关系型数据库之外,还有非关系型数据库,NoSQL,NoSQL=Not Only SQL,意为不仅仅是SQL,常见的就是MongoDB。
MongoDB以键值来存储数据,结构不固定,每一个元组都可以有不一样的字段,这种就不会局限于固定的结构,可以减少一些时间和空间的开销。
而目前常常听说的Hive是一个基于Hadoop的数据仓库工具,Hive使得数据分析师能够用SQL语句访问存储在Hadoop分布式文件系统中的数据,而不用了解Hadoop中的技术细节。
作为初学者,推荐大家学习MySQL数据库,原因有以下两点。
1. 使用广泛,很多公司都使用MySQL数据库,包括国内很多大型互联网公司。
2. 入门简单,从简单的开始学习,有助于增加我们学习的信心。
MySQL数据库只是一个软件,用于存储数据,那么,我们如何与MySQL数据库“沟通”呢?
答案是SQL,SQL是Structured Query Language的缩写,意为结构化查询语言。
我们使用SQL可以查询MySQL数据库中的数据,也可以添加、更新和删除数据库中的数据,俗称增删改查。
尽管有各种各样的数据库,但是访问和操作它们的语言却是类似的,学好了一种NySQL数据库的SQL语句,再学习其他数据库,就会轻松很多。
就连大数据平台中的Hive组件也是用SQL进行访问,我们称之为HiveQL。
好了,了解了数据库,下一节将学习安装MySQL数据库。