时间:2026-03-14 16:09
人气:
作者:admin
此内容是黑马python+大数据课程的笔记,方便自己后续复习
大数据和python的关系
普通人用的软件一般都会有大数据做支撑


如果面试的时候面试官问你对大数据的理解,就不能空搬定义,要加上自己的东西。
是有价值的海量数据
是解决或者说是对一个传统工具无法解决的一份数据的处理方式

除了第一个其他都是1024关系
1024!=1000
一般公司数据量在G和T之间
例如你看一个大一点电影可能有二点几个G多,小一点的电影可能就是几百兆
一本小说有几百万的话可能就几十兆
为什么一个视频这么大呢 ?
因为它是图片,视频是很多照片拼在一起的,形成一个动态的,它占用的磁盘空间是很大的。
假设做项目每天新增数据量是200~400亿,在磁盘中空间大小大概200G~400G,但这个是不符合常理的,因为一般1条数占用0.2kb~2kb之间,有时候要相信自己做出来的结果。
在毕业写简历写自己的项目,需要对自己的项目非常的了解,我的这个项目行业是哪个行业是交通还是金融还是医疗,是哪个行业里面的这个公司是做这个项目,得搞清楚数据一条数据长什么样子,要知道每天新增的数据量有多大,存储的集群的规模有多大,每个服务器的配置是什么还要细分里面的很多需求,这样你才可以在面试的时候很自信地告诉你这些面试官说我就是这个样子,我做的项目就是这个样子。
公司数据一般在T/GB,如果进了一家公司数据量达到了PB,在国内目前能达到PB级别的数据以上的公司不是很多,非常牛逼。
计算和存储


结构化数据:数字 文字
非结构化:图片 音频
半结构:json等
它的来源多样化代表的是可以自己爬虫也可以自己公司产生的数据,也可以自己买数据
第三个就是低价值密度,数据量大,每天新增几百亿,但是有价值的数据相对来说就比较少,你不可能几百个数据,每条数据都有价值。它有价值的数据,在大量的数据面前就显得比较少,所以叫做低价值密度。
数据增长速度快,处理速度也要快。为什么说处理速度也要快呢?数据量大了之后要快速的处理它,1000亿的数据量,存在磁盘上面,都要存半年,你写进去就要写半年,写好之后你还要对里面的数据进行处理,进行统计,进行分析,这是很难的。 但是大数据就可以处理,大数据可以每天处理只要给足够的服务器,就可以处理足够的数据。
你的快与慢是与你的集群规模有关系的,比如你的笔记本内存越大是不是就越流畅,你给我的资源越多很明显它就跑得更快了。

它在很多行业都有运用,例如金融,银行,信用卡。你用支付宝,但是你扣款的是银行卡或者信用卡,肯定有一个银行卡做支撑嘛,要不就用花呗,花呗也是属于金融这个行业的。
你一天一个人产生三条数据,一个人一天产生三条,至少吧,肯定要吃饭了。然后那么多人用,这个数据量就很大了,一天可能几个亿,很轻松的,几个亿很轻松的,包括一些信用卡也是一样的。
而且如果是支付宝付款扣的是银行卡的钱银行卡,它有一份数据,支付宝它也有一份数据,而这份数据会记录你,谁什么时候,在某某店里面消费了多少钱,这个东西都会有记录。像这些数据都需要存储 ,几千万的数据或者几十亿的数据存下来,MySQL存不下,怎么办呢?
所以才有了大数据,这是第一个问题,就是存的问题。MySQL目前还是单机版的东西。
存储数据的方式有很多种,例如excel。 我们存数据可写在纸上,我们最原始山顶洞人在石头上在洞里面画了一个人形那也是数据,再后来就是我们有发明的纸在纸上写字也是数据的一种存储方式,再后来Excel出来了,我们在Excel里面存一些文档类的是不是WPS或者Word文档或者Excel。
但是Excel的单个sheet页的存储量为6万多条,当它超过了那个值就存不下了,所以说它有瓶颈。如果再加一个sheet页,但是数据是隔离的。
然后出来了数据库,例如SuperServer,很老的一种,基本上现在大学里面都很少用到它,还有就是MySQL,Oracle。
但是MySQL的存储数据量也是有限的,单个存储数据量达到百万级别以后就会非常的卡
数据库都解决不了,怎么办?
大数据来了。大数据的由来是什么?解决原始工具的一些痛点,一个是存储问题。
几千几万个存不下。有MySQL,数据库来了。
MySQL存不下了,写一条数据进去,耗时非常久,有的时候甚至写不进去。在查询这个表里面数据的时候,查得非常久,或者查不出来,或者说所有都崩溃了,就是因为它扛不住了。

互联网肯定是用大数据的
制造业指的是什么呢
在汽车车间里面还有一些工厂里面流水线上面有一些传感器,传感器会记录一些数据 ,就是慢慢在制造业运用起来,那个传感器会一个东西过去传感器会记录一条数据,这个数据就存录下来一天的数据量就很大。
还有一些环境环保的环保公司会在很多水域里面投入一些监测的一些工具,监测某一块水域的一个水质情况,他们也是制造业的。
包括车电网也是一样的 ,现在的像特斯拉,比亚迪,传奇,等等车企,他们也是传统制造业,它上面就有很多传感器,它的数据量产生也很大,也需要大数据做支持。
交通物流,因为用到的那个卫星通信也是数据在不断产生,像这样的行业包括物流和快递
医疗行业也会产生很多数据吗?像一些体检,还有很多人去看病,这些都会有数据保留下来,都会存档。
手机上面有美团,滴滴,抖音,大众玩这些软件绝对是有大数据存在的

在银行里面我们每个人都会划分一个等级,这里面有一个算法叫做逻辑回归,然后对每一个人打标签,首先是基本信息,看一个人的性别,年纪,什么行业,薪资多少,这是基本的。如果你的薪资在五千到一万,打个标签,一万到一万五打个标签,一万五到三万五打个标签,很明显你的工资越高,那你这个标签的价值就越高。还有你的家庭背景,你的固定资产,这些东西都会归到这个算法里面去。 都会归到这个算法里,然后最后打下一个最终标签,你是属于什么人群,那你如果说我们划 AO1,AO2,AO3,AO4,AO5,如果AO5最高的,你是属于AO5,我可以给你带几个亿都可以,但是如果你是AO1,那可能就放贷的放贷不了,它是对每一个人打上标签,其实这也有一个东西叫做人物画像,这打标签的过程就是人物画像的一个构建过程,各大平台其实都对我们每个人做了人物画像,例如滴滴,美团,画得很全面的。 这个人每个月可以还多少钱都算得很清楚的,大公司对我们每个人都有画像,不然的话他是无法做到精准推荐的个性化推荐,针对每个人的一些特征推荐的产品

在京东或者说淘宝上面搜的一些东西的行为,会记录下来,去浏览某一个产品的时间也会记录下来,大数据为他们提供的一些数据。这是落地的产品,但是大数据不做这些事情,算法团队来做 个性化推荐,大数据杀熟这些都是算法团队来做的。
一定要清楚的明白一定要清楚定位自己做什么。
大数据里面 Spark 里面的有些算法,有逻辑回归,实际网络,行程过滤等等算法但是准确度不高

头条一开始它的出名就出名在特殊算法这一块
其实就是ETL开发,
我们可以从事哪些岗位,我们先是初级,中级,高级,架构师,CTO,