请问忙总对于大数据/相关概念的看法
goofy
2015-04-05 12:33:13
记得在西西河的时候忙总认为大数据是已近存在的技术换个名字, 不知道能不能展开来说说对于这个现在很火热的名词的看法,未来能不能有发展,对于人们未来生活有没有什么影响或者提高。谢谢!
11 条留言
我觉得就是数据仓库和数据挖掘+分布式计算而已,统计规律不能得出逻辑关系,只能得出关联关系,其实对决策意义不大。
2015-04-06 12:28:06 回复
goofy
2015-04-07 02:33:32
多谢忙总回复。 “统计规律不能得出逻辑关系,只能得出关联关系” 是不是指比如一个成功人士去参观大型猪肉厂,回家后开始不肯吃猪肉了, 只能得出参观和不吃的关联, 不能分析数据分析出是因为他参观后, 对卫生情况感到不放心,心理上对猪肉产生抵触, 所以开始不吃了的逻辑原因?
顺便问下, 如果不想移民国外, 在国内城市圈,比如长三角地区, 怎么为自己和家人解决空气质量问题?
你举的例子没有统计特点,只是个案,无法得出统计相关性结论。统计相关性需要样本很多。
从数据中挖掘因果关系是大数据分析的梦想,但是学过数理统计的人都知道一个常识,数理统计工具只能得到数据的相关性。而且我们也知道统计数据有相关性并不意味着两个事件具有因果联系,而具有因果联系的两件事从统计数据上看有时也并不相关。统计学中Simpson悖论是最典型的例子,也即在分组时统计数据占优的在总体评价时最劣。原因就是相关性不是因果性。
再例如,公鸡一打鸣,太阳就升起,统计分析结果必然就是公鸡与太阳完全相关,但是其实并无因果关系。再例如,统计发现贵州人都喜欢吃辣椒,同时贵州高氟病发病率极高,统计分析结果一定是吃辣椒与高氟病相关,但事实上吃辣椒和得高氟病几率之间显然没有直接的因果联系。所以很多大数据分析出来的相关性其实是虚假的相关性。
我是数理统计专业毕业的,有一个科大同专业的同学是去年加拿大统计大奖获得者,他就是搞相关性研究的,他告诉我:可以人为安排样本,设计出所有需要的虚假的相关性数据,然后得出虚假的独立性数据。举例来讲,他在老家做过血汗工厂职业病调查,发现发病率并不比其他人群高(有的样本甚至更低),但这不能表明在血汗工厂工作对身体无害,因为去血汗工厂工作的工人都是年轻人,本来身体条件就好于平均人群。反而是血汗工厂把他们的发病率拉低到了平均水平。所以统计经常得出的数据是有问题的。
2015-04-07 09:28:49 回复
goofy
2015-04-07 12:24:42
再谢忙总回答。既然这样, 统计总也有正面作用吧,难不成真像忙总当年说的, 学数理统计最大的用处是不被数理统计方法忽悠?
数理统计当然很有用,尤其在清楚因果关系的系统中,可以通过检测数据,找到缺陷的直接原因。例如质量管理的关键节点控制工具就是统计过程控制工具(SPC)。
SPC是应用统计技术对生产过程中的各个关键节点进行监控,获取数据来与标准数据(或设计理想数据)对比,找到差距原因,调整改进生产流程,工艺,配方或设备参数,实现产品质量达标,设备负荷达标或产能达标,成本指标达标等等目标。
这种过程控制一般利用SPC软件里的基本工具(例如能力分析图,多级箱线图,多级排列图,直方图,帕累托图,散布图,工序能力指数,频数分析,描述统计量分析,相关分析,回归分析等等)分析工作过程的稳定性,对过程存在的异常因素进行预警,同时能够通过采样的数据分析质量不稳定,产能不达标,成本不达标的原因,找到改进办法。
SPC是管理的重要工具,不仅适用于制造业,也适用于服务业等一切过程型的重复性高的企业。它不但可以控制过程,也可应用于一切管理过程,如产品设计、市场分析等。
它的基本思想其实很简单;工作过程仅受随机因素影响时,过程处于统计控制状态,当工作过程中存在系统因素的影响时,过程处于统计失控状态。由于工作过程波动具有统计规律性,当过程受控时,过程特性服从稳定的随机分布。而失控时,过程分布将发生改变。SPC所以可以利用过程波动的统计规律性对过程进行分析控制。一旦发现工作过程抽样数据不满足某种随机特征就能判断问题出在什么地方,所以SPC能够找到问题和解决办法。
当然用于管理的统计工具还有很多。
所以数理统计虽然不能找到因果关系,但是如果因果关系明确后,数理统计方法能够准确定位相关因素,为改善找到入手处。
所以数理统计不能代替专门研究因果关系的物理学,数学,管理学等等学科。
2015-04-07 13:09:43 回复
Kingsford
2015-04-07 20:48:13
那从微观的角度看,大数据及其应用是否能形成对个体生活的一种穷举式描述:某人去什么饭馆儿,吃什么菜,穿什么衣服,洗多少次等等;如果能的话,它好像是边界效用递增的,那岂不是形成了计划经济和公有制的物质基础?
你说的这个属于定向跟踪,20年前警察就在熟练使用,这不是我们现在讨论的大数据,大数据是统计分析。
2015-04-08 10:36:11 回复
Yao1205
2015-04-07 23:08:14
从一个互联网行业从业者的角度来讨论一下这个问题。 最近5年一直在做移动互联网应用,工作和所谓的大数据也沾边。
大数据并不是全新的技术,是一种全新的对待数据的理念。
在过去十年一大批顶级互联网公司的海量数据催生了分布式技术的成熟。以google的三大论文(bigtable/GFS/MapReduce)以及amazon的dynamoDB等论文为基础,使市场上出现了成熟的分布式存储和分布式计算的能力。这两类技术是现在大数据的技术基础,使各类大大小小拥有数据的公司,真正做到了”再多的数据也可以存“,”再多的数据也能算“。
除了技术基础之外,大数据本身的理念和传统的数据挖掘也完全不同,着眼点不是大家提到的数理分析,趋势分析上。 大数据在分布式技术的支持下,将数据颗粒度直接降到了个人级别。 换句话说就是,传统的数据挖掘是找出整个市场的趋势,大数据是直接定位每个人的精确数据。
过去有个经典的数据挖掘的例子是沃尔玛通过数据挖掘找到尿布和啤酒有关联性,通过将2个商品放在一起提供销量。
未来大数据的场景应该是,沃尔玛知道每一个家庭的商品偏好,承受能力,最近购买变化,当购物者走进商场的时候, 通过机器学习计算出来的几类购物组合已经摆在客户面前。
你说的这个数据分析模式对企业资源配置决策是无意义的。
2015-04-08 10:38:14 回复
wxmang
2015-04-08 10:38:14
你说的这个数据分析模式对企业资源配置决策是无意义的。
营销就需要企业资源配置,例如库存准备,采购准备。
2015-04-08 10:50:13 回复
忙总:最近看到不少上市公司控股股东 都是 科瑞天成,这是啥公司,这么厉害
应该就是一个股市狩猎者,没有什么背景。
2015-04-08 11:01:13 回复
Kingsford
2015-04-11 00:35:26
谢回复,我没表述清楚,不是某人而是每人。当大量来自个体的数据被采集后,对于企业的决策是否用处呢?比如一个租车公司,每天得到来自每辆车的几十上百兆车况数据,直觉上应该有助于制定车辆维护的最佳策略,以及合理的保费价格,卖车的时候也能准确估价。再比如知道小区里每家每周的牛奶消耗量,对于社区超市难道没有帮助?还是说这些数据或许对小规模的本地企业有用,大企业面对的环境很复杂,所以尚没有行之有效的数据处理模式?就像奶厂即使知道全市每家每天的消耗量但依然很难使用这些数据?
我说的也是每人。例如我管理过的某超市集团,有500多万会员,我们计算机系统可以清楚跟踪着五百多万人的消费情况,消费偏好,家庭情况,收入情况,采购规律,其实想要什么数据都可以搞到。但是对企业决策帮助不大,因为超市3万种到6万种品项商品是最佳区间,多了少了都不能产生最大收益,太多会浪费空间,太少会浪费客户资源。我们不可能为500万人的某一个增加采购某种商品,只能按照统计规律来安排采购上架清单。所以知道每个人的情况对我而言毫无价值。
再举例,海南航空有300多万金鹏卡会员,我们也可以知道每一个会员的旅行记录和偏好,但是飞机就这么多,我们也不可能根据某人的需求开通一条航线,我们还是需要统计数据,当需求能够支撑航线,我们才会开通。对我而言,知道个人信息或个人需求也无决策价值。
2015-04-11 21:45:21 回复
laftodeath
2015-04-12 11:57:02
可能还是和提供产品的规模性有关系。对于航线、超市需要规模经济的产业,忙总的结论完全正确。
现在所谓的精细化,实际是在广告业、细分的服务业、个性化定制等方面的应用更多一些,单品利润率高一些。但是这些所谓新兴业态的基础还是大规模基础设施、通讯物流交通的骨架。
个体数据对骨架的决策没有太多直接的意义,所以还是要先分析应用范围,然后再说这个情况下是否适用,如何发挥最大效果。不知道这样的理解是否靠谱
专业化定制和个性化定制,日本在15年前就搞过,我记得有夏普之类,搞定制生产的企业基本都倒闭了。
大工业的标志是规模化,标准化和流程化,可以大幅降低成本,实现低价倾销。个性化定制就是死在成本上。这种企业永远长不大,就像私房菜馆,有10张桌子就是成就。不过搞企业的人,谁在乎十张桌子的餐馆?
2015-04-12 18:57:07 回复
我感觉现在的信息化所外延的大数据、云计算、物联网,多少都有些炒作的意味。真正的干货,可以推广执行应用,不知道还要多久。
你说得对,我有同学在搞这些时髦玩意,我问何时能用?他们说:天晓得。
2015-04-12 18:54:06 回复
请教忙总:私家菜馆是否就一定没有前途?
我换一个说法,一个小型制造型企业,面临产业升级。老板选择了一个新市场,但是竞争异常激烈。老板走上了"提供专享定制化解决方案‘’的套路,其实就是提供私家菜。虽然从长远看没什么前途,但是短期利益比较不错,财务数据也很理想。
这个选择有问题么?是不是在企业的生存阶段不得不这样?而一旦进去入积累阶段就必须改变套路?亦或者小企业(年产1亿左右,仪器仪表行业)无所谓?
对个人而言,开家私房菜馆也许就很好,怡然自得,轻松愉快。但是一个大国不能只靠一堆舢板就成为强国,我们必须有GE,波音,西门子,巴斯夫,丰田,三菱等等巨型企业才能在世界立足。
私房菜馆不过是解决政府就业难题的应急办法,其实政府也就是一忽悠,真不能当真。国务院宝钢办公室主任是正部级,有点屁大事情,总经理就要亲自过问;神华集团的运营报告,总经理都要看;大庆领导可以直接向国务院汇报。。。。。这才是真的重视。
2015-04-13 10:42:59 回复