你是真正的大数据 “圈内人” 吗


只有搞大数据技术开发的,才是真正 “圈内人”?你觉得呢?

笔者曾经参加过若干会议,70% 是偏技术的,在场的都是国内各个数据相关项目经理和技术带头人,大家讨论的话题都是在升级 CDH 版本的时候有什么问题,在处理 Hive 作业的时候哪种方式更好,在 Storm、Kafka 匹配时如何效率更高,在 Spark 应用时内存如何释放这些问题。参会者都一个态度:不懂大数据技术的人没资格评论大数据,您要不懂 Hadoop2.0 中的资源配置,不懂 Spark 在内存的驻留时间调优,不懂 Kafka 采集就别参加这个会!对了,最近 Google 完全抛弃 MR 只用 Dataflow 了,您懂吗?不懂滚粗!


在这里我想说,技术的进步都是由业务驱动的,某宝去了 IOE 才能叫大数据吗,我作为一个聋哑人按摩师用结绳记事完成了对于不同体型的人,用什么按摩手法进行全流程治疗,就不叫大数据分析了吗?技术发展到什么程度,只有一小部分是由科学家追求极致的精神驱动,大部分原因是因为业务发展到一定程度,要求技术必须做出进步才能达成目标的。

所以,真正的大数据 “圈内人” 至少要包含以下几种人:

1)业务运营人员。

比如互联网的产品经理要求技术人员,必须在用户到达网站的时候就算出他今天的心情指数,而且要实现动态监测,这时候只能用 Storm 或者 Spark 来处理了;比如电信运营商要求做到实时营销,用户进入营业厅的时候,必须马上推送短信给用户,提示他本营业厅有一个特别适合他的相亲对象(呈现身高、三围、体重等指标),但是见面前要先购买 4G 手机;再比如病人来到银行开户,银行了解到用户最近 1 周曾经去医院门诊过两次,出国旅游过 3 次,带孩子游泳两次,马上客户经理就给客户推荐相关的银行保险理财产品。这些业务人员,往往是驱动技术进步的核心原因。

2)架构师。

架构师有多么重要,当一个业务人员和一个工程师,一个说着业务语言,一个说着技术术语在那里讨论问题的时候,工程师往往想着用什么样的代码能马上让他闭嘴,而架构师往往会跳出来说 “不,不能那样,你这样写只能解决一个问题并且会制造后续的若干问题,按照我这个方案来,可以解决后续的若干问题!” 一个非技术企业的 IT 系统水平,往往有 70% 以上的标准掌握在架构设计人员手里,尽快很多优秀的架构师都是从工程师慢慢发展学习而来的,IT 架构的重要性,很多企业都意识到了,这就是很多企业有 CTO 和 CIO 两个职位,同样重要!架构之美,当 IT 系统平稳运行的时候没人能感受到,但是在一个烟囱林立、架构混乱的环境中走过的人眼中,IT 开发一定要架构现行,开发在后!

3)投资人。

老板,不用说了,老板给你吃穿,你给老板卖命,天生的基础资料提供者,老板说要有山便有了山,老板说要做实时数据处理分析,便有了 Storm,老板说要做开源,便有了 Hadoop,老板还说要做迭代挖掘,便有了 Spark……

4)科学家。

他们是别人眼中的 Geek,他们是别人眼中的高大上,他们是类似于霍金一样的神秘的早出晚归昼伏夜出的眼睛男女,他们是驱动世界技术进步的核心力量。除了世界顶级的 IT 公司(往往世界技术方向掌握在他们手中),其他公司一般需要 1-2 个科学家足以,他们是真正投身于科学的人,不要让他们去考虑业务场景,不要让他们去考虑业务流程,不要让他们去计算成本,不要让他们去考虑项目进度,他们唯一需要考虑的就是如何在某个指标上击败对手,在某个指标上提高 0.1% 已经让他们可以连续奋战,不眠不休,让我们都为这些科学家喝彩和欢呼吧。在中国,我认为真正的大数据科学家不超过百人……

5)工程师。

工程师是这样一群可爱的人,他们年轻,冲动,有理想,又被人尊称为 “屌丝”“键盘党”,他们孜孜不倦的为自己的理想而拼搏,每次自己取得一点点进步的时候,都在考虑是不是地铁口的鸡蛋灌饼又涨了五毛钱。他们敏感,自负,从来不屑于和业务人员去争论。工程师和科学家的不同点在于,工程师需要频繁改动代码,频繁测试程序,频繁上线,但是最后的系统是由若干工程师的代码组合起来的。每个自负的工程师看到系统的历史代码都会鄙视的发出一声 “哼,这垃圾代码”,之后便投入到被后人继续鄙视的代码编写工作中去。

6)跟风者。

他们中有些是培训师,有些是杀马特洗剪吹,有些是煤老板有些是失足少女。他们的特点就是炒,和炒房者唯一不同的就是,他们不用付出金钱,他们认为只要和数据沾边就叫大数据,他们有些人甚至从来没碰过 IT 系统,他们是浑水摸鱼、滥竽充数的高手,他们是被前几种人鄙视的隐形人。不过我想说,欢迎来炒,一个行业炒的越凶,真正有价值的人就更能发挥自己的作用。
来源:中国统计网
CPDA数据分析师海报