如何从数据分析这个卷王行当转型数据科学


来源:华章计算机(hzbook_jsj)

作者:谢梁

 

最近有不少朋友咨询我数据分析的从业者未来的路怎么走的问题。这个问题很难回答,不过网上通常是给出两个方向:喜欢业务转产品/运营;喜欢技术转数据科学。今天这篇文章重要讨论后者,也就是数据分析怎么转型数据科学家

 

数据分析和数据科学的差异其实有很多讨论,YouTube网红Up主Ken Jee和Alex the Analyst曾就这个问题专门做过几个视频。Ken Jee的意见是数据科学家在代码编写能力、机器学习建模方面需要突出自己;而Alex的意见是数据科学家相对于数据分析在工作职责、技能栈、门槛等方面都不同。不过他也同意,对于很多背景不是那么强但是想要进入数据科学领域的同学来讲,数据分析是一个不错的切入点。

 

 

 

我作为这个行业从业15年的老兵,也来谈谈我自己对转型的一些看法。我们先谈能力模型差异,其次谈如何有针对性地转型。

 

首先我们谈谈能力模型的差异。数据科学相比数据分析的核心差异我归纳为:一个中心两个基本点。一个中心是指【工程能力】;两个基本点是指【针对场景的建模能力】和【实验设计和分析能力】。这三者构成了当前数据科学从业人员的核心能力模型。

 

 

 

工程能力:这是之前容易忽略,但是确实非常重要的一个能力,也是保障数据科学产出落地的关键。其实在互联网起飞之前,美国消费金融行业有大量的量化分析师(Quantitative Analysts),可以视为数据科学家的前身,他们借助银行业普遍使用的SAS语言及平台,能够实现从数据工程到模型训练再到模型部署的全流程,当然这非常依靠脚本语言和手工的操作。

 

这里强调模型部署是因为只有这样才能直接进入价值生产的链条。比如银行里面的TargetedMarketing就是互联网的Growth Hacking在传统行业的前身,他们都对业务KPI产生直接的影响。虽然互联网行业和传统金融行业的技术栈差别极大,但是基本原则仍然适用,也就是对于商业问题进行抽象提炼后针对一个具体点形成一个子领域,并在这个子领域闭环整个价值发现到实现的链路,而不仅仅停留在PPT上。

 

这里就很自然地引申出第一个基本点,针对场景的建模能力。这里的场景可能会指代比较宽的范畴,按照层次可以归纳为【业务实现场景】和【决策场景】。业务实现场景类似上面提到的Targeted Marketing,Growth Hacking,甚至推荐、风控,等,都是针对具体业务问题的实现。决策场景这里特指常见的非实验环境下的策略评估,英文叫Program Evaluation或者Impact Evaluation。这些分析的产出主要供管理层进行战术和战略的决策,同时其场景复杂多变,不像上面提到那些已经相对标准化。从目前国内的环境来看,业务实现场景很多已经被算法工程师占领,但是并不是没有机会;而决策场景这里是目前数据科学和数据分析的主要战场。结合前面的工程能力,这里有很多机会。

 

第二个基本点就是实验设计和分析能力。这里把实验设计单独列出来是因为实验的分析其实是由实验的设计决定的。有什么样的设计,就有对应的分析方法。实验是数据科学的独占领域,对于理论、算法和工程都有较高要求,也是数据科学领域的一个主要护城河。

 

大家可能会问,这么多领域,怎么学的过来呢?这里谈谈转型的一些要点。

 

首先,按照教科书或者模型教学书直接学数学是不可取的,原因是最终目的不明确,性价比不高,事倍功半。那么,什么是事半功倍的方法呢?这里建议从场景出发,按照上面提到的一个中心两个基本点的原则来有针对性地学习实用技能。这里有两个注意事项:1:针对性;2:实用。


针对性是指一类特定问题,比如用户的选择、LTV、特定条件下的实验设计和分析,等等,基本上是以终为始,从业务述求出发倒推需要的技术栈,这和推荐、搜索等算法领域其实有类似之处;实用则是指这些特定问题必须业务属性强,要么能帮助管理层具体决策,要么是业务高频遇到的问题的抽象,比如增长的判定、非实验条件下的策略评估,那么合成控制法这种技术就是有非常明确业务出口的技能,等等。