我的数据分析师转型之路,从零到字节跳动数据分析师_从零进阶互联网数据分析师(已完结)百度云下载-程序员宅基地

技术标签: 数据分析  大数据  

从一个什么都不懂的小白,到现在字节跳动的数据分析师,我用了大概1年的时间,在这里想给大家分享一下我的转行经历,希望能有一些帮助。

我的数据分析师转型之路,从零到字节跳动数据分析师
出于隐私考虑,我就全部打码了。。。

先说一下个人背景,本科是工科相关,非计算机非统计学,硕士是金融相关,基本也算是和数据分析没什么关系,毕业之前有过迷茫,因为自己其实也不知道到底适不适合金融行业,而且上学的时候没有认真搞过什么银行、券商的实习,基本毕业就是凉凉的节奏。所幸毕业前,在和友人的一次偶然交谈中,得知了数据分析这个职业,发现自己似乎比较感兴趣,当时也没有其他路可以选,就决定孤注一掷,all in 数据分析,在此也感谢一下那位友人,人生确实是在于你能否做对几个关键的选择。

决定转型后,先是到网上恶补了一下数据分析师这个行业的整体情况,现在数据分析师其实很杂,不同企业对数据分析师有不同的定位,但大概总结一下的话,是可以分为两种:

偏技术型数据分析师和偏业务性数据分析师

技术型分析师更接近于数据挖掘工程师、算法工程师、大数据工程师这种概念,一般来说是需要比较好的数据结构知识和算法知识,对于非计算机专业的同学,转型会有一定难度。其实一开始我考虑的是这种分析师,但在后面刷了几百道leetcode题之后,决定放弃这条路(太难了)。

第二种就是偏业务型的数据分析师,也是市面上岗位最多的数据分析师,这种分析师的门槛会相对比较低一点,但做不好的话,很有可能就变成报表分析师,提数分析师。不过毕竟门槛还是比较低的,对于想转型的同学,业务型数据分析师会更加友好一些

明确了转型方向后,对于从零转型的同学来说,会有两个比较迫切的问题,我该从什么地方下手和我简历上啥都没有怎么办。对于第一个问题,我的选择是先列了一个我认为的业务型数据分析师所需要的能力矩阵,再针对性准备,简单来说主要包括这几个层面:

我的数据分析师转型之路,从零到字节跳动数据分析师

基本工具

数据分析师三板斧:Excel、SQL、Python

Excel、SQL、python是数据分析师必知必会的3个基本工具,下面我们一个个来看:

Excel

对于Excel的学习,如果你的意向的岗位不是那种纯excel的数据分析师岗位的话,建议大家不需要花费太多时间在excel上,我个人是几乎没花什么时间在excel上,主要的是要掌握vlookup、透视表和一些常用图表,不会的函数就直接百度。

SQL

核心!sql一定要熟,笔试基本必考,面试时候大概率让你手撕sql,写不出的话很容易凉凉。对于sql的学习,完全没有基础的同学可以先看这本《sql必知必会》,了解sql的一些基本知识,增改删查,主要看查询的部分。

我的数据分析师转型之路,从零到字节跳动数据分析师

看完这本书后你对sql的语法应该有了一些基本的了解,但如果不多练习的话,面试手写sql的那种场景,脑子很容易宕机,在这里强推几个练习网站。

1.牛客网编程

牛客网在线编程,强力推荐,可以自动批改sql正误,纯中文,还有题目讲解,这个题库我刷了2遍

我的数据分析师转型之路,从零到字节跳动数据分析师

2.Leetcode

也是一个比较知名的网站了,学计算机的可能都知道。英文的代码在线练习网站,但今天看了一下发现有中文了,但是很多题目都变成了收费题目,牛客网刷完感觉不够的话可以再来这看看

我的数据分析师转型之路,从零到字节跳动数据分析师

总结一下:对于sql的掌握就是看书了解基础,多刷题巩固,在面试中一般问题不大,当然也不排除有一些变态sql笔试题,这种就看缘分了。

Python

相对上面两个工具,python的学习难度会稍微大一些。python能干很多事,对于数据分析师来说,主要应掌握基础语法和数据科学的模块,主要包括pandas numpy 和机器学习库sklearn等,有同学可能会问业务型数据分析师也需要会算法吗?答案是虽然不是必须项,但是加分项,尤其是在从零转型情况下,是增加自己份量的一个筹码。

对于python的学习,建议大家不要报班交智商税,在coursera上有大把的资源,我学习的是密歇根大学的python课程《Python for everybody》,看完入门的话不是问题,课程是免费的。

我的数据分析师转型之路,从零到字节跳动数据分析师

学完这个课程你对python就有基本的了解了,但和sql一样,还是需要多练多运用才能真正融汇贯通。那么怎么练习python呢,在这里推荐一个可能很多人都知道的数据竞赛平台,没错就是kaggle,相信不少人都看过泰坦尼克号生存预测这个项目,这个项目的来源就是kaggle。在kaggle上打比赛,既能让你练习python,又能让你有一些项目可以放到简历上,一举两得。

我的数据分析师转型之路,从零到字节跳动数据分析师
红圈内就是泰坦尼克项目

入门的话可以先从泰坦尼克或者房价预测入手,但放到简历上的话,建议大家挑几个正式的比赛去做一下,这两个项目过于泛滥,含金量比较低了。我在kaggle里面打过很多个项目,最后选择了一个信用卡违约风险预测的项目,《Home Credit Default Risk》放到了简历上,除了kaggle之外,还有其他很不错的数据比赛平台,后面在项目篇会给大家再详细讲一下。

数据分析理论知识

统计学和机器学习两手都要抓、两手都要硬

理论知识这块,数据分析师最需要掌握知识是统计学和机器学习,但掌握到什么程度、掌握哪些领域,还是有些门道。

统计学

如果不是统计学专业的同学,一般面试官心里都有数,不会问你很难的问题,大学统计学范畴。对于统计学基础不怎么好,或者已经忘干净的同学,可以看网易公开课里可汗学院的课程恶补一下,我在准备的时候复习了一遍,感觉效果不错,捡回了不少遗忘的知识。​如果说没有时间看完全部课程,应该重点掌握哪块知识呢?假设检验,假设检验,假设检验,重要的事情说3遍,假设检验绝对是面试中统计学最高频的问题,和以后的工作也会最息息相关(a/b test)。

我的数据分析师转型之路,从零到字节跳动数据分析师

机器学习

机器学习相关的知识学习成本会比较高,对某些同学来说可能会有一定难度,但对于业务型数据分析师来说,一般不会要求你去推导算法公式,能做到明白不同算法的适用场景、优缺点、原理大概懂就基本可以了。

在机器学习这一块,我的学习路径是这样的:


视频课程:

首先入门强推吴恩达大牛的coursera(www.coursera.org)机器学习课!!千万别花钱报班了,入门看这个就够了!

我的数据分析师转型之路,从零到字节跳动数据分析师

看完觉得不过瘾想要进阶的话,可以继续看吴恩达大牛斯坦福大学的公开课,难度会比coursera上的课程更高一些,对于可以翻墙的同学,可以去youtube上找台湾国立大学林轩田老师的《机器学习基石》和《机器学习技法》,难度会再高一些。我当时是连续刷完了这3门课程,虽然刷完之后部分知识还是有理解不够深入的情况,但应付面试已经差不多了。

我的数据分析师转型之路,从零到字节跳动数据分析师
youtube机器学习课程

书籍

阅读书籍可以帮助你更好的把知识沉淀下来,除了上面视频课程之外,我还刷了2本书籍。第一本是西瓜书,第二本书是李航的统计学习方法,这两本就不用多说了,经典读物。内容可以挑着看,主要看一下常用的机器学习模型,svm、随机森林之类的。

我的数据分析师转型之路,从零到字节跳动数据分析师

 

我的数据分析师转型之路,从零到字节跳动数据分析师

数据分析项目实战

kaggle打的好,工作也好找

如果你已经学完了上面的python和机器学习课程的话,就可以进入实战阶段了,我的选择是去打比赛,既可以巩固学到的知识同时又可以解决简历中没有相关项目的问题。

打比赛和真实的数据分析工作其实非常接近,对于大部分常规数据科学比赛而言(比如泰坦尼克号/房价预测这种),大部分人的模型最后其实都大差不差,lgb/xgb搞一搞,再做个模型融合,决定成绩好坏的关键往往是在特征工程上,有时候一个magic feature就能让你的排名上升数百名。magic feature从何而来?是来自你对比赛业务的理解,只有你真正理解了业务,才能构思出好的特征,从而取得好的名次,这个业务型数据分析师的本质也是相通的,理解业务,改进业务。

我举个简单的例子,以我做的信用卡风险项目为例,比赛目标是根据用户的个人信息和一些行为数据来判断用户是否会违约。其中有一个特征是用户的工资,第二个特征是用户信用卡已使用的额度,从业务的角度考虑,如果一个用户使用信用卡的额度远高于他的工资,那么这个用户是不是很有可能就没有钱还信用卡,违约风险会比较大?基于这个假设,我设计了一个 信用卡使用额度 / 工资的特征,经过可视化发现,确实是这个比值越大,用户违约的风险就会越高,把这个特征放到模型里面,我的模型分数有了显著的提高。

这个就是一个基于业务理解做出假设、通过数据验证假设、改进业务的闭环,这也是你在面试中,应该向面试官表达的。

下面推荐几个常见的数据科学比赛平台:

1. Kaggle

首推,强烈推荐!kaggle的优势不仅在于比赛众多,更重要的是里面会有很多选手分享他们的思路和代码,是分享做的最好的一个平台,我的python和数据挖掘基本就是从kaggle练起来的。

2. 阿里天池

国内最有牌面的数据比赛平台,如果你能在阿里天池拿一个不错的名次,含金量就相当高了,但是难度很大,对于转型的同学基本不太可能,可以看看新人赛和一些分享之类的。

3.DataFountain

某数据比赛平台,难度相对天池会低一些,且比赛内容对于国内hr来说,可能会更熟悉一些,在这个平台上,我打了一个招商银行的比赛,1867个参赛选手中拿到了第34名,算是成绩最好的一次。

我的数据分析师转型之路,从零到字节跳动数据分析师

数据分析思维

没有比这个更重要的能力了

分析思维是数据分析师最最核心的竞争力,上面所学习的python、sql、机器学习知识等都是在工具层面,要想使用好他们,还需要分析思维的驾驭。在面试中,对分析思维的考察也是相当重要的一环。

对于分析思维的学习,我建议新人也是从读书开始,我看过的且比较推荐的书包括:

数据分析类:

《精益数据分析》、《增长黑客》、《数据化管理:洞悉零售及电子商务运营》、《数据挖掘与数据化运营实战 思路、方法、技巧与应用》

产品思维类,如果是想要从事互联网行业的数据分析师的话,产品思维也是必须要具备的,面试考察点之一

《从点子到产品:产品经理的价值观与方法论》、《俞军产品方法论》、《产品思维》

逻辑思维类:在面试中逻辑清晰的回答面试官的问题,会为你大大的加分

《金字塔原理》、《学会提问》、《麦肯锡思维》

看完这些书,我相信你已经具备了基本的数据分析思维。但书中的知识和实际工作毕竟还是有一些差距,在这里我结合我的工作经验,给大家列几个数据分析师真实工作场景中常遇到的问题,问题会比较偏向互联网行业,其他行业的同学可以作为参考。

1、假设抖音的人均活跃时长下降了,你该如何分析这个问题?

2、网易云音乐之前有一个每天给你推10首歌的功能,如果让你设计指标来衡量这个功能的效果,你会设计哪些指标?

3、很多信息流app在新用户第一次注册时,都会让他们去选择兴趣标签,如果想让你做这个功能的专题分析,你会怎么设计你的报告框架?

最后,希望大家都能找到理想的工作。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/zl1zl2zl3/article/details/104689559

智能推荐

js-选项卡原理_选项卡js原理-程序员宅基地

文章浏览阅读90次。【代码】js-选项卡原理。_选项卡js原理

设计模式-原型模式(Prototype)-程序员宅基地

文章浏览阅读67次。原型模式是一种对象创建型模式,它采用复制原型对象的方法来创建对象的实例。它创建的实例,具有与原型一样的数据结构和值分为深度克隆和浅度克隆。浅度克隆:克隆对象的值类型(基本数据类型),克隆引用类型的地址;深度克隆:克隆对象的值类型,引用类型的对象也复制一份副本。UML图:具体代码:浅度复制:import java.util.List;/*..._prototype 设计模式

个性化政府云的探索-程序员宅基地

文章浏览阅读59次。入选国内首批云计算服务创新发展试点城市的北京、上海、深圳、杭州和无锡起到了很好的示范作用,不仅促进了当地产业的升级换代,而且为国内其他城市发展云计算产业提供了很好的借鉴。据了解,目前国内至少有20个城市确定将云计算作为重点发展的产业。这势必会形成新一轮的云计算基础设施建设的**。由于云计算基础设施建设具有投资规模大,运维成本高,投资回收周期长,地域辐射性强等诸多特点,各地在建...

STM32问题集之BOOT0和BOOT1的作用_stm32boot0和boot1作用-程序员宅基地

文章浏览阅读9.4k次,点赞2次,收藏20次。一、功能及目的 在每个STM32的芯片上都有两个管脚BOOT0和BOOT1,这两个管脚在芯片复位时的电平状态决定了芯片复位后从哪个区域开始执行程序。BOOT1=x BOOT0=0 // 从用户闪存启动,这是正常的工作模式。BOOT1=0 BOOT0=1 // 从系统存储器启动,这种模式启动的程序_stm32boot0和boot1作用

C语言函数递归调用-程序员宅基地

文章浏览阅读3.4k次,点赞2次,收藏22次。C语言函数递归调用_c语言函数递归调用

明日方舟抽卡模拟器wiki_明日方舟bilibili服-明日方舟bilibili服下载-程序员宅基地

文章浏览阅读410次。明日方舟bilibili服是一款天灾驾到战斗热血的创新二次元废土风塔防手游,精妙的二次元纸片人设计,为宅友们源源不断更新超多的纸片人老婆老公们,玩家将扮演废土正义一方“罗德岛”中的指挥官,与你身边的感染者们并肩作战。与同类塔防手游与众不同的几点,首先你可以在这抽卡轻松获得稀有,同时也可以在战斗体系和敌军走位机制看到不同。明日方舟bilibili服设定:1、起因不明并四处肆虐的天灾,席卷过的土地上出..._明日方舟抽卡模拟器

随便推点

Maven上传Jar到私服报错:ReasonPhrase: Repository version policy: SNAPSHOT does not allow version: xxx_repository version policy snapshot does not all-程序员宅基地

文章浏览阅读437次。Maven上传Jar到私服报错:ReasonPhrase: Repository version policy: SNAPSHOT does not allow version: xxx_repository version policy snapshot does not all

斐波那契数列、素数、质数和猴子吃桃问题_斐波那契日-程序员宅基地

文章浏览阅读1.2k次。斐波那契数列(Fibonacci Sequence)是由如下形式的一系列数字组成的:0, 1, 1, 2, 3, 5, 8, 13, 21, 34, …上述数字序列中反映出来的规律,就是下一个数字是该数字前面两个紧邻数字的和,具体如下所示:示例:比如上述斐波那契数列中的最后两个数,可以推导出34后面的数为21+34=55下面是一个更长一些的斐波那契数列:0, 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144, 233, 377, 610, 987, 1597, 2584,_斐波那契日

PHP必会面试题_//该层循环用来控制每轮 冒出一个数 需要比较的次数-程序员宅基地

文章浏览阅读363次。PHP必会面试题1. 基础篇1. 用 PHP 打印出前一天的时间格式是 2017-12-28 22:21:21? //>>1.当前时间减去一天的时间,然后再格式化echo date('Y-m-d H:i:s',time()-3600*24);//>>2.使用strtotime,可以将任何字符串时间转换成时间戳,仅针对英文echo date('Y-m-d H:i:s',str..._//该层循环用来控制每轮 冒出一个数 需要比较的次数

windows用mingw(g++)编译opencv,opencv_contrib,并install安装_opencv mingw contrib-程序员宅基地

文章浏览阅读1.3k次,点赞26次,收藏26次。windows下用mingw编译opencv貌似不支持cuda,选cuda会报错,我无法解决,所以没选cuda,下面两种编译方式支持。打开cmake gui程序,在下面两个框中分别输入opencv的源文件和编译目录,build-mingw为你创建的目录,可自定义命名。1、如果已经安装Qt,则Qt自带mingw编译器,从Qt安装目录找到编译器所在目录即可。1、如果已经安装Qt,则Qt自带cmake,从Qt安装目录找到cmake所在目录即可。2、若未安装Qt,则安装Mingw即可,参考我的另外一篇文章。_opencv mingw contrib

5个高质量简历模板网站,免费、免费、免费_hoso模板官网-程序员宅基地

文章浏览阅读10w+次,点赞42次,收藏309次。今天给大家推荐5个好用且免费的简历模板网站,简洁美观,非常值得收藏!1、菜鸟图库https://www.sucai999.com/search/word/0_242_0.html?v=NTYxMjky网站主要以设计类素材为主,办公类素材也很多,简历模板大部个偏简约风,各种版式都有,而且经常会更新。最重要的是全部都能免费下载。2、个人简历网https://www.gerenjianli.com/moban/这是一个专门提供简历模板的网站,里面有超多模板个类,找起来非常方便,风格也很多样,无须注册就能免费下载,_hoso模板官网

通过 TikTok 联盟提高销售额的 6 个步骤_tiktok联盟-程序员宅基地

文章浏览阅读142次。你听说过吗?该计划可让您以推广您的产品并在成功销售时支付佣金。它提供了新的营销渠道,使您的产品呈现在更广泛的受众面前并提高品牌知名度。此外,TikTok Shop联盟可以是一种经济高效的产品或服务营销方式。您只需在有人购买时付费,因此不存在在无效广告上浪费金钱的风险。这些诱人的好处是否足以让您想要开始您的TikTok Shop联盟活动?如果是这样,本指南适合您。_tiktok联盟