如果必须重新开始,我会怎样开启自己的数据科学之旅?

全文共2526字,预计学习时长8分钟

如果必须重新开始,我会怎样开启自己的数据科学之旅?

图源:unsplash

 

我的数据科学之路非常循规蹈矩。本科学的是经济学,我从商业学位的课程中学习到了商业敏锐度;硕士学位是全球商业和计算机科学(方向是机器学习和人工智能),计算机科学学位的课程中教会我大部分的技术要素,并且我还拥有一份数据科学的实习。

 

回顾过去,我的道路没有任何问题,但是,如果当时我就知道自己现在正在做什么,我将会如何规划自己的数据科学之旅呢?

 

这个问题对于刚接触该领域的人来说特别重要。自从我开始投身该领域以来,很多事情都改变了。职位竞争更加激烈,学习选择也更多。我希望我的经验可以帮助其他人更快、更全面地学习数据科学,并获得更好的工作机会。

 

每个人的学习都是不同的,我的话也不是真理,你很有可能会找到一些更适合你的东西。尽管如此,还是我希望这篇文章能让你在学习这一领域时,提前了解宏观层面的知识。

 

如果必须重新开始,我会怎样开启自己的数据科学之旅?

 

第一课:分解

 

刚开始学习数据科学时,我一下子就被大量知识淹没了。我必须学习编程语言和统计学、线性代数、微积分等方面的概念。面对如此多的选择,我不知道该从哪里开始。

 

如果必须重新开始,我会怎样开启自己的数据科学之旅?

图源:unsplash

 

幸运的是,我有课程作业来指导我的学习。我所学的学位将许多概念分解成更小的块,它们变得更易于理解。虽然这个方法对我很有效,但学校对此采取了“一刀切”的方法,它们还包括许多你实际上并不需要的无关类。所以,如果我可以回到过去,我绝对会将我的数据科学学习之旅分解成更适合我的部分。

 

在分解数据科学之前,有必要了解该领域的组成部分。你可以将数据科学分解成更小和更容易理解的部分,而不是将它分解为“课程”。我会将数据科学分解为编程和数学。

 

编程——熟悉Python和/或R

 

· 变量

· 循环

· 功能

· 对象

· 软件包(panda, numpy, matplotlib, sklearn,tensorflow, pytorch等)

 

数学

 

线性代数:微积分

 

统计学:

· 概率论

· 回归(线性,多重线性,岭,套索,随机森林,svm算法等)

· 分类(朴素贝叶斯,knn算法,决策树,随机森林,svm算法等)

· 聚类(k表示层次化)

 

通过将数据科学分解为各个组成部分,你可以将其从抽象概念转变为具体步骤。

 

如果必须重新开始,我会怎样开启自己的数据科学之旅?

 

第二课:从哪里开始

 

最初,我痴迷于按照“正确”的顺序学习事物。然而进入该领域后,我发现很多数据科学家学习技能的顺序完全不同。我遇到过一些先学习数学的博士,他们是在参加训练营后才学会编程概念的;还有一些很厉害的软件工程师们,后来通过自学和实践学会了数学。

 

如果必须重新开始,我会怎样开启自己的数据科学之旅?

图源:unsplash

 

从哪里开始很重要,最好是从你感兴趣的话题出发。学习是可以累加的,如果你学了一件事,你就不会放弃学习另一件事。

 

如果能回到过去,我会从当时我最感兴趣的概念开始。一旦你学会了一个概念,你就可以在此基础上去理解其他的概念。就像如果你学习了简单的线性回归,那么学会多元线性回归是相当容易的一步。

 

如果必须重新开始,我会怎样开启自己的数据科学之旅?

 

第三课:构建最小可行知识(MVK)

 

经过这么久的业内生活,我对所需的基础知识有了不同的看法。尝试过许多不同类型的自我学习之后,我发现通过做项目来学习是掌握一个领域最有效的方法。你应该理解这些概念,以便开始探索自己的项目。

 

这就是最小可行知识发挥作用的地方。你首先应该学习足够的基础知识知识,以便能够从中学到东西,这个阶段很难确定。当你第一次来到这里的时候,你会觉得自己还没有准备好。这是一件好事,这意味着你正在走出舒适区。

 

你可以通过入门的在线课程来达到这一知识水平,我推荐kaggle.com上的微课程。要完成这一步,需要了解python或R的基础知识,并熟悉所使用的软件包,之后可以通过将一些算法应用于现实世界的数据来开始学习数学。

 

如果必须重新开始,我会怎样开启自己的数据科学之旅?

 

第四课:进行实践

 

如果必须重新开始,我会怎样开启自己的数据科学之旅?

图源:unsplash

 

有了基础知识,最好尽快进入项目。这听起来很可怕,其实关键在于你如何定义项目。早期阶段,一个项目可能就像尝试for循环一样简单。随着学习的进展,可以使用kaggle上的数据来完成项目,最后可以使用你所收集的数据来完成项目。

 

学习数据科学的最好方法就是实践。理论是非常重要的,但没有人说你必须在开始应用它之前理解它。可以在对算法有功能上的理解之后,再开始回顾理论。对我来说,现实世界的例子总是能让问题体现出来。

 

项目还可以让数据科学变得更小。对于新学习者来说,最大的挑战之一是数据科学领域规模太庞大了。把正在学习的东西限制在一个小项目的范围内,可以让你把事情分解得比你在第1课中还要小。

 

做项目还有另一个好处,他们会立即反馈你需要改进的地方。如果你正在从事一个项目,并且遇到了关于使用哪种软件包、算法或可视化的障碍,你会发现自己的不足之处即刻开始查漏补缺。

 

如果必须重新开始,我会怎样开启自己的数据科学之旅?

 

第五课:学习他人的代码

 

能自己做项目确实很棒,但有时你会弄不清自己缺少哪些知识。我强烈建议你参考一下经验更丰富的数据科学家的代码,以了解下一步应该学习什么,更好地理解逻辑或语法。

 

在Kaggle和GitHub上,有成千上万(也许是数百万个)内核,人们可以共享用于分析数据集的代码,了解这些是补充项目的好方法。

 

建议列出你正在使用的软件包,算法和视觉效果的列表,查看软件包的文档,并在那里扩展知识。他们在文档中几乎都有例子说明如何使用,同样,此列表可用于帮助你思考新的项目构想和实验。

 

如果必须重新开始,我会怎样开启自己的数据科学之旅?

图源:unsplash

如果必须重新开始,我会怎样开启自己的数据科学之旅?

 

第六课:从头开始构建算法

 

这是大多数数据科学家的必经之路。在你应用算法并了解其工作原理之后,最好自己试着从头开始编写它。这有助于你更好地理解使其工作的基础数学和其他机制。这样做时,毫无疑问,你得学习其背后的理论。

 

朝这个方向学习比尝试掌握理论然后应用它要直观得多。这是fastai在他们的免费慕课中采取的方法。如果对深度学习感兴趣,我强烈建议你去看看。

 

我建议从线性回归开始。这将帮助你更好地理解梯度下降,这是一个非常重要的概念。随着数据科学事业进一步发展,理论变得越来越重要。通过为问题匹配正确的算法,可以带来价值。

 

如果必须重新开始,我会怎样开启自己的数据科学之旅?

图源:unsplash

 

数据科学之旅的美丽之处在于它永无止境。你需要不断学习,以掌握它的新发展。就像前文中提到的,每个人的学习方法不同,你大可以选择按照自己的路走。但最后这点毫无疑问对所有人都适用,永远不要停止学习。

如果必须重新开始,我会怎样开启自己的数据科学之旅?

一起分享AI学习与发展的干货

欢迎关注全平台AI垂类自媒体 “读芯术”

(添加小编微信:dxsxbb,加入读者圈,一起讨论最新鲜的人工智能科技哦~)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章