學習資料科學的7個步驟

1。熟悉基礎的資料科學術語

在你開始學習之前，第一步是什麼，肯定是理解什麼是資料科學！

讓我們花點時間回答這個問題，看一下資料科學中的不同角色，並熟悉這個領域的常用術語。

首先最重要的是要知道你將要做的是什麼，那麼我們首先回答這個問題 - 為什麼你想從事資料科學工作？是因為你喜歡程式設計，數學，統計和他們提供工作的機會嗎？或者是你正在順應潮流，因為‘資料科學’和‘機器學習’是目前有關未來的發展潮流？

1。1什麼是資料科學？

目前每天生成的資料量呈指數級增長！在過去十年中，資料的來源以及收集和儲存資料的能力已經取得了很大的進步。公司正在使用各種工具和技術來挖掘資料中的模式並收集有用的資訊。簡而言之，這就是資料科學的全部意義所在。

“資料確實為我們所做的一切提供了支援。” - LinkedIn執行長Jeff Weiner

簡單的說，資料科學涉及使用各種技術來理解資料並構建預測模型以做出業務決策。資料科學的一些流行應用包括欺詐檢測，體育分析，航空公司航線規劃等。

因此，如果資料科學是關於從資料中獲取洞察力和發現資訊的模式，那麼資料科學家和統計學家之間有什麼區別？這是一個非常好的問題！讓我們來看看他們之間有什麼區別。

1。2資料科學家與統計學家

資料科學家和統計學家都使用這些資料從中獲得有用的資訊。統計學家專注於識別資料中的關係，而資料科學家則致力於使用關係並建立模型來預測未來的結果。資料科學家的目標是建立一個高精度的通用模型。

統計學家經常使用R，Excel或MATLAB等工具，因為它們有許多用於資料分析的庫。另一方面，資料科學家主要使用Python，Apache Spark等來探索資料和構建模型。

1。3資料科學中的通用術語

資料科學是一個複雜而廣闊的領域。讓我們理解它的不同的組成部分，這樣就可以縮小你長期需要關注的領域。

機器學習：機器學習是利用演算法（如線性迴歸，邏輯迴歸，決策樹等）從資料中學習並做出明智的決策。例如，使用已經獲得貸款的人的資料，並試圖預測他們是否會再次貸款。

深度學習：深度學習是機器學習的一個子集，旨在模仿人類的決策能力。例如，識別給定影象中的物件，或將影象分類為貓或狗。

自然語言處理（NLP）：NLP是資料科學的一個分支，負責分析，理解和從文字資料中獲取資訊。你在亞馬遜上看到的所有評論，或者你每天瀏覽的所有推文，都是由NLP技術用於解析它們並理解使用者的情緒。NLP是目前資料科學領域中最熱門的領域之一。

計算機視覺：顧名思義，計算機視覺擁有使機器能夠看到和理解周圍環境的能力。有沒有注意到Facebook如何自動推薦圖片中的標籤的？或者自動駕駛汽車如何檢測道路上的物體？這些都是計算機視覺的主要例子。這是另一個將在未來幾年內出現大量工作的領域。

推薦引擎：曾經使用過Flipkart或Amazon的任何人都是推薦引擎的一部分。這部分包括了分析過去的使用者行為，以提供相關的建議或推薦。“購買此產品的客戶也購買了”或“根據你過去的購買情況推薦給你”都是推薦引擎在起作用。

2。開始你的資料科學之旅

所以當你決定冒險嘗試成為一名資料科學家時，那麼沒有什麼可以阻止你了。首先，恭喜你選擇了業內最熱門的領域！

如果你是一個沒有行業經驗的應屆生，那麼實習是在資料科學中發揮作用的最佳方式。他們為你提供了一個獲得行業經驗的機，同時與經驗豐富的退伍軍人一起工作。在這幾個月裡，你有很多東西需要學習，並且這將影響你的職業生涯。

在接下來的幾節中，我們將介紹第一次資料科學實習所需的基本技能。

2。1瞭解統計學和機率論

統計學和機率論是資料科學所需的基本核心技能。如果沒有對這兩者的充分理解，你將不會在這個領域（或面試過程中）取得很大進展！從分析資料並做出有價值的推論到理解模型的工作原理，統計和機率的基本概念都被整合到資料科學生態系統中。

我們可以利用許多統計技術和機率分佈來理解給定資料的結構。以下是在處理資料科學問題時將要使用的一些重要的知識點：

描述性統計

平均值，中位數的模式

方差和標準差

機率

伯努利試驗和機率質量函式

中心極限定理

正態分佈

推論統計

置信區間

假設檢驗

相關

2。2良好的程式設計技巧（選擇一種程式語言）

是的，你需要了解程式設計才能成為資料科學家。這是無法逃避的。AutoML（自動機器學習）正在逐漸被業界接受，但是現在，除了冰冷的編碼技能之外別無選擇。

目前用於資料科學的兩種最流行的程式設計工具是Python和R。你必須熟悉兩者中的至少一種。這些都是開源程式語言，都擁有一個日益增長的大型活躍社群。

R主要用於探索性工作，是統計分析任務的首選。它有一個相對較大的統計軟體包庫。另一方面，Python是機器學習和深度學習任務的首選。它有許多機器學習和深度學習庫和包。

如今，Python在業界肯定更受歡迎。如果你傾向於學習高階機器學習主題，當然還有深度學習，這是一個簡單的選擇。Python提供的靈活性在這些任務中是無與倫比的。R是一個非常熟練的工具，用於進行探索性分析，包括產生一些非常有洞察力和審美愉悅的情節。

2。3基本的機器學習演算法

如果你已經掌握了統計學和機率的基礎知識，並且已經掌握了編碼技能，那麼下一步就是學習機器學習演算法的基礎知識。熟悉常見的機器學習演算法，如線性迴歸，邏輯迴歸，決策樹，隨機森林，樸素貝葉斯，k近鄰和支援向量機。

嘗試一次只關注一種演算法，並瞭解每種技術背後的直覺。擁有演算法的理論知識及其工作方式與能夠實現演算法同樣重要。如果你知道演算法的工作原理，你將更容易理解演算法的各種引數，調整這些引數以及決定使用哪種演算法與哪種型別的資料。

3。構建你的數字產品組合（線上資料）

當你正在努力學習所有的這些新概念時。那麼你應該試著展示自己的技能，從而補充所有這些努力。

僅依靠統計，程式設計和機器學習可能不會讓你獲得實習的機會。你需要建立自己的數字形象。展示你巨大的潛力，展示你在資料科學之旅中獲得的技能。讓全世界都知道！

在本節中，我們將介紹可用於構建重要檔案的不同方法。

3。1專案工作

我相信學習任何東西的最好方法是將你的知識付諸實踐。沒有什麼比在專案中展示它更能說明“我知道這種技術”了。構建端到端的專案可讓你瞭解資料科學家在日常角色中可能面臨的各種可能性和挑戰。

你可以尋找與你感興趣的領域相關的開源專案。相信我，網際網路上並不缺乏資料。如果我是一個小說的忠實粉絲，那麼我可以用NLP來分析我最喜歡的作家的作品。這表明了對資料科學的熱情，並讓你在未來的僱主眼中獲得優勢

以下是一些實踐問題（資料鏈接在文章的最後會放出），可以獲得一些寶貴的實踐經驗：

機器學習

大馬特銷售

貸款預測

自然語言處理

情感分析

笑話評分

推薦引擎

計算機視覺

面部識別挑戰

3。2建立GitHub配置檔案

你還應該在此階段開始建立一個GitHub賬戶並使用它。這本質上是你的資料科學簡歷，世界上任何人都可以看到它。

大多數資料科學招聘人員和麵試官都會檢視求職者的GitHub資料，以評估他/她的潛力。在處理專案時，可以同時列出GitHub上的問題語句和程式碼。我整理了一個小清單，你可以在下次將程式碼新增到GitHub時遵循：

新增問題陳述

製作一個清晰的自述檔案

編寫乾淨的程式碼

在程式碼中添加註釋

新增儘可能多的個人/課程專案

如果你處於該級別，則可以為開源專案做出貢獻

3。3寫部落格

我會告訴你一個推動我資料科學事業發展的重要秘訣 - 那就是撰寫文章。每當我學習一個新概念時，我都養成了記筆記的習慣。然後很容易的將其轉換為文章。這有助於我以更加清晰的方式理解該技術。

你也應該這樣做！社群很樂意跟你分析他們的想法和反饋。而當你將文章公開發表時，人們也會分享他們的觀點 - 例如“新增實際與預測的視覺化可能會有所幫助”，這可以幫助你改進技術。

Quora可以被視為寫部落格的另一種選擇（這是我第一次開始寫作的地方）。將複雜的主題分解為易於理解的單詞，有助於你掌握主題並精細調整你的結構化思維的技能。

首先，你可以寫一些基本的主題，例如使用matplotlib庫的進行資料探索、實踐問題的方法和解決方案，完成的MOOC的總結或筆記等。

3。4建立和最佳化你招聘網站的個人資料

LinkedIn是世界上最大的職業社交網站。即使你是一名大一的新生或著即將完成學業的研究生，都可以嘗試參加一下。

招聘人員經常使用招聘網站中的資訊來驗證你的個人資料，或在有機會的情況下與你聯絡。你可以將其視為你的第二份簡歷或紙質簡歷的電子版。如果你想找一份實習的工作但是你的個人資料未更新（或不存在），那麼你可能會錯過這份工作。

根據你申請的實習職業最佳化你的個人資料。更新你過去的經驗（如果有的話），教育水平，專案和興趣。如果你尚未建立你的個人資料，那麼請快速的去建立個人資料。你還應該透過與資料科學領域的人員建立聯絡來開始構建你的關係網路。

有很多人，包括很多有影響力的人，他們定期釋出有用的開發成果，我認為去認識他們對你來說應該是強制性的。

4。制定資料科學簡歷的做法和注意事項

你的簡歷本質上是你職業生涯的亮點。這是招聘人員/招聘經理看到的第一件事，所以製作完美的簡歷絕對是你實現尋找一份實習工作的關鍵。

即使你擁有實習要求部分列出的所有技能，但如果你的簡歷未達標，那麼你很可能得不到面試的機會。

你必須，絕對必須，花費大量時間來創造和完善你的簡歷。

那麼在做這件事時要記住哪些關鍵的事情呢？

確保你的簡歷是最新的，並且沒有任何拼寫錯誤。檢查兩次甚至三次。讓你的同事或朋友從招聘人員的角度對其進行稽核。

在建立或更新簡歷時，請始終牢記這一點：

寫下你所知道的，知道你寫的。

還記得你在大學的第一年做的專案嘛？那可能是2-3年前的事了，如果你不記得的細節了？要麼研究一些它，要麼就不在簡歷上寫它。有10個你無法談論的專案對招聘人員是一個危險的訊號！你寫下的所有技術和技能也是如此。

5。準備你的資料科學實習面試

獲得一份資料科學有關的實習的最大挑戰無疑是面試過程。鑑於你之前沒有此領域的工作經驗，招聘人員會看你簡歷的哪些方面？那麼你應該在簡歷和實際面試中展示哪些技能？

這是一個大問題！知道如何駕馭這些棘手的領域可能會影響你獲得實習的成敗。

當然，你肯定會提到你參與過的（或正在進行中）的專案。但除此之外，無論你有什麼背景，面試官都會熱衷於一些特定的話題。本節將介紹你需要關注並準備面試的關鍵問題。

5。1結構化思維

在複雜的資料科學世界中，構建思想的能力是一項寶貴的技能。面試官會判斷你是否有能力將問題陳述分解為更小的步驟。並且你會怎麼做，這就是這項能力的寶貴所在。

對於任何給定的問題陳述，有必要確定最終目標是什麼。下一步是理解提供的資料，並寫下實現最終目標所需要的流程。所有這一切都發生在有限的時間範圍內（面試官沒有一整天的時間去面試你！）。你明白為什麼有條理的思維方式這麼重要了麼？

為了結構化思維技巧，你會得到一個問題 - 目前有多少封郵件正在傳送？那是我在面試時被問到的問題。或者班加羅爾的道路上有多少輛紅色汽車？印度每天會邁出多少支香菸？

例如，如果我想了解上個月信用卡投資組合中的收費突然增加的原因，我會將其放在類似於以下的結構中：

這些問題沒有精確的解決辦法。那你怎麼解決它們呢？首先要明白的是，面試官並不期望得到確切的數字答案。相反，他們試圖瞭解你如何看待問題以及你獲得最終答案的方法。要求使用筆和紙（或白板）是一個好主意，這樣你就可以逐步展示自己的想法。

5。2瞭解你申請的公司

你可能會覺得這一點與討論的無關。這並不是什麼需要提及的事情，因為每個人在申請之前都要看一遍公司的職業描述。但這是一個有用的觀點。

但僅僅只是瀏覽描述是不夠的。

我們經常聽到招聘人員說有的求職者在沒有讀過他們公司正在面試的職位的情況下就進來面試了。我個人看到一些人因為不喜歡未來的工作而在實習的幾周內就離開了。

在你決定申請工作之前，你必須知道公司是做什麼的和公司的願景是什麼。關於這一點，沒有第二條路可以走

我的建議是研究一下公司，瞭解他們的工作。你覺得自己是否可以適應？你能直接看到你的技能可以對公司產生影響嗎？你還必須徹底的檢視職位描述並在面試中提出問題，以瞭解你是否適應這家公司。這將節省你的時間和公司的時間。

6。增加你被選擇的機會

到目前為止我們看到的指標可以安全地放在“必須擁有”的類別下。如果不確保檢查每一個選項，你就無法做到。但是，你可以進一步提高你現有的技能，從競爭中脫穎而出。誰不想那樣做？！

在本節中，我借鑑了自己的實習經驗，為你提供了一些額外的建議和技巧，以提高你被選中的機會。

6。1高階機器學習

沒有什麼比看著你自信地回答先進的機器學習問題更能打動面試官了。他們採訪的大多數人都能解決基本問題。掌握先進的ML知識肯定會給你帶來優勢。

確保你已經覆蓋了我們之前討論過的基本機器學習主題（統計資料，機率，迴歸，樹演算法等）。然後，你可以安全地跳轉到高階ML演算法，推薦系統，時間序列預測演算法等。

在你職業生涯的這個階段，我沒有必要詳細瞭解所有演算法。我相信你會發現3-4種非常有用的技巧，所以要好好學習它們 - 並在面試中喋喋不休。你應該對演算法及其背後的數學有一個公平的理解。你可以根據自己的興趣選擇特定欄位，並探索該領域中的各種技術。

舉個例子，如果你對時間序列感興趣，你可以開始探索不同的預測技術，平穩性的概念，甚至選擇一個關於時間序列的專案並進行研究。或者，如果NLP是你感興趣的欄位，你可以瞭解如何從基於文字的資料中提取特徵，可以在文字資料上使用哪些演算法等等。

6。2參加資料科學競賽

這會為你的簡歷添加了推動力，增加了獲得實習的機會。完成或完成一個專案後，證明你的知識不僅僅侷限於書籍。很明顯的，你已經嘗試將你的理論學習轉化為現實世界的資料集 - 這是你的好奇心，熱情和學習意願非常高的一個跡象。

首先，我非常鼓勵你參加資料科學競賽。從AV的DataHack平臺或Kaggle上列出的駭客馬拉松開始。這些平臺提供了模模擬實場景的問題陳述，從而為你提供了對行業生活感受的寶貴機會。

你還可以與來自世界各地的頂級資料科學家競爭（並向他們學習）。這可以作為你自身進步的晴雨表。堅持練習，你會發現你在排行榜排名上升得會有多快。實踐就是資料科學之王。

7。在實習期間你會學到什麼？

實習可以為你提供哪些教科書，MOOC和影片不能提供給你的？

實踐經驗。

這是招聘經理在瀏覽你的個人資料時最看重的一件事。我意識到我在Analytics Vidhya的實習經歷是多麼有用。

如果你以開放的心態，願意每天學習，那麼你可以從實習中學到很多東西。這正是你在資料科學方面取得成功的方式！

在本節中，我會描述我在資料科學實習期間的主要收穫

7。1如何解決實際專案

在實習期間，你將參與一個真實的專案。這是非常寶貴的經驗。一旦你加入了這個專案，你可能會發現自己已經陷入端到端的資料科學生命週期，包括定義問題語句和構建模型。

如果你之前參加過資料科學競賽，你將對資料科學家遇到的不同挑戰有一個概念。但需要注意的是。

這些競賽中提供的問題描述和資料集與現實場景非常不同。資料集在行業中是混亂和非結構化的。在構建任何模型之前，需要進行大量的資料清理工作。

事實上，如果70-80％的任務涉及資料清理，請不要對此感到驚訝。

你將學習如何構造問題語句，理解解決問題所需的域和資料，然後找出提取資料的來源。下一步是深入研究。瞭解其他資料科學家為解決類似問題所採取的方法。

這將給你一個公平的想法，什麼工作應該做得好，什麼工作不值得花費時間。雖然資料科學鼓勵進行實驗，但你從經理那裡獲得的創作自由度是有限的。過濾掉那些你事先知道不會起作用的方面。

7。2講述資料故事的方法（探索性資料分析）

人們通常花費更多時間來構建模型而不是理解資料。我自己曾經這麼做過很長時間。正是在我的實習期間，當我在做一個專案的時候，我意識到我的方法是多麼的錯誤，沒有之一。

我再怎麼強調讓你瞭解你所擁有的資料的重要性也不為過。資料集中存在著很多層次和隱藏的方面，我們經常在匆忙構建模型時忽略它們。這是你應該在實習期間學會的東西（但要提前做好準備）。

花盡可能多的時間探索資料！繪製圖表，尋找模式，然後就像它是世界上最好的作品一樣投入其中（因為它的確是！）嘗試著理解分佈，查詢影響目標變數的因素並進行推斷。建立一個假設，視覺化資料，找到見解，最重要的是，與你的隊友討論你的發現。

7。3團隊合作

資料科學實習的一個好處是與非常聰明和支援你的人合作。當你朝著最終目標努力時，資料科學專案需要同事之間的協作和協調。我認為自己很幸運能成為這樣一支偉大團隊的一員。

在團隊中工作的最好的部分是總是有人討論你的想法（並澄清你的疑慮）。例如，在我在Analytics Vidhya的實習期間，我們作為一個團隊參與了一個大型的駭客馬拉松。資料集有多個檔案，因此我們劃分了任務，我們每個人都在理解特定的檔案，並與團隊的其他成員分享我們的知識。

這是一次了不起的經歷。

在這些討論中，我學習了不同的方法來解決問題和改進/最佳化我的程式碼。團隊合作不僅可以幫助你建立自己的軟技能，還可以磨練你的技術技能。這是一個雙贏的組合！

7。4獲得該領域的實踐經驗

當你開始你的資料科學求職時，你很可能會發現大多數公司都要求在這個領域中獲得一些經驗。你應該瞭解公司正在處理的問題，並考慮您可以為公司做出貢獻的方式。與正在從事這個專案的人討論你的想法。

你還應該嘗試瞭解公司中其他人的角色。你可以與不同團隊的人員進行交流和討論。例如，與營銷團隊交談，瞭解你是否能夠想出一個數據驅動的方案來解決他們的問題。充分利用你的機會。保持好奇心，問相關的問題，向你的團隊學習。

7 Steps to crack your first Data Science Internship （Tips， Tricks and Resources！）

學習資料科學的7個步驟

相關文章