寫在前面
機器學習中的資料預處理步驟
機器學習中的簡單線性迴歸步驟
機器學習中的多元線性迴歸步驟
什麼是邏輯迴歸?
邏輯迴歸被用來處理不同的分類問題,這裡的目的是預測當前被觀察的物件屬於哪個組。它會給你提供一個離散的輸出結果。一個簡單的例子就是判斷一個人是否會在即將到來的選舉中進行投票,是就是1類,否就是0類。
邏輯迴歸vs線性迴歸
邏輯迴歸給出離散的輸出結果,然而線性迴歸給出的是連續的輸出結果。
步驟1:資料預處理
匯入所需庫
匯入資料集
該資料集包含了社交網路中使用者的資訊。這些資訊涉及使用者ID,性別,年齡以及預估薪資。一家汽車公司剛剛推出了他們新型的豪華SUV,我們嘗試預測哪些使用者會購買這種全新SUV。並且在最後一列用來表示使用者是否購買。我們將建立一種模型來預測使用者是否購買這種SUV,該模型基於兩個變數,分別是年齡和預計薪資。因此我們的特徵矩陣將是這兩列。我們嘗試尋找使用者年齡與預估薪資之間的某種相關性,以及他是否購買SUV的決定。
檢查是否有缺失值
從上面檢查來看,未發現缺失值,所以這裡不用做缺失值處理操作。
將資料集分成訓練集和測試集
特徵縮放
上面 fit_transform 和 transform 執行結果一模一樣不代表這兩個函式可以互相替換,絕對不可以!transform 函式是一定可以替換為 fit_transform 函式的,fit_transform 函式不能替換為 transform 函式。
fit_transform: 用於訓練集
transform: 用於測試集
具體的區別可以去這裡看看:
https://www。cnblogs。com/keye/p/8875128。html
步驟2:邏輯迴歸模型
該項工作的庫將會是一個線性模型庫,之所以被稱為線性是因為邏輯迴歸是一個線性分類器,這意味著我們在二維空間中,我們兩類使用者(購買和不購買)將被一條直線分割。
將邏輯迴歸應用於訓練集
步驟3:預測
預測測試集結果
步驟4:評估預測
我們預測了測試集。 現在我們將評估邏輯迴歸模型是否正確的學習和理解。因此這個混淆矩陣將包含我們模型的正確和錯誤的預測。
生成混淆矩陣
看懂混淆矩陣
上面的結果可以用下圖所示:
從圖中我們可以看出:
標籤 0 的總數為:65 + 3 = 68 個,其中有 65 個被正確預測,有 3 個被錯誤的預測成 1 標籤。
標籤 1 的總數為:8 + 24 = 32 個,其中有 24 個被正確預測,有 8 個被錯誤的預測成 0 標籤。
步驟5:視覺化結果
如果下面的程式碼有看不懂的,記得去網上查查相關教程,這裡主要是用到畫等高線方面的函式。
定義視覺化公共函式
視覺化訓練集結果
視覺化測試集結果