機器學(xué)習毕籽,大家可能沒有聽說過,但大家一定聽說過 AI井辆,機器學(xué)習就是 AI 的底層技術(shù)之一关筒。
本篇文章,我們會嘗試使用 Python 構(gòu)建一個機器學(xué)習模型杯缺,實現(xiàn)對數(shù)據(jù)的預(yù)測蒸播。
數(shù)據(jù)準備
本次使用的是簡書文章收益排行榜數(shù)據(jù),共有 2900 條萍肆,記錄了 29 天來每天文章收益排行榜前 100 篇文章的數(shù)據(jù)袍榆。
我們需要構(gòu)建一個機器學(xué)習模型,根據(jù)文章的排名對收益進行預(yù)測塘揣。
我們使用 Jupyter Notebook 進行交互式開發(fā)包雀。
先來導(dǎo)入我們所需的庫:
import pandas as pd
import numpy as np
import sqlite3
如果在導(dǎo)入過程中出現(xiàn)ImportError
,請使用pip install 包名
安裝庫亲铡,然后嘗試重新導(dǎo)入才写。
我們的數(shù)據(jù)已經(jīng)放在了項目目錄下,是一個 SQLite 數(shù)據(jù)庫奖蔓,名稱為ArticleFPRankList.db
赞草。
使用以下代碼將數(shù)據(jù)轉(zhuǎn)換為 Pandas DataFrame:
conn = sqlite3.connect("ArticleFPRankList.db")
df = pd.read_sql_query("SELECT * FROM articlefpranklistdata", conn)
我們來簡單查看一下數(shù)據(jù):
df.head(10)
df.info()
我們可以看出,數(shù)據(jù)共有 10 列吆鹤,但中間幾列的數(shù)據(jù)用處不大厨疙,真正有用的是后面的三列和前面的 ranking(排名)列。
數(shù)據(jù)有缺失疑务,這是作者主動刪除文章造成的沾凄,但關(guān)鍵的幾列數(shù)據(jù)都是完整的,不影響我們的分析暑始。
初步分析
在構(gòu)建模型之前搭独,我們需要對數(shù)據(jù)有大致的了解婴削。
導(dǎo)入 plotly 庫用于繪圖:
import plotly.express as px
plotly 對 DataFrame 中數(shù)據(jù)的繪圖操作做了很完善的封裝廊镜,所以我們只需要這樣一行代碼:
px.bar(df, x="date", y="total_fp")
得到的結(jié)果是一張堆積柱形圖,其中每一列代表一天的數(shù)據(jù)唉俗,收益高的文章排在下方嗤朴。
從中我們可以看出,每天的收益分配總量是大致保持不變的虫溜,而每個名次的文章雹姊,其獲得的資產(chǎn)量也大致相同,所以我們判定這些數(shù)據(jù)是可預(yù)測的衡楞。
數(shù)據(jù)預(yù)處理
在構(gòu)建模型前吱雏,我們需要對數(shù)據(jù)進行預(yù)處理。
簡單說明一下模型預(yù)測的流程:我們需要兩個由二維數(shù)組構(gòu)成的數(shù)據(jù)集,分別為標志集(x)和數(shù)值集(y)歧杏,將這兩個數(shù)據(jù)集傳入镰惦,程序會擬合出一個算法,用于描述 y 隨 x 的變動關(guān)系犬绒,也可以稱為 y=f(x)旺入。
現(xiàn)在讓我們來構(gòu)建 x 和 y:
x = np.array(df["ranking"]).reshape(-1, 1)
y = np.array(df["total_fp"]).reshape(-1 ,1)
這里的 reshape() 函數(shù)是為了將一維數(shù)組轉(zhuǎn)換成二維數(shù)組。
為了對模型進行打分凯力,我們需要將數(shù)據(jù)集分為兩部分:訓(xùn)練集和測試集茵瘾。顧名思義,訓(xùn)練集用于對模型進行訓(xùn)練咐鹤,測試集用于檢驗訓(xùn)練效果拗秘。
sklearn 中已經(jīng)集成了這個功能,我們只需要導(dǎo)入:
from sklearn.model_selection import train_test_split
然后:
x_train, x_test, y_train, y_test = train_test_split(x, y, train_size=0.2)
現(xiàn)在來看看我們的訓(xùn)練集祈惶,以 y_train 為例:
(由于一些問題聘殖,這里展示的圖片是一個三列數(shù)據(jù)的數(shù)組,實際數(shù)據(jù)是一個一列的數(shù)組)
不錯不錯行瑞,現(xiàn)在可以開始訓(xùn)練了奸腺。
模型訓(xùn)練
在分析階段中,我們發(fā)現(xiàn)數(shù)據(jù)的變化幅度并不是很大血久,所以這次使用的算法是LogisticRegression
(普通最小二乘法)突照,它的原理我們暫時不需要了解,只要導(dǎo)入模塊:
from sklearn.linear_model import LinearRegression
然后使用以下兩行代碼訓(xùn)練模型:
model = LinearRegression()model.fit(x_train, y_train)
接下來氧吐,我們使用測試集的數(shù)據(jù)對模型打分:
model.score(x_test, y_test)
在我的操作中讹蘑,這個模型的準確率為 22.31%,看起來不是很高筑舅,為什么呢座慰?因為數(shù)據(jù)集太少了,對每個排名翠拣,只有二十九個數(shù)據(jù)版仔,其中還有五分之一用于測試。
如果數(shù)據(jù)量增加到一萬甚至更高误墓,模型的準確率就會大幅度上升蛮粮。
對模型調(diào)用 predict 函數(shù)即可預(yù)測數(shù)據(jù),例如:
model.predict([[1]])
我得到的結(jié)果是array([820.82074298])
谜慌,由于訓(xùn)練集的拆分是隨機的然想,所以你的結(jié)果可能有所不同。
模型的保存與使用
我們使用 Python 自帶的數(shù)據(jù)持久化庫 pickle 來保存模型欣范。
import picklewith open("model.pkl", "wb") as file: pickle.dump(model, file)
運行之后变泄,項目目錄中會生成一個名為model.pkl
的文件令哟,這就是我們的模型。
這個模型本質(zhì)上只是儲存了一個函數(shù)的參數(shù)妨蛹,所以不會很大励饵,但如果使用更高級的模型,預(yù)測更加準確的同時也會增加模型的體積滑燃。
而真正的 AI 中使用的是神經(jīng)網(wǎng)絡(luò)模型役听,保存時要存儲所有神經(jīng)元的權(quán)重信息,有時大小能達到幾十 GB表窘,當然典予,訓(xùn)練時間也大多是按天計算的。
創(chuàng)建 predict.py
文件乐严,輸入以下代碼:
import picklewith open("model.pkl", "rb") as file: model = pickle.load(file)x = [[int(input("請輸入您要預(yù)測的文章排名:"))]]result = model.predict(x)[0]print(f"文章的預(yù)估收益為 {round(result, 3)}")
運行程序酱畅,輸入文章排名态秧,返回的結(jié)果與剛剛的完全一致鹅士。
拓展:使用 Streamlit 搭建網(wǎng)頁
Streamlit 是一個 Python 庫眶明,旨在幫助數(shù)據(jù)科學(xué)從業(yè)者更高效地搭建展示應(yīng)用。
創(chuàng)建web_app_with_streamlit.py
文件既琴,輸入以下代碼:
import streamlit as stimport pickle@st.cache()def GetModel(file_name): with open(file_name, "rb") as file: return pickle.load(file)@st.cache()def GetPerdictResult(model, x): return model.predict([[x]])[0]st.title("文章收益預(yù)測工具")file_name = st.text_input("模型文件名", value="model.pkl")x = st.number_input("文章排名", min_value=1, max_value=100)model = GetModel(file_name)result = GetPerdictResult(model, x)st.write(f"文章預(yù)期收益為 **{round(result, 3)}**")
保存文件占婉,然后輸入以下命令:
streamlit run web_app_with_streamlit.py
瀏覽器會自動打開,你將看到一個網(wǎng)頁:
你可以更改輸入框中的值甫恩,程序?qū)崟r計算出結(jié)果逆济,并顯示在下方。
如果你把這個程序上傳到服務(wù)器磺箕,他人就可以通過訪問網(wǎng)頁直接使用奖慌,不需要訓(xùn)練模型,設(shè)備上甚至不需要安裝 Python松靡。
你可以在服務(wù)端隨時修改代碼简僧,或是將模型文件進行替換,只需要刷新網(wǎng)頁雕欺,就可以應(yīng)用最新的更改岛马。
總結(jié)
本篇文章講述了使用 sklearn 進行數(shù)據(jù)預(yù)測的基本過程,同時編寫了一個 Web App 供用戶直接使用阅茶。
受篇幅所限蛛枚,有很多知識沒有在本文中提到,例如:
- 機器學(xué)習模型的選擇
- 模型參數(shù)優(yōu)化
- 更高效的模型存儲格式
- Streamlit 網(wǎng)頁的部署
如果大家感興趣脸哀,可以自行查閱相關(guān)資料。
現(xiàn)在扭吁,我們所使用的翻譯網(wǎng)站撞蜂、語音助手盲镶、人臉識別等服務(wù),其原理都是機器學(xué)習技術(shù)蝌诡。數(shù)據(jù)經(jīng)過采集溉贿、預(yù)處理等一系列環(huán)節(jié)之后,被工程師變成一個個模型文件浦旱,其中存儲了無數(shù)參數(shù)宇色,用來描述數(shù)據(jù)的內(nèi)在規(guī)律,繼而對新的數(shù)據(jù)進行預(yù)測颁湖。
人工智能研究團隊 OpenAI 訓(xùn)練的人工智能模型 GPT-3 擁有 1750 億參數(shù)宣蠕,訓(xùn)練使用的數(shù)據(jù)量多達 45TB,但他們并沒有公開這個模型甥捺,只提供了一些 API 供人們進行使用抢蚀。
因為他們擔心,這樣強大的人工智能技術(shù)可能對社會產(chǎn)生不利影響镰禾。
當今社會皿曲,你使用的每一個 App 都可能收集你的行為數(shù)據(jù),將你的操作轉(zhuǎn)化為某個神經(jīng)元中的一個權(quán)重參數(shù)吴侦,然后用這個模型實現(xiàn)更好的推薦機制屋休,繼而提高用戶的留存率。
作為一名技術(shù)人备韧,也許我們需要先掌握它博投,然后才能回答這個問題:
技術(shù)發(fā)展到這個高度,對人類真的有益嗎盯蝴?