使用 Python 進行基于機器學(xué)習的數(shù)據(jù)預(yù)測

機器學(xué)習毕籽,大家可能沒有聽說過,但大家一定聽說過 AI井辆,機器學(xué)習就是 AI 的底層技術(shù)之一关筒。

本篇文章,我們會嘗試使用 Python 構(gòu)建一個機器學(xué)習模型杯缺,實現(xiàn)對數(shù)據(jù)的預(yù)測蒸播。

數(shù)據(jù)準備

本次使用的是簡書文章收益排行榜數(shù)據(jù),共有 2900 條萍肆,記錄了 29 天來每天文章收益排行榜前 100 篇文章的數(shù)據(jù)袍榆。

我們需要構(gòu)建一個機器學(xué)習模型,根據(jù)文章的排名對收益進行預(yù)測塘揣。

我們使用 Jupyter Notebook 進行交互式開發(fā)包雀。

先來導(dǎo)入我們所需的庫:

import pandas as pd
import numpy as np
import sqlite3

如果在導(dǎo)入過程中出現(xiàn)ImportError,請使用pip install 包名安裝庫亲铡,然后嘗試重新導(dǎo)入才写。

我們的數(shù)據(jù)已經(jīng)放在了項目目錄下,是一個 SQLite 數(shù)據(jù)庫奖蔓,名稱為ArticleFPRankList.db赞草。

使用以下代碼將數(shù)據(jù)轉(zhuǎn)換為 Pandas DataFrame:

conn = sqlite3.connect("ArticleFPRankList.db")
df = pd.read_sql_query("SELECT * FROM articlefpranklistdata", conn)

我們來簡單查看一下數(shù)據(jù):

df.head(10)
image
df.info()
image

我們可以看出,數(shù)據(jù)共有 10 列吆鹤,但中間幾列的數(shù)據(jù)用處不大厨疙,真正有用的是后面的三列和前面的 ranking(排名)列。

數(shù)據(jù)有缺失疑务,這是作者主動刪除文章造成的沾凄,但關(guān)鍵的幾列數(shù)據(jù)都是完整的,不影響我們的分析暑始。

初步分析

在構(gòu)建模型之前搭独,我們需要對數(shù)據(jù)有大致的了解婴削。

導(dǎo)入 plotly 庫用于繪圖:

import plotly.express as px

plotly 對 DataFrame 中數(shù)據(jù)的繪圖操作做了很完善的封裝廊镜,所以我們只需要這樣一行代碼:

px.bar(df, x="date", y="total_fp")
image

得到的結(jié)果是一張堆積柱形圖,其中每一列代表一天的數(shù)據(jù)唉俗,收益高的文章排在下方嗤朴。

從中我們可以看出,每天的收益分配總量是大致保持不變的虫溜,而每個名次的文章雹姊,其獲得的資產(chǎn)量也大致相同,所以我們判定這些數(shù)據(jù)是可預(yù)測的衡楞。

數(shù)據(jù)預(yù)處理

在構(gòu)建模型前吱雏,我們需要對數(shù)據(jù)進行預(yù)處理。

簡單說明一下模型預(yù)測的流程:我們需要兩個由二維數(shù)組構(gòu)成的數(shù)據(jù)集,分別為標志集(x)和數(shù)值集(y)歧杏,將這兩個數(shù)據(jù)集傳入镰惦,程序會擬合出一個算法,用于描述 y 隨 x 的變動關(guān)系犬绒,也可以稱為 y=f(x)旺入。

現(xiàn)在讓我們來構(gòu)建 x 和 y:

x = np.array(df["ranking"]).reshape(-1, 1)
y = np.array(df["total_fp"]).reshape(-1 ,1)

這里的 reshape() 函數(shù)是為了將一維數(shù)組轉(zhuǎn)換成二維數(shù)組。

為了對模型進行打分凯力,我們需要將數(shù)據(jù)集分為兩部分:訓(xùn)練集和測試集茵瘾。顧名思義,訓(xùn)練集用于對模型進行訓(xùn)練咐鹤,測試集用于檢驗訓(xùn)練效果拗秘。

sklearn 中已經(jīng)集成了這個功能,我們只需要導(dǎo)入:

from sklearn.model_selection import train_test_split

然后:

x_train, x_test, y_train, y_test = train_test_split(x, y, train_size=0.2)

現(xiàn)在來看看我們的訓(xùn)練集祈惶,以 y_train 為例:

image

(由于一些問題聘殖,這里展示的圖片是一個三列數(shù)據(jù)的數(shù)組,實際數(shù)據(jù)是一個一列的數(shù)組)

不錯不錯行瑞,現(xiàn)在可以開始訓(xùn)練了奸腺。

模型訓(xùn)練

在分析階段中,我們發(fā)現(xiàn)數(shù)據(jù)的變化幅度并不是很大血久,所以這次使用的算法是LogisticRegression(普通最小二乘法)突照,它的原理我們暫時不需要了解,只要導(dǎo)入模塊:

from sklearn.linear_model import LinearRegression

然后使用以下兩行代碼訓(xùn)練模型:

model = LinearRegression()model.fit(x_train, y_train)

接下來氧吐,我們使用測試集的數(shù)據(jù)對模型打分:

model.score(x_test, y_test)

在我的操作中讹蘑,這個模型的準確率為 22.31%,看起來不是很高筑舅,為什么呢座慰?因為數(shù)據(jù)集太少了,對每個排名翠拣,只有二十九個數(shù)據(jù)版仔,其中還有五分之一用于測試。

如果數(shù)據(jù)量增加到一萬甚至更高误墓,模型的準確率就會大幅度上升蛮粮。

對模型調(diào)用 predict 函數(shù)即可預(yù)測數(shù)據(jù),例如:

model.predict([[1]])

我得到的結(jié)果是array([820.82074298])谜慌,由于訓(xùn)練集的拆分是隨機的然想,所以你的結(jié)果可能有所不同。

模型的保存與使用

我們使用 Python 自帶的數(shù)據(jù)持久化庫 pickle 來保存模型欣范。

import picklewith open("model.pkl", "wb") as file:    pickle.dump(model, file)

運行之后变泄,項目目錄中會生成一個名為model.pkl的文件令哟,這就是我們的模型。

這個模型本質(zhì)上只是儲存了一個函數(shù)的參數(shù)妨蛹,所以不會很大励饵,但如果使用更高級的模型,預(yù)測更加準確的同時也會增加模型的體積滑燃。

而真正的 AI 中使用的是神經(jīng)網(wǎng)絡(luò)模型役听,保存時要存儲所有神經(jīng)元的權(quán)重信息,有時大小能達到幾十 GB表窘,當然典予,訓(xùn)練時間也大多是按天計算的。

創(chuàng)建 predict.py文件乐严,輸入以下代碼:

import picklewith open("model.pkl", "rb") as file:    model = pickle.load(file)x = [[int(input("請輸入您要預(yù)測的文章排名:"))]]result = model.predict(x)[0]print(f"文章的預(yù)估收益為 {round(result, 3)}")

運行程序酱畅,輸入文章排名态秧,返回的結(jié)果與剛剛的完全一致鹅士。

拓展:使用 Streamlit 搭建網(wǎng)頁

Streamlit 是一個 Python 庫眶明,旨在幫助數(shù)據(jù)科學(xué)從業(yè)者更高效地搭建展示應(yīng)用。

創(chuàng)建web_app_with_streamlit.py文件既琴,輸入以下代碼:

import streamlit as stimport pickle@st.cache()def GetModel(file_name):    with open(file_name, "rb") as file:        return pickle.load(file)@st.cache()def GetPerdictResult(model, x):    return model.predict([[x]])[0]st.title("文章收益預(yù)測工具")file_name = st.text_input("模型文件名", value="model.pkl")x = st.number_input("文章排名", min_value=1, max_value=100)model = GetModel(file_name)result = GetPerdictResult(model, x)st.write(f"文章預(yù)期收益為 **{round(result, 3)}**")

保存文件占婉,然后輸入以下命令:

streamlit run web_app_with_streamlit.py

瀏覽器會自動打開,你將看到一個網(wǎng)頁:

image

你可以更改輸入框中的值甫恩,程序?qū)崟r計算出結(jié)果逆济,并顯示在下方。

如果你把這個程序上傳到服務(wù)器磺箕,他人就可以通過訪問網(wǎng)頁直接使用奖慌,不需要訓(xùn)練模型,設(shè)備上甚至不需要安裝 Python松靡。

你可以在服務(wù)端隨時修改代碼简僧,或是將模型文件進行替換,只需要刷新網(wǎng)頁雕欺,就可以應(yīng)用最新的更改岛马。

總結(jié)

本篇文章講述了使用 sklearn 進行數(shù)據(jù)預(yù)測的基本過程,同時編寫了一個 Web App 供用戶直接使用阅茶。

受篇幅所限蛛枚,有很多知識沒有在本文中提到,例如:

  • 機器學(xué)習模型的選擇
  • 模型參數(shù)優(yōu)化
  • 更高效的模型存儲格式
  • Streamlit 網(wǎng)頁的部署

如果大家感興趣脸哀,可以自行查閱相關(guān)資料。

現(xiàn)在扭吁,我們所使用的翻譯網(wǎng)站撞蜂、語音助手盲镶、人臉識別等服務(wù),其原理都是機器學(xué)習技術(shù)蝌诡。數(shù)據(jù)經(jīng)過采集溉贿、預(yù)處理等一系列環(huán)節(jié)之后,被工程師變成一個個模型文件浦旱,其中存儲了無數(shù)參數(shù)宇色,用來描述數(shù)據(jù)的內(nèi)在規(guī)律,繼而對新的數(shù)據(jù)進行預(yù)測颁湖。

人工智能研究團隊 OpenAI 訓(xùn)練的人工智能模型 GPT-3 擁有 1750 億參數(shù)宣蠕,訓(xùn)練使用的數(shù)據(jù)量多達 45TB,但他們并沒有公開這個模型甥捺,只提供了一些 API 供人們進行使用抢蚀。

因為他們擔心,這樣強大的人工智能技術(shù)可能對社會產(chǎn)生不利影響镰禾。

當今社會皿曲,你使用的每一個 App 都可能收集你的行為數(shù)據(jù),將你的操作轉(zhuǎn)化為某個神經(jīng)元中的一個權(quán)重參數(shù)吴侦,然后用這個模型實現(xiàn)更好的推薦機制屋休,繼而提高用戶的留存率。

作為一名技術(shù)人备韧,也許我們需要先掌握它博投,然后才能回答這個問題:

技術(shù)發(fā)展到這個高度,對人類真的有益嗎盯蝴?

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末毅哗,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子捧挺,更是在濱河造成了極大的恐慌虑绵,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件闽烙,死亡現(xiàn)場離奇詭異翅睛,居然都是意外死亡,警方通過查閱死者的電腦和手機黑竞,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進店門捕发,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人很魂,你說我怎么就攤上這事扎酷。” “怎么了遏匆?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵法挨,是天一觀的道長谁榜。 經(jīng)常有香客問我,道長凡纳,這世上最難降的妖魔是什么窃植? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮荐糜,結(jié)果婚禮上巷怜,老公的妹妹穿的比我還像新娘。我一直安慰自己暴氏,他們只是感情好延塑,可當我...
    茶點故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著偏序,像睡著了一般页畦。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上研儒,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天豫缨,我揣著相機與錄音,去河邊找鬼端朵。 笑死好芭,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的冲呢。 我是一名探鬼主播舍败,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼敬拓!你這毒婦竟也來了邻薯?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤乘凸,失蹤者是張志新(化名)和其女友劉穎厕诡,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體营勤,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡灵嫌,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了葛作。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片寿羞。...
    茶點故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖赂蠢,靈堂內(nèi)的尸體忽然破棺而出绪穆,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布霞幅,位于F島的核電站漠吻,受9級特大地震影響量瓜,放射性物質(zhì)發(fā)生泄漏司恳。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一绍傲、第九天 我趴在偏房一處隱蔽的房頂上張望扔傅。 院中可真熱鬧,春花似錦烫饼、人聲如沸猎塞。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽荠耽。三九已至,卻和暖如春比藻,著一層夾襖步出監(jiān)牢的瞬間铝量,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工银亲, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留慢叨,地道東北人。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓务蝠,卻偏偏與公主長得像拍谐,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子馏段,可洞房花燭夜當晚...
    茶點故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內(nèi)容