使用 Python 進行基于機器學(xué)習的數(shù)據(jù)預(yù)測

機器學(xué)習毕籽，大家可能沒有聽說過，但大家一定聽說過 AI井辆，機器學(xué)習就是 AI 的底層技術(shù)之一关筒。

本篇文章，我們會嘗試使用 Python 構(gòu)建一個機器學(xué)習模型杯缺，實現(xiàn)對數(shù)據(jù)的預(yù)測蒸播。

數(shù)據(jù)準備

本次使用的是簡書文章收益排行榜數(shù)據(jù)，共有 2900 條萍肆，記錄了 29 天來每天文章收益排行榜前 100 篇文章的數(shù)據(jù)袍榆。

我們需要構(gòu)建一個機器學(xué)習模型，根據(jù)文章的排名對收益進行預(yù)測塘揣。

我們使用 Jupyter Notebook 進行交互式開發(fā)包雀。

先來導(dǎo)入我們所需的庫：

import pandas as pd
import numpy as np
import sqlite3

如果在導(dǎo)入過程中出現(xiàn)ImportError，請使用pip install 包名安裝庫亲铡，然后嘗試重新導(dǎo)入才写。

我們的數(shù)據(jù)已經(jīng)放在了項目目錄下，是一個 SQLite 數(shù)據(jù)庫奖蔓，名稱為ArticleFPRankList.db赞草。

使用以下代碼將數(shù)據(jù)轉(zhuǎn)換為 Pandas DataFrame：

conn = sqlite3.connect("ArticleFPRankList.db")
df = pd.read_sql_query("SELECT * FROM articlefpranklistdata", conn)

我們來簡單查看一下數(shù)據(jù)：

df.head(10)

image

df.info()

image

我們可以看出，數(shù)據(jù)共有 10 列吆鹤，但中間幾列的數(shù)據(jù)用處不大厨疙，真正有用的是后面的三列和前面的 ranking（排名）列。

數(shù)據(jù)有缺失疑务，這是作者主動刪除文章造成的沾凄，但關(guān)鍵的幾列數(shù)據(jù)都是完整的，不影響我們的分析暑始。

初步分析

在構(gòu)建模型之前搭独，我們需要對數(shù)據(jù)有大致的了解婴削。

導(dǎo)入 plotly 庫用于繪圖：

import plotly.express as px

plotly 對 DataFrame 中數(shù)據(jù)的繪圖操作做了很完善的封裝廊镜，所以我們只需要這樣一行代碼：

px.bar(df, x="date", y="total_fp")

image

得到的結(jié)果是一張堆積柱形圖，其中每一列代表一天的數(shù)據(jù)唉俗，收益高的文章排在下方嗤朴。

從中我們可以看出，每天的收益分配總量是大致保持不變的虫溜，而每個名次的文章雹姊，其獲得的資產(chǎn)量也大致相同，所以我們判定這些數(shù)據(jù)是可預(yù)測的衡楞。

數(shù)據(jù)預(yù)處理

在構(gòu)建模型前吱雏，我們需要對數(shù)據(jù)進行預(yù)處理。

簡單說明一下模型預(yù)測的流程：我們需要兩個由二維數(shù)組構(gòu)成的數(shù)據(jù)集，分別為標志集（x）和數(shù)值集（y）歧杏，將這兩個數(shù)據(jù)集傳入镰惦，程序會擬合出一個算法，用于描述 y 隨 x 的變動關(guān)系犬绒，也可以稱為 y=f(x)旺入。

現(xiàn)在讓我們來構(gòu)建 x 和 y：

x = np.array(df["ranking"]).reshape(-1, 1)
y = np.array(df["total_fp"]).reshape(-1 ,1)

這里的 reshape() 函數(shù)是為了將一維數(shù)組轉(zhuǎn)換成二維數(shù)組。

為了對模型進行打分凯力，我們需要將數(shù)據(jù)集分為兩部分：訓(xùn)練集和測試集茵瘾。顧名思義，訓(xùn)練集用于對模型進行訓(xùn)練咐鹤，測試集用于檢驗訓(xùn)練效果拗秘。

sklearn 中已經(jīng)集成了這個功能，我們只需要導(dǎo)入：

from sklearn.model_selection import train_test_split

然后：

x_train, x_test, y_train, y_test = train_test_split(x, y, train_size=0.2)

現(xiàn)在來看看我們的訓(xùn)練集祈惶，以 y_train 為例：

image

（由于一些問題聘殖，這里展示的圖片是一個三列數(shù)據(jù)的數(shù)組，實際數(shù)據(jù)是一個一列的數(shù)組）

不錯不錯行瑞，現(xiàn)在可以開始訓(xùn)練了奸腺。

模型訓(xùn)練

在分析階段中，我們發(fā)現(xiàn)數(shù)據(jù)的變化幅度并不是很大血久，所以這次使用的算法是LogisticRegression（普通最小二乘法）突照，它的原理我們暫時不需要了解，只要導(dǎo)入模塊：

from sklearn.linear_model import LinearRegression

然后使用以下兩行代碼訓(xùn)練模型：

model = LinearRegression()model.fit(x_train, y_train)

接下來氧吐，我們使用測試集的數(shù)據(jù)對模型打分：

model.score(x_test, y_test)

在我的操作中讹蘑，這個模型的準確率為 22.31%，看起來不是很高筑舅，為什么呢座慰？因為數(shù)據(jù)集太少了，對每個排名翠拣，只有二十九個數(shù)據(jù)版仔，其中還有五分之一用于測試。

如果數(shù)據(jù)量增加到一萬甚至更高误墓，模型的準確率就會大幅度上升蛮粮。

對模型調(diào)用 predict 函數(shù)即可預(yù)測數(shù)據(jù)，例如：

model.predict([[1]])

我得到的結(jié)果是array([820.82074298])谜慌，由于訓(xùn)練集的拆分是隨機的然想，所以你的結(jié)果可能有所不同。

模型的保存與使用

我們使用 Python 自帶的數(shù)據(jù)持久化庫 pickle 來保存模型欣范。

import picklewith open("model.pkl", "wb") as file:    pickle.dump(model, file)

運行之后变泄，項目目錄中會生成一個名為model.pkl的文件令哟，這就是我們的模型。

這個模型本質(zhì)上只是儲存了一個函數(shù)的參數(shù)妨蛹，所以不會很大励饵，但如果使用更高級的模型，預(yù)測更加準確的同時也會增加模型的體積滑燃。

而真正的 AI 中使用的是神經(jīng)網(wǎng)絡(luò)模型役听，保存時要存儲所有神經(jīng)元的權(quán)重信息，有時大小能達到幾十 GB表窘，當然典予，訓(xùn)練時間也大多是按天計算的。

創(chuàng)建 predict.py文件乐严，輸入以下代碼：

import picklewith open("model.pkl", "rb") as file:    model = pickle.load(file)x = [[int(input("請輸入您要預(yù)測的文章排名："))]]result = model.predict(x)[0]print(f"文章的預(yù)估收益為 {round(result, 3)}")

運行程序酱畅，輸入文章排名态秧，返回的結(jié)果與剛剛的完全一致鹅士。

拓展：使用 Streamlit 搭建網(wǎng)頁

Streamlit 是一個 Python 庫眶明，旨在幫助數(shù)據(jù)科學(xué)從業(yè)者更高效地搭建展示應(yīng)用。

創(chuàng)建web_app_with_streamlit.py文件既琴，輸入以下代碼：

import streamlit as stimport pickle@st.cache()def GetModel(file_name):    with open(file_name, "rb") as file:        return pickle.load(file)@st.cache()def GetPerdictResult(model, x):    return model.predict([[x]])[0]st.title("文章收益預(yù)測工具")file_name = st.text_input("模型文件名", value="model.pkl")x = st.number_input("文章排名", min_value=1, max_value=100)model = GetModel(file_name)result = GetPerdictResult(model, x)st.write(f"文章預(yù)期收益為 **{round(result, 3)}**")

保存文件占婉，然后輸入以下命令：

streamlit run web_app_with_streamlit.py

瀏覽器會自動打開，你將看到一個網(wǎng)頁：

image

你可以更改輸入框中的值甫恩，程序?qū)崟r計算出結(jié)果逆济，并顯示在下方。

如果你把這個程序上傳到服務(wù)器磺箕，他人就可以通過訪問網(wǎng)頁直接使用奖慌，不需要訓(xùn)練模型，設(shè)備上甚至不需要安裝 Python松靡。

你可以在服務(wù)端隨時修改代碼简僧，或是將模型文件進行替換，只需要刷新網(wǎng)頁雕欺，就可以應(yīng)用最新的更改岛马。

總結(jié)

本篇文章講述了使用 sklearn 進行數(shù)據(jù)預(yù)測的基本過程，同時編寫了一個 Web App 供用戶直接使用阅茶。

受篇幅所限蛛枚，有很多知識沒有在本文中提到，例如：

機器學(xué)習模型的選擇
模型參數(shù)優(yōu)化
更高效的模型存儲格式
Streamlit 網(wǎng)頁的部署

如果大家感興趣脸哀，可以自行查閱相關(guān)資料。

現(xiàn)在扭吁，我們所使用的翻譯網(wǎng)站撞蜂、語音助手盲镶、人臉識別等服務(wù)，其原理都是機器學(xué)習技術(shù)蝌诡。數(shù)據(jù)經(jīng)過采集溉贿、預(yù)處理等一系列環(huán)節(jié)之后，被工程師變成一個個模型文件浦旱，其中存儲了無數(shù)參數(shù)宇色，用來描述數(shù)據(jù)的內(nèi)在規(guī)律，繼而對新的數(shù)據(jù)進行預(yù)測颁湖。

人工智能研究團隊 OpenAI 訓(xùn)練的人工智能模型 GPT-3 擁有 1750 億參數(shù)宣蠕，訓(xùn)練使用的數(shù)據(jù)量多達 45TB，但他們并沒有公開這個模型甥捺，只提供了一些 API 供人們進行使用抢蚀。

因為他們擔心，這樣強大的人工智能技術(shù)可能對社會產(chǎn)生不利影響镰禾。

當今社會皿曲，你使用的每一個 App 都可能收集你的行為數(shù)據(jù)，將你的操作轉(zhuǎn)化為某個神經(jīng)元中的一個權(quán)重參數(shù)吴侦，然后用這個模型實現(xiàn)更好的推薦機制屋休，繼而提高用戶的留存率。

作為一名技術(shù)人备韧，也許我們需要先掌握它博投，然后才能回答這個問題：

技術(shù)發(fā)展到這個高度，對人類真的有益嗎盯蝴？

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末毅哗，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子捧挺，更是在濱河造成了極大的恐慌虑绵，老刑警劉巖，帶你破解...
沈念sama閱讀 206,126評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件闽烙，死亡現(xiàn)場離奇詭異翅睛，居然都是意外死亡，警方通過查閱死者的電腦和手機黑竞，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,254評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門捕发，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人很魂，你說我怎么就攤上這事扎酷。” “怎么了遏匆？”我有些...
開封第一講書人閱讀 152,445評論 0贊 341
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵法挨，是天一觀的道長谁榜。經(jīng)常有香客問我，道長凡纳，這世上最難降的妖魔是什么窃植？我笑而不...
開封第一講書人閱讀 55,185評論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮荐糜，結(jié)果婚禮上巷怜，老公的妹妹穿的比我還像新娘。我一直安慰自己暴氏，他們只是感情好延塑，可當我...
茶點故事閱讀 64,178評論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著偏序，像睡著了一般页畦。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上研儒，一...
開封第一講書人閱讀 48,970評論 1贊 284
城市分裂傳說
那天豫缨，我揣著相機與錄音，去河邊找鬼端朵。笑死好芭，一個胖子當著我的面吹牛，可吹牛的內(nèi)容都是我干的冲呢。我是一名探鬼主播舍败，決...
沈念sama閱讀 38,276評論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼敬拓！你這毒婦竟也來了邻薯？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 36,927評論 0贊 259
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤乘凸，失蹤者是張志新（化名）和其女友劉穎厕诡，沒想到半個月后，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體营勤，經(jīng)...
沈念sama閱讀 43,400評論 1贊 300
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡灵嫌，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 35,883評論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了葛作。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片寿羞。...
茶點故事閱讀 37,997評論 1贊 333
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖赂蠢，靈堂內(nèi)的尸體忽然破棺而出绪穆，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 33,646評論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布霞幅，位于F島的核電站漠吻，受9級特大地震影響量瓜，放射性物質(zhì)發(fā)生泄漏司恳。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 39,213評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一绍傲、第九天我趴在偏房一處隱蔽的房頂上張望扔傅。院中可真熱鬧，春花似錦烫饼、人聲如沸猎塞。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,204評論 0贊 19
一樁弒父案杠纵，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽荠耽。三九已至，卻和暖如春比藻，著一層夾襖步出監(jiān)牢的瞬間铝量，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,423評論 1贊 260
情欲美人皮
我被黑心中介騙來泰國打工银亲，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留慢叨，地道東北人。一個月前我還...
沈念sama閱讀 45,423評論 2贊 352
代替公主和親
正文我出身青樓务蝠，卻偏偏與公主長得像拍谐，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子馏段，可洞房花燭夜當晚...
茶點故事閱讀 42,722評論 2贊 345

使用 Python 進行基于機器學(xué)習的數(shù)據(jù)預(yù)測

數(shù)據(jù)準備

初步分析

數(shù)據(jù)預(yù)處理

模型訓(xùn)練

模型的保存與使用

拓展：使用 Streamlit 搭建網(wǎng)頁

總結(jié)

推薦閱讀更多精彩內(nèi)容