跨境電商如何使用線性回歸模型預(yù)測運輸費?需要注意哪幾點?

發(fā)布時間:2022-03-22 20:11:07  |  來源:騰訊網(wǎng)  

導(dǎo)讀

筆者將介紹線性回歸模型,它可以用來預(yù)測未來,是預(yù)測性模型。筆者會用預(yù)測運輸費用的場景,為大家介紹這個模型。

我們經(jīng)常會聽到“建模”這個詞,供應(yīng)鏈中會涉及到許多的模型應(yīng)用,比如預(yù)測,庫存之類,這些都可以通過建立數(shù)學(xué)模型,經(jīng)過分析后告訴我們:

發(fā)生了什么?(庫存為什么這么多?)

將來會怎么樣?(庫存什么時候會降下去?)

我們該怎么辦?(以后該如何合理下訂單?)

這些都是基本的供應(yīng)鏈模型。本文筆者將介紹線性回歸模型,它可以用來預(yù)測未來,是預(yù)測性模型。筆者會用預(yù)測運輸費用的場景,為大家介紹這個模型。

一、啥是線性回歸模型?

線性回歸是高中時候?qū)W的,知識早就還給老師了,好在原理并不復(fù)雜。

線性回歸在供應(yīng)鏈中有許多的應(yīng)用場景,比如說是預(yù)測運輸費用。假設(shè)一家跨境電商K公司打算開拓一個新的海外市場,把貨物從中國運到法國銷售,每次都是用拼柜LCL出口,想要了解海運成本大概是多少。

由于是新的市場,K公司沒有運費的歷史數(shù)據(jù)供參考,好在K公司已在德國設(shè)立倉庫運營了,所以有一些運費的數(shù)據(jù)。由于K公司的貨物都是體積大但是重量輕的貨物,需要根據(jù)貨物立方數(shù)算運費。

運費是從中國工廠提貨,到送至海外倉庫的全部費用,其中包括了內(nèi)陸卡車、海上集裝箱運輸、碼頭操作和進出口手續(xù)費等。

法國距離德國很近,因此K公司可以使用現(xiàn)有的數(shù)據(jù)來預(yù)測新市場的運輸成本。此時,我們就可以使用線性回歸模型來預(yù)測運費了。

先來講講什么是回歸,它的全名是Regression towards the mean,也就是向平均數(shù)回歸。

這又是什么概念呢?如果我們把K公司現(xiàn)有的出口德國的50條海運數(shù)據(jù)拿出來,橫軸是貨物的立方數(shù),縱軸是對應(yīng)的運輸費用,用散點圖來表示出來,看到的就是下圖的效果。

看著這張圖,直覺告訴我們,似乎有一條直線,可以穿過所有的點。回歸就是通過這堆點,來找一條盡可能地在所有點中間的線的過程。

這條紅色的直線就是我們要尋找的目標(biāo),然后根據(jù)它來預(yù)測未來運輸?shù)椒▏倪\費。線性回歸就是根據(jù)已知,預(yù)測未知的模型。

我們看到實際發(fā)生的運費分布在紅線的上下,造成差異的原因可能是運費波動,或是因為貨物較重,也有其他的可能性,我們不必糾結(jié)細節(jié),只需要關(guān)注這條紅線的整體趨勢,這樣就能更快捷地預(yù)測出未來的運費情況了。

散亂的點不能體現(xiàn)出趨勢,而回歸的線可以預(yù)測未來。回歸就是通過一堆看不出具體關(guān)系的點,來找一條盡量出現(xiàn)在所有點中間的線,進而讓整體關(guān)系更加清晰可見,為我們提供洞察。

解釋過了回歸,再來說一下線性,這個概念是初中時就學(xué)過的,就更加簡單了,相信大家應(yīng)該還有印象。

舉個例子,出租車計費由兩部分組成,首先是固定的起步價,比如16元,哪怕你打車只是去前面200米的地方買份早餐,司機也收你16元,這是最低收費Minimum charge。其次是每公里車費,比如每公里收費2元,距離越遠,收費越高。出租車計費的公式就是:車費=2元×公里數(shù)+16元

這就是一個經(jīng)典的線性函數(shù)公式:Y=A×X+B

當(dāng)X為零時,Y的值是16,這就是最低收費的起步價16元了?!熬€性”是那條直線,找到那條直線的過程就是“線性回歸”。

現(xiàn)在我們理解了,所謂線性回歸,就是在一堆散點中找出一條含有趨勢性的直線,然后根據(jù)這種趨勢預(yù)測未來情況。

二、如何使用線性回歸模型?

1.統(tǒng)計分析

搞清楚概念后,我們就要開始找出運輸費用中的這條直線了。在K公司的案例中,現(xiàn)有的數(shù)據(jù)只有2組,分別是每票海運的貨物立方數(shù)和每票貨物的運費,其中包括門到門的運費、港口操作費和進出口費用等。

這兩組數(shù)值就是函數(shù)中的參數(shù),我們要使用它們來找到直線,求解線性函數(shù)中的A和B的值。

A是一個系數(shù),在它的影響下,運費會隨著貨量增加而上漲,這很容易理解,運輸?shù)呢浟吭酱?,收費就越高,成正比關(guān)系。

A在線性函數(shù)中的名字是斜率,意思是每增加一個單位的貨量,會增加多少的運費。

B也是一個系數(shù),就像是前文中的出租車起步價一樣,運費里也有最低收費,包括了海上和內(nèi)陸運輸?shù)钠鸩絻r,另外還有進出口和港口操作的固定收費。

B在線性函數(shù)中的名字是截距,也就是當(dāng)X為零時Y的數(shù)值。在現(xiàn)實情況中,出貨量不可能為零,X一定是大于零的數(shù)。

貨物立方數(shù)叫做自變量,就是X。運輸費用是隨著貨量而變動的,所以叫做因變量,也就是Y。

整個的公式就等于:海運拼箱運輸費用=A×貨物立方數(shù)+B

只要求出了A和B這兩個系數(shù)的值,就可以把任何的X值——貨物立方數(shù)代入公式,算出運輸費用了。

K公司運輸?shù)膮R總統(tǒng)計數(shù)據(jù)如下表。

2.相關(guān)性分析

除了常規(guī)的統(tǒng)計外,我增加了一項,就是最后一行的相關(guān)性Correlation分析。運輸費用和貨量是兩個變量,它們之間可能存在著一定的相關(guān)性。

根據(jù)我們的常識,運輸?shù)呢浟吭酱?,運費也就越高,它們之間應(yīng)該是正相關(guān)性,也就是運費隨著貨量的增加而增加。為了證明這點,我們需要使用相關(guān)性分析來驗證一下。

在Excel中,使用公式=CORREL(數(shù)組,數(shù)組)就可以求得解。相關(guān)性的結(jié)果是在-1和+1之間。

當(dāng)相關(guān)性為-1時,數(shù)組之間是負相關(guān),X的值越高,Y的值越低。比方說天氣越熱,羽絨服越是賣不出去。

當(dāng)相關(guān)性為0時,數(shù)組之間沒半毛錢關(guān)系。就像是誰是中國首富和我沒一丁點兒關(guān)系,因為我成不了中國首富,你們愛誰誰。

當(dāng)相關(guān)性為+1,數(shù)組就是正相關(guān)性,也就是我們運費案例中的情況了。

CORREL(海運拼箱運輸費用,海運拼箱運輸費用)為1,因為是同一個數(shù)組之間分析,結(jié)果自然是1。

CORREL(海運拼箱運輸費用,貨物立方數(shù))是0.81,比較趨向于1了,這個結(jié)果告訴我們,兩組數(shù)據(jù)之間的相關(guān)性很強,值得進一步分析,來計算出A和B的值。

3.求解過程

求解過程略有點復(fù)雜,如果要解釋清楚,估計還要花上不少篇幅,所以我就先一筆帶過。強大的Excel可以幫我們很快地計算出結(jié)果,具體的方法是在“Data—Data analysis”中選擇“Regression”回歸即可。

如果還沒有安裝Data analysis模塊的朋友,可以在網(wǎng)上搜索一下安裝的方法,在此就不做介紹了。如果無法安裝,可能是Excel版本的問題,需要進行升級。

求解過程很簡單,如上圖所示,只需要在“Input Y Range”中,把Y值的數(shù)組,也就是運輸費用選中,然后在“Input X Range”中,把X值的貨物立方數(shù)選中,點擊“OK”就可以迅速地算出結(jié)果。

4.評估模型

在Excel的幫助下,我們可以很輕松地獲得模型,但最重要的工作隨之而來,就是要評估和驗證模型。我們想要確保這個模型是合理的,而且在統(tǒng)計學(xué)上是有效的。

根據(jù)K公司的50組數(shù)據(jù),可以得出這樣的結(jié)果,里面的信息量較多,由于篇幅有限,本文只解釋其中最重要的幾個輸出Output。

(1) 模型的擬合程度

首先,我們要評估模型的擬合程度,它是回歸直線與實際情況的匹配度,也被稱為決定系數(shù)。在輸出結(jié)果中,我們重點要關(guān)注“調(diào)整的R平方(Adjusted R Square)”的值。

R平方可以理解為模型能夠解釋實際情況的百分比。由于要去除自變量個數(shù)對R平方的影響,所以叫做調(diào)整的R平方,這個數(shù)值在0到1之間,數(shù)值越大,說明模型的擬合程度越好,越是能夠說明問題;如果數(shù)值為零,這個模型啥也不是。

在上圖中,調(diào)整的R平方是65%,說明擬合程度還不錯,可以解釋65%發(fā)生的情況,值得我們進一步分析下去。

(2)A、B系數(shù)

看過了整體的擬合程度后,我們要看看單個的系數(shù)情況怎么樣。在本案例中只有兩個系數(shù),是很簡單的場景,但在現(xiàn)實情況中肯定會大于這個數(shù)量。

還是以出租車為例,計費中有一項是時長費,這是根據(jù)行駛時間收費的項目,另外還可能有額外的司機獎勵費,比如在春節(jié)期間每單要加6元。

為了便于說明,在這里我使用最少的變量進行分析。根據(jù)求解結(jié)果,我們可以把A和B的值代入公式:

海運拼箱運輸費用=

156.41×貨物立方數(shù)+664.52

假設(shè)貨物立方數(shù)為零時(實際上不可能),運費是664.52,這就是截距。當(dāng)貨物是4個立方,運費就是1290.18。就這樣,我們找到了那條直線,只要輸入3至15之間的任何一個數(shù),就能夠得出運費。

(3) 驗證系數(shù)

我們還需要對系數(shù)進行驗證,看看它們是否有效且合理,這里主要是看P值,它是用來判定假設(shè)檢驗結(jié)果的一個參數(shù),P值越小,比如小于0.01,說明系數(shù)越是不可能為零。

系數(shù)如果是零,說明該系數(shù)是無意義的。截距的P值是0.000093,已經(jīng)足夠小了,說明這個系數(shù)是可用的,而斜率的P值更小,那就更好了。

(4) 上下限的值

最后是A、B系數(shù)上下限的值,這里使用的是模型默認的95%的置信區(qū)間情況下的值。

貨物立方數(shù)系數(shù)的下限是123.32,上限是189.51,截距的下限是351.39,上限是977.66。在95%的置信區(qū)間里,系數(shù)的上下限就在這個范圍內(nèi)。

這里需要注意的是上下限值不能小于零,否則系數(shù)就沒意義了。如果系數(shù)A是負的,那意味著運輸?shù)呢浟吭礁?,運費反而更低,這是不合理,也是不可能的。因為兩個系數(shù)的P值都是小于0.01,所以也不會出現(xiàn)上述的情況。

至此,我把這個簡單的線性回歸模型介紹完畢,本來想著盡量簡化內(nèi)容,但實際看來,里面包含的知識點是很多的,一篇短文恐怕難以講清楚所有的內(nèi)容。若有解釋不清楚的地方,還請多見諒。

三、建模時的關(guān)鍵點

從模型構(gòu)建和使用的角度,我們需要重點關(guān)注這幾個方面。

1.選擇模型的自變量

在建模之前,我們可能會有多個自變量X,此時就要想一想,該使用哪些?

我在本文中用了一個最簡單的場景,所以只有1個自變量。在實際情況中我們會遇到多個自變量的情況,如果距離、重量等等,需要根據(jù)經(jīng)驗來判斷、選擇合適的自變量。

決定以后,我們要收集自變量的數(shù)據(jù),但有些數(shù)據(jù)可能是缺失的,因此現(xiàn)實情況會更復(fù)雜一些,要做好心理準(zhǔn)備。選擇自變量是建模過程中最難的環(huán)節(jié),需要我們對問題有充分的認知。

2.簡單就是最好的

根據(jù)經(jīng)驗,在模型中盡量少用一些自變量,只要能解釋問題就可以了,自變量越多,模型就越復(fù)雜。雖然調(diào)整的R平方會很高,卻是人為“調(diào)”出來的,距離現(xiàn)實情況反而更遠了。模型最終要在現(xiàn)實中驗證,過度擬合可能會偏離實際情況。

3.模型驗證

由于Excel可以快速運行分析,計算過程已成為最容易的一步。這導(dǎo)致我們可能想要盡快看到模型結(jié)果,忽視了前期思考和選擇的過程。

因此,驗證模型就更加重要了。調(diào)整的R平方、P值和置信區(qū)間的上下限,這三個是最重要的點,我們需要用常識和經(jīng)驗去判斷它們是否合理。

總結(jié)一下,線性回歸模型是供應(yīng)鏈經(jīng)常會使用的工具,聽起來很高大上,但是原理并不復(fù)雜,使用Excel就能搭建模型。掌握基本的建模技能,可以幫助我們提高邏輯思考和數(shù)據(jù)分析能力,增加職場競爭力。

作者 | 卓弘毅

來源 | 弘毅供應(yīng)鏈

此文系作者個人觀點,不代表物流沙龍立場

案例征集:中國零碳供應(yīng)鏈&物流創(chuàng)新方案TOP30

關(guān)鍵詞: 跨境電商如何使用線性回歸模型預(yù)測運輸費需要注意哪幾

 

網(wǎng)站介紹  |  版權(quán)說明  |  聯(lián)系我們  |  網(wǎng)站地圖 

星際派備案號:京ICP備2022016840號-16 營業(yè)執(zhí)照公示信息版權(quán)所有 郵箱聯(lián)系:920 891 263@qq.com