從統(tǒng)計(jì)學(xué)角度看待機(jī)器學(xué)習(xí)
統(tǒng)計(jì)學(xué)習(xí)總覽
李航的《統(tǒng)計(jì)學(xué)習(xí)方法》絕對(duì)是干貨十足的書,可惜實(shí)在是太干了,字字珠璣,幾乎每段話都能當(dāng)作筆記進(jìn)行整理。讀起來仿佛在吃加強(qiáng)版的壓縮餅干,雖然能量十足但未免太難吃了。
根據(jù)文中內(nèi)容,現(xiàn)在的機(jī)器學(xué)習(xí),狹義上就是指代統(tǒng)計(jì)機(jī)器學(xué)習(xí)。
統(tǒng)計(jì)學(xué)習(xí)是數(shù)據(jù)驅(qū)動(dòng),從數(shù)據(jù)中學(xué)習(xí)概率統(tǒng)計(jì)模型,然后利用模型對(duì)新數(shù)據(jù)進(jìn)行分析和預(yù)測(cè)。
統(tǒng)計(jì)學(xué)習(xí)關(guān)于數(shù)據(jù)的基本假設(shè)——同類數(shù)據(jù)具有一定的統(tǒng)計(jì)規(guī)律。以隨機(jī)變量(組)描述數(shù)據(jù)特征,以概率分布描述數(shù)據(jù)的統(tǒng)計(jì)規(guī)律。
統(tǒng)計(jì)學(xué)習(xí)的目的是——尋找什么樣的模型,怎么學(xué)習(xí)這個(gè)模型,以及學(xué)習(xí)這個(gè)模型的效率。從而對(duì)數(shù)據(jù)進(jìn)行分析和預(yù)測(cè)。
統(tǒng)計(jì)學(xué)習(xí)基本步驟——數(shù)據(jù)假設(shè)、模型假設(shè)、策略選擇、優(yōu)化求解、選擇模型、應(yīng)用模型。
數(shù)據(jù)——獨(dú)立同分布。
模型(參數(shù)空間、復(fù)雜度)——所有可能模型集合,假設(shè)空間(輸入=>模型=>輸出,一種映射,如條件概率或決策函數(shù))。
策略(損失函數(shù)、風(fēng)險(xiǎn)函數(shù)、經(jīng)驗(yàn)函數(shù))——確定模型選擇的準(zhǔn)則(最大似然,最小二乘擬合)。
算法(優(yōu)化問題)——實(shí)現(xiàn)策略的方法(直接求解,迭代求解,梯度下降)。
輸入實(shí)例=>特征向量、輸入輸出對(duì)=>樣本。
通過訓(xùn)練誤差。測(cè)試誤差來評(píng)估模型——欠擬合和過擬合,偏倚方差兩難問題。 通過正則化和交叉驗(yàn)證來選取模型。
通過泛化誤差上界來評(píng)定模型好壞。
統(tǒng)計(jì)學(xué)習(xí)
統(tǒng)計(jì)學(xué)習(xí)定義:關(guān)于計(jì)算機(jī)基于數(shù)據(jù)構(gòu)建概率統(tǒng)計(jì)模型并運(yùn)用模型對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)和分析的一門學(xué)科。
機(jī)器學(xué)習(xí):往往是指代統(tǒng)計(jì)機(jī)器學(xué)習(xí)。
統(tǒng)計(jì)學(xué)習(xí)對(duì)象:數(shù)據(jù)驅(qū)動(dòng),并假設(shè)同類數(shù)據(jù)具有一定的統(tǒng)計(jì)規(guī)律性。
統(tǒng)計(jì)學(xué)習(xí)目的:分析和預(yù)測(cè)數(shù)據(jù)。
統(tǒng)計(jì)學(xué)習(xí)目標(biāo):學(xué)習(xí)什么樣的模型,如何學(xué)習(xí)模型,并有效率的學(xué)習(xí)。
統(tǒng)計(jì)學(xué)習(xí)的'分類:監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、增強(qiáng)學(xué)習(xí)等。
統(tǒng)計(jì)學(xué)習(xí)數(shù)據(jù)表示:以變量或者變量組來表示。分為連續(xù)變量和離散變量。
統(tǒng)計(jì)學(xué)習(xí)的方法步驟(監(jiān)督學(xué)習(xí)為例):數(shù)據(jù)假設(shè)、模型假設(shè)、策略選擇、優(yōu)化求解、選擇模型、應(yīng)用模型
1.有限訓(xùn)練數(shù)據(jù)集合,并假設(shè)數(shù)據(jù)獨(dú)立同分布——數(shù)據(jù)。
2.確定假設(shè)空間,即可能的模型集合——模型。
3.確定模型選擇的準(zhǔn)則——策略。
4.實(shí)現(xiàn)求解模型的方法——算法。
5.通過學(xué)習(xí)選擇最優(yōu)模型——選擇。
6.利用模型進(jìn)行預(yù)測(cè)和分析——應(yīng)用。
統(tǒng)計(jì)學(xué)習(xí)的研究:包括統(tǒng)計(jì)學(xué)習(xí)方法、統(tǒng)計(jì)學(xué)習(xí)理論、統(tǒng)計(jì)學(xué)習(xí)應(yīng)用。
1.統(tǒng)計(jì)學(xué)習(xí)方法的研究——開發(fā)新的學(xué)習(xí)方法。
2.統(tǒng)計(jì)學(xué)習(xí)理論的研究——學(xué)習(xí)方法的有效性和效率,以及基本理論問題。
3.統(tǒng)計(jì)學(xué)習(xí)應(yīng)用的研究——如何將統(tǒng)計(jì)方法應(yīng)用到實(shí)際問題中去。
統(tǒng)計(jì)學(xué)習(xí)的重要性:我們都懂得,混口飯吃嘛,裝裝牛X啥的。
監(jiān)督學(xué)習(xí)
監(jiān)督學(xué)習(xí)內(nèi)容:分類、回歸、標(biāo)注等。
實(shí)例表示:通常以特征向量的形式表示,每一個(gè)特征是一個(gè)維度。
監(jiān)督學(xué)習(xí)基本假設(shè):輸入輸出的隨機(jī)變量X和Y遵循聯(lián)合概率分布P(X,Y),并假設(shè)這個(gè)分布存在。并且數(shù)據(jù)由這個(gè)分布獨(dú)立同分布產(chǎn)生。
【從統(tǒng)計(jì)學(xué)角度看待機(jī)器學(xué)習(xí)】相關(guān)文章:
4.應(yīng)用統(tǒng)計(jì)學(xué)習(xí)題及答案
5.醫(yī)學(xué)統(tǒng)計(jì)學(xué)學(xué)習(xí)體會(huì)論文
6.新西蘭留學(xué)選擇院校時(shí)進(jìn)行挑選需從專業(yè)角度