久久综合色一综合色88欧美|久久er热在这里只有精品66|国产福利一区二区不卡|日本精品动漫二区三区

<address id="l3apk"><var id="l3apk"><source id="l3apk"></source></var></address>

<sup id="im20i"></sup>

數(shù)據(jù)分析面試的問題

時間：2022-11-26 04:25:29 面試技巧我要投稿

相關(guān)推薦

數(shù)據(jù)分析面試的問題

　　對于數(shù)據(jù)庫分析人員來說，面試前做好面試準(zhǔn)備很重要，你了解哪些面試問題呢?下面陽光網(wǎng)小編已經(jīng)為你們整理了數(shù)據(jù)分析面試的問題,希望可以幫到你。

數(shù)據(jù)分析面試的問題

　　數(shù)據(jù)分析面試的問題(一)

　　一、異常值是指什么?請列舉1種識別連續(xù)型變量異常值的方法?

　　異常值(Outlier)是指樣本中的個別值，其數(shù)值明顯偏離所屬樣本的其余觀測值。在數(shù)理統(tǒng)計里一般是指一組觀測值中與平均值的偏差超過兩倍標(biāo)準(zhǔn)差的測定值。

　　Grubbs’ test(是以Frank E.Grubbs命名的)，又叫maximumnormed residual test，是一種用于單變量數(shù)據(jù)集異常值識別的統(tǒng)計檢測，它假定數(shù)據(jù)集來自正態(tài)分布的總體。

　　未知總體標(biāo)準(zhǔn)差σ，在五種檢驗法中，優(yōu)劣次序為：t檢驗法、格拉布斯檢驗法、峰度檢驗法、狄克遜檢驗法、偏度檢驗法。

　　二、什么是聚類分析?聚類算法有哪幾種?請選擇一種詳細(xì)描述其計算原理和步驟。

　　聚類分析(clusteranalysis)是一組將研究對象分為相對同質(zhì)的群組(clusters)的統(tǒng)計分析技術(shù)。聚類分析也叫分類分析(classification analysis)或數(shù)值分類(numerical taxonomy)。聚類與分類的不同在于，聚類所要求劃分的類是未知的`。

　　聚類分析計算方法主要有：層次的方法(hierarchical method)、劃分方法(partitioning method)、基于密度的方法(density-based method)、基于網(wǎng)格的方法(grid-based method)、基于模型的方法(model-based method)等。其中，前兩種算法是利用統(tǒng)計學(xué)定義的距離進(jìn)行度量。 k-means 算法的工作過程說明如下：首先從n個數(shù)據(jù)對象任意選擇 k 個對象作為初始聚類中心;而對于所剩下其它對象，則根據(jù)它們與這些聚類中心的相似度(距離)，分別將它們分配給與其最相似的(聚類中心所代表的)聚類;然后再計算每個所獲新聚類的聚類中心(該聚類中所有對象的均值);不斷重復(fù)這一過程直到標(biāo)準(zhǔn)測度函數(shù)開始收斂為止。一般都采用均方差作為標(biāo)準(zhǔn)測度函數(shù). k個聚類具有以下特點：各聚類本身盡可能的緊湊，而各聚類之間盡可能的分開。

　　其流程如下：

　　(1)從 n個數(shù)據(jù)對象任意選擇 k 個對象作為初始聚類中心;

　　(2)根據(jù)每個聚類對象的均值(中心對象)，計算每個對象與這些中心對象的距離;并根據(jù)最小距離重新對相應(yīng)對象進(jìn)行劃分;

　　(3)重新計算每個(有變化)聚類的均值(中心對象);

　　(4)循環(huán)(2)、(3)直到每個聚類不再發(fā)生變化為止(標(biāo)準(zhǔn)測量函數(shù)收斂)。

　　優(yōu)點：本算法確定的K 個劃分到達(dá)平方誤差最小。當(dāng)聚類是密集的，且類與類之間區(qū)別明顯時，效果較好。對于處理大數(shù)據(jù)集，這個算法是相對可伸縮和高效的，計算的復(fù)雜度為 O(NKt)，其中N是數(shù)據(jù)對象的數(shù)目，t是迭代的次數(shù)。一般來說，K<<N，t<<N 。

　　缺點：1. K 是事先給定的，但非常難以選定;2. 初始聚類中心的選擇對聚類結(jié)果有較大的影響。

　　三、根據(jù)要求寫出SQL

　　表A結(jié)構(gòu)如下：

　　Member_ID (用戶的ID，字符型)

　　Log_time (用戶訪問頁面時間，日期型(只有一天的數(shù)據(jù)))

　　URL (訪問的頁面地址，字符型)

　　要求：提取出每個用戶訪問的第一個URL(按時間最早)，形成一個新表(新表名為B，表結(jié)構(gòu)和表A一致)

　　create table B as select Member_ID,min(Log_time), URL from A group by Member_ID ;

　　數(shù)據(jù)分析面試的問題(二)

　　1、你處理過的最大的數(shù)據(jù)量?你是如何處理他們的?處理的結(jié)果。

　　2、告訴我二個分析或者計算機科學(xué)相關(guān)項目?你是如何對其結(jié)果進(jìn)行衡量的?

　　3、什么是：提升值、關(guān)鍵績效指標(biāo)、強壯性、模型按合度、實驗設(shè)計、2/8原則?

　　4、什么是：協(xié)同過濾、n-grams,mapreduce、余弦距離?

　　5、如何讓一個網(wǎng)絡(luò)爬蟲速度更快、抽取更好的信息以及更好總結(jié)數(shù)據(jù)從而得到一干凈的數(shù)據(jù)庫?

　　6、如何設(shè)計一個解決抄襲的方案?

　　7、如何檢驗一個個人支付賬戶都多個人使用?

　　8、點擊流數(shù)據(jù)應(yīng)該是實時處理?為什么?哪部分應(yīng)該實時處理?

　　9、你認(rèn)為哪個更好：是好的數(shù)據(jù)還是好模型?同時你是如何定義“好”?存在所有情況下通用的模型嗎?有你沒有知道一些模型的定義并不是那么好?

　　10、什么是概率合并(AKA模糊融合)?使用SQL處理還是其它語言方便?對于處理半結(jié)構(gòu)化的數(shù)據(jù)你會選擇使用哪種語言?

　　11、你是如何處理缺少數(shù)據(jù)的?你推薦使用什么樣的處理技術(shù)?

　　12、你最喜歡的編程語言是什么?為什么?

　　13、對于你喜歡的統(tǒng)計軟件告訴你喜歡的與不喜歡的3個理由。

　　14、SAS,R,Python,Perl語言的.區(qū)別是?

　　15、什么是大數(shù)據(jù)的詛咒?

　　16、你參與過數(shù)據(jù)庫與數(shù)據(jù)模型的設(shè)計嗎?

　　17、你是否參與過儀表盤的設(shè)計及指標(biāo)選擇?你對于商業(yè)智能和報表工具有什么想法?

　　18、你喜歡TD數(shù)據(jù)庫的什么特征?

　　19、如何你打算發(fā)100萬的營銷活動郵件。你怎么去優(yōu)化發(fā)送?你怎么優(yōu)化反應(yīng)率?能把這二個優(yōu)化份開嗎?

　　20、如果有幾個客戶查詢ORACLE數(shù)據(jù)庫的效率很低。為什么?你做什么可以提高速度10倍以上，同時可以更好處理大數(shù)量輸出?

　　21、如何把非結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)換成結(jié)構(gòu)化的數(shù)據(jù)?這是否真的有必要做這樣的轉(zhuǎn)換?把數(shù)據(jù)存成平面文本文件是否比存成關(guān)系數(shù)據(jù)庫更好?

　　22、什么是哈希表碰撞攻擊?怎么避免?發(fā)生的頻率是多少?

　　23、如何判別mapreduce過程有好的負(fù)載均衡?什么是負(fù)載均衡?

　　24、請舉例說明mapreduce是如何工作的?在什么應(yīng)用場景下工作的很好?云的安全問題有哪些?

　　25、(在內(nèi)存滿足的情況下)你認(rèn)為是100個小的哈希表好還是一個大的哈希表，對于內(nèi)在或者運行速度來說?對于數(shù)據(jù)庫分析的評價?

　　26、為什么樸素貝葉斯差?你如何使用樸素貝葉斯來改進(jìn)爬蟲檢驗算法?

　　27、你處理過白名單嗎?主要的規(guī)則?(在欺詐或者爬行檢驗的情況下)

　　28、什么是星型模型?什么是查詢表?

　　29、你可以使用excel建立邏輯回歸模型嗎?如何可以，說明一下建立過程?

　　30、在SQL,Perl,C++,Python等編程過程上，待為了提升速度優(yōu)化過相關(guān)代碼或者算法嗎?如何及提升多少?

【數(shù)據(jù)分析面試的問題】相關(guān)文章：

小升初面試常規(guī)問題分析12-09

數(shù)據(jù)分析面試題及答案04-09

面試問題及答案以及分析04-09

面試官的典型問題分析12-09

決策和分析問題的能力的面試題目12-09

各種面試問題回答技巧及分析最新大全04-18

數(shù)據(jù)分析工作總結(jié)01-10

運營數(shù)據(jù)分析簡歷模板04-02

考研復(fù)習(xí)戰(zhàn)術(shù)分析：數(shù)據(jù)結(jié)構(gòu)12-09

最新文章

<blockquote id="wwusi"></blockquote>

<sup id="wwusi"><em id="wwusi"></em></sup>