數據分析筆試題【小紅書 2019】

2019年第一批

1. 想要了解上海市中學生的身高，從中抽取了1000個樣本，這項調查中的樣本是從中抽取的1000名中學生的身高

2. 偏態分佈一般用以下哪個指標描述集中趨勢中值（偏態分佈，平均值的代表性比較差，所以使用中值）

3. 在以下不同的場景中，使用的分析方法不正確的有 D

A. 根據商家最近一年的經營及服務數據，用聚類算法判斷出小紅書商家在各自主營類目下所屬的商家層級

B. 用關聯規則算法分析出對護膚內容有興趣的用戶，是否對彩根據妝內容感興趣

C. 根據用戶最近購買的商品信息，用決策樹算法識別出用戶是男是女

D. 根據商家近幾年的成交數據，用聚類算法擬合用戶未來一個月可能的消費金額公式  （聚類時無監督聚類算法，應該用迴歸）

4. 用算法攔截可疑筆記，描述攔截的筆記中有多少是真的可疑筆記是準確率

解釋：在預測爲可疑筆記中有多少是真的可疑！

5. 【查幾種檢驗方法】當總體分佈未知的情況下，可以採用以下哪種檢驗方法？ D

A. T檢驗 （F檢驗可以判斷是否齊方差，T檢驗則需要根據是否齊方差決定使用T檢驗還是T'檢驗）

B. 方差分析

C. F檢驗

D. KS檢驗

6. 在做數據分析中，如何處理異常或是缺失數據，請選擇一下你認爲正確的答案D

不處理

刪除元組

數據補齊

以上全對

7. 下列哪一項不是描述連續變量的 ABC

二項分佈

泊松分佈

超幾何分佈

正態分佈  （連續變量的描述）

離散變量的概率分佈，常用的有二項分佈、泊松(Poisson)分佈。其餘的還有兩點分佈、幾何分佈、超幾何分佈等概率分佈。

8. 下列關於相關係數的說法，正確的是 AC

A. 相關係數的數值越大，說明兩個變量之間的相關程度越高

B.若相關係數r=0，則表明兩個變量之間不存在任何相關關係 (R=0只是表示無線性相關，也可能存在非線性相關 )

C. 若相關係數>0，則稱兩個變量正相關；若相關係數<0，則稱兩個變量負相關

D. 相關係數取值範圍是(-1,1)

9. 如下SQL建表語句：
create table goods_info(goods_id INT primary key， goods_name char(8) not null，category char(20)，amount INT)，那麼可以插入到該表中的數據是？AD

(1234, '口紅', ‘化妝品’, 5)

(NULL, '口紅', 化妝品, '5')

('1234', NULL, NULL, '5')

(1234, '口紅', NULL, NULL)

10. 已知一個家庭有兩個小孩，且已知家中至少有一個男孩，則家中至少有一個女孩的概率是1(填分數) 2/3

解釋：

B: (Boy)；G: 女(Girl)

BB: 1/4 ; GG: 1/4 ; BG: 1/4 ; GB: 1/4;

已知GG不可能，因此 (BG + GB) / (BB + BG + GB) = 2/3

11. having、where、group by語句同時出現在一段sql代碼中，那麼他們正確的出現的順序是where——group by ——having

12. 某地區居民以同樣多的人民幣，2006年比2005年少購買5%的商品，則該地的物價上漲了1%(保留一位小數) 5.3%

假設錢爲x,去年買了m數量，今年則買了m(1-5%)數量；則單價上漲: $\frac{x}{m(1-0.05))}-\frac{x}{m}=\frac{x}{m}*(\frac{100}{95}-\frac{100}{100})=0.053*\frac{x}{m}$

問答題：

需求：當前希望分析產品上線兩週後，頁面的使用人羣特點（年齡、性別、城市）和頁面上不同入口點擊率（頁面上各種按鈕、超鏈接等等的點擊次數/頁面訪問次數）的關係。

拿到的數據格式爲csv格式，每行數據包括：用戶操作時間、用戶id、用戶對應的信息（好幾列，年齡、性別、城市）、操作行爲（訪問、點擊）、被操作模塊名稱（訪問行爲此列爲空，點擊行爲此列爲被點擊入口的名稱），示例如下

任務：對過去兩週產品的使用人羣特點和入口點擊率進行描述和可視化作圖，說明上兩週的現狀情況。要求：從整體角度描述提到兩個指標的變動情況；將不同入口點擊率按照人羣特點進行劃分，描述不同人羣的入口點擊偏好、對某個入口點擊率的差異。

問題1：簡述一下拿到這個數據文件後你根據任務所規劃的處理步驟（畫圖or文字描述皆可，文字描述需要寫清步驟序號）。

問題2：列出你能夠使用以及知道了解的軟件名稱-對應功能名稱-用來處理什麼內容（功能名稱可以是程序包、具體某個包後插件下的function、使用的圖的類型名稱等），請把答案是屬於“掌握”（知道名字，輔以簡單查詢後可以自己做出來）還是“瞭解”（聽過這個名字，但沒有實踐應用過）分成兩個部分。

（舉例：掌握：excel-圖表-柱狀圖-作圖說明不同年齡羣有多少人）

我的回答：

1. 數據清洗，刪除或者填充確實值，對於不合理的數據進行篩選並處理。

2.對於使用人羣特點，主要是針對年齡、性別、城市這幾列數據進行統計分析：1）首先針對其中的某一特徵如年齡進行劃分group，然後對於剩下的兩組特徵，進行組合情況的分析，可以探討在不同年齡階段的(性別、城市)情況，2）或者根據城市進行數據的劃分group，然後組合剩下的特徵進行劃分，3）可以從上述情況中分析出，那一組特徵下的頻率屬於高頻率，進而針對性的加強優化！

3入口點擊率的分析：首先過濾掉所有操作行爲爲訪問的數據條，然後基於所有的'點擊'數據，進行操作對象的統計和分佈圖可視化，凸顯出頁面上所有按鈕的點擊率分佈，進而進行針對性的優化、全局分佈和引導資源的超鏈接。

別人貢獻：

首先進行數據預處理過程，進行必要的檢查，數據重複，缺失值，異常值等問題
分析人羣特點：可以按照總體特徵的分佈情況對人羣進行分類，總結人羣特點，比如按年齡或者城市分檔，也可以兩者結合起來作爲一個人羣特點進行分析。
入口點擊率：對總體入口點擊率進行趨勢分析；然後拆分計算入口點擊率，進行細分對比。可以結合人羣特點進行分析，挑出重點進行闡述。比如點擊率最高的集中是哪個年齡層的用戶，某個年齡層內最高的點擊率的操作對象是什麼，等等。
掌握：excel-圖表-柱狀圖、折線圖、甘特圖、雙層餅圖-作圖說明用戶年齡分層情況和點擊率的分佈情況
掌握：excel-數據透視表-（切片器）-通過數據透視表進行用戶年齡分佈和入口點擊率的分佈情況
掌握：python-matplotlib-hist-作圖說明用戶人羣特點的年齡、城市分佈情況

假設：浦東機場近日因車位緊張導致車流堵塞；爲了解決這個問題，領導打算擴建停車場並且讓你預估需要添加的車位數量。

1、請寫出你認爲需要的輔助數據

2、如果給你題1中你需要的數據，請闡述你如何使用這些數據預估車位數量。、

別人貢獻參考：

1.需要歷史訪問車次數據，訪問的時間，離開的時間+現有車位數量

統計平均每輛車停車時長t1

以t1作爲time interval統計平均每t1時間段內訪問車輛數量lambda

以t1作爲時間區間，每區間內訪問車輛數量爲k的概率P(k)滿足泊松分佈P(k) = exp(-lambda)*lambda^k/k!

此時，我們有，下一個時間段t1內訪問車次的數量爲k1的概率P(k1)，此時上一個時段進來的車輛已經開始陸續離開（平均停留時間t1）

因此，假如我們要求95%的概率不會出現擁堵，則可以讓p(k1) = 0.95 求出 k1。則k1 - 現有車位，就是我們要擴建的數量。

2019年第二批

1. 從含有N個元素的總體中抽取n個元素作爲樣本，使得總體中的每一個元素都有相同的機會（概率）被抽中，這樣的抽樣方式稱爲簡單隨機抽樣

解釋：

簡單隨機抽樣：對總體不做任何劃分，隨機抽取

分層抽樣：挑選對總體影響較大的特徵作爲分層依據，在每層中抽取一定比例的樣本，比如：抽取某小學學生的身高，可按照年紀劃分成6層，在每層中抽取一定比例的學生組成樣本。

系統抽樣：比如100個學生，給每個學生編號，平均分成5等分，每一份都選編號爲1，5，9的學生

整羣抽樣：100個學生分成4個羣，隨機選擇其中的2個羣，羣裏所有學生都要參與抽樣。

2. 一組數據，均值>中位數>衆數，則這組數據右偏態

解釋：（從小到大：衆中平：右）

左偏分佈（負偏態）中：mean（平均數)<median（中位數）<mode（衆數）

右偏分佈（正偏態）中：mode（衆數)<median（中位數）<mean（平均數）

左偏——正態分佈——右偏

3. 對一個特定情形的估計來說，置信水平越低，所對應的置信區間越小

解釋：

置信區間小，置信水平低(發生的概率越低)，但精度高，

置信區間大，置信水平高，精度低

4. 關於logistic迴歸算法，以下說法不正確的是 B （邏輯迴歸是一個二分類問題）

logistic迴歸是當前業界比較常用的算法，用於估計某種事物的可能性

B. logistic迴歸的目標變量可以是離散變量也可以是連續變量

logistic迴歸的結果並非數學定義中的概率值

logistic迴歸的自變量可以是離散變量也可以是連續變量 （工業界中我們通常將連續變量離散化再帶入logistic迴歸。 ）

5. 下列關於正態分佈，不正確的是C

正態分佈具有集中性和對稱性

期望是正態分佈的位置參數，描述正態分佈的集中趨勢位置

C 正態分佈是期望爲0，標準差爲1的分佈 （期望爲0，標準差爲1的是標準正態分佈 ）

正態分佈的期望、中位數、衆數相同

6. 以下關於關係的敘述中，正確的是（）。 B

表中某一列的數據類型可以同時是字符串，也可以是數字

B. 關係是一個由行與列組成的、能夠表達數據及數據之間聯繫的二維表

表中某一列的值可以取空值null，所謂空值是指安全可靠或零

表中必須有一列作爲主關鍵字，用來惟一標識一行

7. 想要了解一個地區人羣的一般收入水平，以下什麼指標不能使用？AE (有爭議，答案給的BE)

A. 方差

B. 幾何平均數

衆數

中位數

E. P值 (P值是假設檢驗中衡量顯著性的)

8. 以下屬於聚類算法的是 D

ARIMA

樸素貝葉斯

支持向量機

D. K-MEANS

9.樣本中各觀察值均加5後平均值、中值、衆數加5，但是標準差、方差不改變

10. 一批零件共10個，其中有3個不合格品，從中一個一個不放回取出，則第三次才取得不合格品的概率是1(填小數) 0.175

$\frac{7\times 6\times 3}{10\times 9\times 8}=0.175$

11. 某業務線的營業收入爲：200，220，250，300，320萬元，則平均增長量爲（）萬元 30

平均增長量 = （末段值-首段值）/ 時間差 (320-200)/4=30

12.

請寫sql語句：

想要了解班級內同學的考試情況，現有一張成績表表名爲A，每行都包含以下內容（已知表中沒有重複內容，但所有的考試結果都錄入在了同一張表中，一個同學會有多條考試結果）：

student_id，course_name，score

現在需要知道：

1. 每門課程得到成績的同學人數

2. 每門課程的平均成績

3. 如果對於每門課程來說，60分以下爲不及格，高於60爲及格，統計每門課程及格和不及格的人數

1.2. 
select 
    course_name 
    ,count(distinct student_id) as student_num
    ,avg(score) as avg_score
from A 
group by 1 

3. 
select 
    course_name
    ,case when score < 60 then '不及格'
        else '及格' end as level
    ,count(student_id) as student_num
from A 
group by 1,2

13. 經一番研究後，我們開發出了一個新的商品詳情頁中'相關商品'模塊的算法，並且打算通過AB Test（50%用戶保留原先的算法邏輯爲控制組，50%用戶使用新的算法邏輯爲實驗組）來進行評估。假如你是此次實驗的數據分析師，請問你會怎麼評估控制組和實驗組的表現？請按重要性列出最重要的三個指標並給出你的分析過程。

參考：

1.相關商品的點擊率=相關商品鏈接點擊次數/當前頁面瀏覽次數

2.相關商品的購買率=購買行爲發生次數/相關商品瀏覽行爲次數

3.當前商品與相關商品一同購買的概率=共同購買/當前商品購買

考察大條知識點：需要複習

1 抽樣知識

2 偏態(左偏態右偏態：衆中平)的集中趨勢反映用：中值；正態分佈的衆數=平均值=中值

3 P R F1

4 檢驗方法（T檢驗 F檢驗 KS檢驗方差分析）

5 數據預處理

6 離散變量連續變量及其常用的分佈；離散：二項+泊松+幾何+超幾何連續：正態分佈

7 相關係數

8 置信區間置信度

9 邏輯迴歸（二分類模型，輸出一定是離散的，但輸入可離散可連續）

10 SQL語句

數據分析筆試題【小紅書 2019】

杭州的 IT 崩盤了麼？

開源高性能結構化日誌模塊NanoLog

Python 潮流週刊#55：分享 9 個高質量的技術類信息源！

Azure Virtual Network (22) 多訂閱使用Azure DNS解析問題 Windows Azure Platform 系列文章目錄

【簡寫Mybatis-02】註冊機的實現以及SqlSession處理

手繪二維碼

.NET藉助虛擬網卡實現一個簡單異地組網工具

python-tensorflow框架學習 -1

python-tensorflow框架學習 -3

python-tensorflow框架學習 -2

20191223-20191227風險指標的學習總結

淺談mysql與Redis關係

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結