python爬蟲面試必看的常見問題與參考答案解析

@本文來源於公衆號：csdn2299，喜歡可以關注公衆號程序員學府
這篇文章主要介紹了python爬蟲面試必看的常見問題與參考答案,結合實例形式總結分析了Python爬蟲面試相關的Python基礎知識、概念、原理、算法及相關操作注意事項,需要的朋友可以參考下

先來一份完整的Python爬蟲工程師關於Python面試的考點：

搞定這套 Python 爬蟲面試題，Python面試 so easy

一、 Python 基本功

1、簡述Python 的特點和優點

Python 是一門開源的解釋性語言，相比 Java C++ 等語言，Python 具有動態特性，非常靈活。

2、Python 有哪些數據類型？

Python 有 6 種內置的數據類型，其中不可變數據類型是Number(數字), String(字符串), Tuple(元組)，可變數據類型是 List(列表)，Dict(字典)，Set(集合)。

3、列表和元組的區別

列表和元組都是可迭代對象，能夠對其進行循環、切片等，但元組 tuple 是不可變的。元組不可變的特性，使得它可以成爲字典 Dict 中的鍵。

4、Python 是如何運行的

CPython:

Python 程序運行時，會先進行編譯，將 .py 文件中的代碼編譯成字節碼(byte code)，編譯結果儲存在內存的 PyCodeObject 中，然後由 Python 虛擬機解釋運行。當程序運行結束後，Python 解釋器會將 PyCodeObject 保存到 pyc 文件中。每一次運行時 Python 都會先尋找與文件同名的 pyc 文件，如果 pyc 存在則比對修改記錄，根據修改記錄決定直接運行或再次編譯後運行，最後生成 pyc 文件。

5、Python 運行速度慢的原因

a). Python 不是強類型的語言，所以解釋器運行時遇到變量以及數據類型轉換、比較操作、引用變量時都需要檢查其數據類型。

b). Python 的編譯器啓動速度比 JAVA 快，但幾乎每次都要啓動編譯。

c). Python 的對象模型會導致訪問內存效率變低。Numpy 的指針指向緩存區數據的值，而 Python 的指針指向緩存對象，再通過緩存對象指向數據：

搞定這套 Python 爬蟲面試題，Python面試 so easy

6、面對 Python 慢的問題，有什麼解決辦法

a). 可以使用其他的解釋器，比如 PyPy 和 Jython 等。

b). 如果對性能要求較高且靜態類型變量較多的應用程序，可以使用 CPython。

c). 對於 IO 操作多的應用程序，Python 提供 asyncio 模塊提高異步能力。

7、描述一下全局解釋器鎖 GIL

U，也就是說多線程並不是真正意義上的同時執行。但是在 IO 操作時，是可以釋放鎖的（這也是 Python 能夠異步的原因）。而且如果想要利用多核 CPU，那麼可以使用多進程。

8、深拷貝淺拷貝

深拷貝是將對象本身複製給另一個對象，淺拷貝則是將對象的引用複製給另一個對象。所以當複製後的對象改變時，深拷貝的原對象值不會改變，而淺拷貝原對象的值會被改變。

9、is 和 == 的區別

is 表示的是對象標示符（object identity），而 == 表示的是相等（equality）。

is 的作用是用來檢查對象的標示符是否一致，也就是比較兩個對象在內存中的地址是否一樣，而 == 是用來檢查兩個對象是否相等。但是爲了提高系統性能，對於較小的字符串 Python 會保留其值的一個副本，當創建新的字符串的時候直接指向該副本即可。如：

a = 8
b = 8
a is b

10、文件讀寫

簡述文件讀取時 read 、readline、readlines 的區別和作用

他們的區別除了讀取內容範圍不同外，返回的內容類型也不同。

read()會讀取整個文件，將讀取到底的文件內容放到一個字符串變量，返回 str 類型。

readline()讀取一行內容，放到一個字符串變量，返回 str 類型。

readlines() 讀取文件所有內容，按行爲單位放到一個列表中，返回 list 類型。

11、請用一行代碼實現

請分別使用匿名函數和推導式這兩種方式將 [0, 1, 2, 3, 4, 5] 中的元素求乘積，並打印輸出元組。

print(tuple(map(lambda x: x * x, [0, 1, 2, 3, 4, 5])))
print(tuple(i*i for i in [0, 1, 2, 3, 4, 5]))

12、請用一行代碼實現

用 reduce 計算 n 的階乘（n!=1×2×3×…×n）

print(reduce(lambda x, y: x*y, range(1, n)))

13、請用一行代碼實現

篩選並打印輸出 100 以內能被 3 整除的數的集合

print(set(filter(lambda n: n % 3 == 0, range(1, 100))))

14、請用一行代碼實現

text = 'Obj{"Name": "pic", "data": [{"name": "async", "number": 9, "price": "$3500"}, {"name": "Wade", "number": 3, "price": "$5500"}], "Team": "Hot"'

打印文本中的球員身價元組，如 ($3500, $5500)

print(tuple(i.get("price") for i in json.loads(re.search(r'[(.*)]', text).group(0))))

15、請寫出遞歸的基本骨架

def recursions(n):
    if n == 1:

退出條件

return 1

繼續遞歸

return n * recursions(n - 1)

16、切片

請寫出下方輸出結果

tpl = [0, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95]
print(tpl[3:])
print(tpl[:3])
print(tpl[::5])
print(tpl[-3])
print(tpl[3])
print(tpl[::-5])
print(tpl[:])
del tpl[3:]
print(tpl)
print(tpl.pop())
tpl.insert(3, 3)
print(tpl)

[15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95]
[0, 5, 10]
[0, 25, 50, 75]
85
15
[95, 70, 45, 20]
[0, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95]
[0, 5, 10]
10
[0, 5, 3]

17、文件路徑

打印輸出當前文件所在目錄路徑

import os
print(os.path.dirname(os.path.abspath(file)))

打印輸出當前文件路徑

import os
print(os.path.abspath(file))

打印輸出當前文件上兩層文件目錄路徑

import os
print(os.path.dirname(os.path.dirname(os.path.abspath(file))))

18、請寫出運行結果，並回答問題

tpl = (1, 2, 3, 4, 5)
apl = (6, 7, 8, 9)
print(tpl.add(apl))

問題：tpl 的值發生變化了嗎？

運行結果如下：

(1, 2, 3, 4, 5, 6, 7, 8, 9)

答：元組是不可變的，它是生成新的對象

19、請寫出運行結果，並回答問題

name = ('James', 'Wade', 'Kobe')
team = ['A', 'B', 'C']
tpl = {name: team}
print(tpl)
apl = {team: name}
print(apl)

問題：這段代碼能運行完畢嗎？爲什麼？它的運行結果是？

答：這段代碼不能完整運行，它會在 apl 處拋出異常，因爲字典的鍵只能是不可變對象，而 list 是可變的，所以不能作爲字典的鍵。運行結果是：

{('James', 'Wade', 'Kobe'): ['A', 'B', 'C']}
TypeError

20、裝飾器

請寫出裝飾器代碼骨架

def log(func):
def wrapper(*args, **kw):
print('call %s():' % func.name)
return func(*args, **kw)
return wrapper

簡述裝飾器在 Python 中的作用：

在不改動原函數代碼的情況下，爲其增加新的功能。

21、多進程多線程

多進程更穩定還是多線程更穩定？爲什麼？

多進程更穩定，它們是獨立運行的，不會因爲一個崩潰而影響其他進程。

多線程的致命缺點是什麼？

因爲所有線程共享進程的內存，所以任何一個線程掛掉都可能直接造成整個進程崩潰。

進程間通信有哪些方式？

共享變量、隊列、管道。

二、Python 細節問題

1、連接字符串用join還是+

當用操作符+連接字符串的時候，每執行一次+都會申請一塊新的內存，然後複製上一個+操作的結果和本次操作的右操作符到這塊內存空間，因此用+連接字符串的時候會涉及好幾次內存申請和複製。而join在連接字符串的時候，會先計算需要多大的內存存放結果，然後一次性申請所需內存並將字符串複製過去，這是爲什麼join的性能優於+的原因。所以在連接字符串數組的時候，應考慮優先使用join。

2、Python 垃圾回收機制

Python中的垃圾回收是以引用計數爲主，分代收集爲輔。引用計數的缺陷是循環引用的問題。

在Python中，如果一個對象的引用數爲0，Python虛擬機就會回收這個對象的內存。

引用計數法的原理是每個對象維護一個ob_refcnt，用來記錄當前對象被引用的次數，也就是來追蹤到底有多少引用指向了這個對象，當對象被創建、對象被引用、對象被傳入函數、被存儲在容器中等四種情況時，該對象的引用計數器 +1

對象被創建 a=14

對象被引用 b=a

對象被作爲參數,傳到函數中 func(a)

對象作爲一個元素，存儲在容器中 List={a,“a”,“b”,2}

與上述情況相對應，當發生對象別名被 del 銷燬時、對象的引用被賦予新對象時、漢書執行完畢後、從容器中刪除時等四種情況，該對象的引用計數器-1

當該對象的別名被顯式銷燬時 del a

當該對象的引別名被賦予新的對象， a=26

一個對象離開它的作用域，例如 func函數執行完畢時，函數裏面的局部變量的引用計數器就會 -1（但是全局變量不會）。

將該元素從容器中刪除時，或者容器被銷燬時。

當指向該對象的內存的引用計數器爲0的時候，該內存將會被Python虛擬機釋放.

sys.getrefcount(a)可以查看 a 對象的引用計數，但是比正常計數大1，因爲調用函數的時候傳入a，這會讓 a 的引用計數+1

引用計數的優點:

1、高效

2、運行期沒有停頓：一旦沒有引用，內存就直接釋放了。不用像其他機制等到特定時機。實時性還帶來一個好處：處理回收內存的時間分攤到了平時。

3、對象有確定的生命週期

4、易於實現

引用計數的缺點:

1、維護引用計數消耗資源，維護引用計數的次數和引用賦值成正比，而不像mark and sweep等基本與回收的內存數量有關。

2、無法解決循環引用的問題。A和B相互引用而再沒有外部引用A與B中的任何一個，它們的引用計數都爲1，但顯然應該被回收。

循環引用示例

list1 = []
list2 = []
list1.append(list2)
list2.append(list1)

爲了解決這兩個缺點 Python 還引入了另外的機制:標記清除和分代回收.

標記清除
『標記清除（Mark—Sweep）』算法是一種基於追蹤回收（tracing GC）技術實現的垃圾回收算法。它分爲兩個階段：第一階段是標記階段，GC會把所有的『活動對象』打上標記，第二階段是把那些沒有標記的對象『非活動對象』進行回收。那麼GC又是如何判斷哪些是活動對象哪些是非活動對象的呢？

對象之間通過引用（指針）連在一起，構成一個有向圖，對象構成這個有向圖的節點，而引用關係構成這個有向圖的邊。從根對象（root object）出發，沿着有向邊遍歷對象，可達的（reachable）對象標記爲活動對象，不可達的對象就是要被清除的非活動對象。根對象就是全局變量、調用棧、寄存器。

搞定這套 Python 爬蟲面試題，Python面試 so easy

在上圖中，我們把小黑圈視爲全局變量，也就是把它作爲root object，從小黑圈出發，對象1可直達，那麼它將被標記，對象2、3可間接到達也會被標記，而4和5不可達，那麼1、2、3就是活動對象，4和5是非活動對象會被GC回收。

標記清除算法作爲Python的輔助垃圾收集技術主要處理的是一些容器對象，比如list、dict、tuple，instance等，因爲對於字符串、數值對象是不可能造成循環引用問題。

Python使用一個雙向鏈表將這些容器對象組織起來。不過，這種簡單粗暴的標記清除算法也有明顯的缺點：清除非活動的對象前它必須順序掃描整個堆內存，哪怕只剩下小部分活動對象也要掃描所有對象。

分代回收
分代回收同樣作爲Python的輔助垃圾收集技術處理那些容器對象。

GC 的邏輯

分配內存
-> 發現超過閾值了
-> 觸發垃圾回收
-> 將所有可收集對象鏈表放到一起
-> 遍歷, 計算有效引用計數
-> 分成有效引用計數=0 和有效引用計數 > 0 兩個集合
-> 大於0的, 放入到更老一代
-> =0的, 執行回收
-> 回收遍歷容器內的各個元素, 減掉對應元素引用計數(破掉循環引用)
-> 執行-1的邏輯, 若發現對象引用計數=0, 觸發內存回收
-> python底層內存管理機制回收內存
Python 中, 一個代就是一個鏈表, 所有屬於同一"代"的內存塊都鏈接在同一個鏈表中用來表示"代"的結構體是 gc_generation，包括了當前代鏈表表頭、對象數量上限、當前對象數量。

Python默認定義了三代對象集合，索引數越大，對象存活時間越長，新生成的對象會被加入第0代，前面_PyObject_GC_Malloc中省略的部分就是Python GC觸發的時機。每新生成一個對象都會檢查第0代有沒有滿，如果滿了就開始着手進行垃圾回收。

分代回收是一種以空間換時間的操作方式，Python將內存根據對象的存活時間劃分爲不同的集合，每個集合稱爲一個代，Python將內存分爲了3"代"，分別爲年輕代（第0代）、中年代（第1代）、老年代（第2代），他們對應的是3個鏈表，它們的垃圾收集頻率與對象的存活時間的增大而減小。新創建的對象都會分配在年輕代，年輕代鏈表的總數達到上限時，Python垃圾收集機制就會被觸發，把那些可以被回收的對象回收掉，而那些不會回收的對象就會被移到中年代去，依此類推，老年代中的對象是存活時間最久的對象，甚至是存活於整個系統的生命週期內。同時，分代回收是建立在標記清除技術基礎之上。

3、遞歸

Python 遞歸深度默認是多少？遞歸深度限制的原因是什麼？

Python 遞歸深度可以用內置函數庫中的 sys.getrecursionlimit() 查看。

因爲無限遞歸會導致的 C 堆棧溢出和 Python 崩潰。
非常感謝你的閱讀
大學的時候選擇了自學python，工作了發現吃了計算機基礎不好的虧，學歷不行這是

沒辦法的事，只能後天彌補，於是在編碼之外開啓了自己的逆襲之路，不斷的學習python核心知識，深

入的研習計算機基礎知識，整理好了，我放在我們的微信公衆號《程序員學府》，如果你也不甘平庸，

那就與我一起在編碼之外，不斷成長吧！

其實這裏不僅有技術，更有那些技術之外的東西，比如，如何

做一個精緻的程序員，而不是“屌絲”，程序員本身就是高貴的一種存在啊，難道不是嗎？點擊加入
想做你自己想成爲高尚人，加油！

python爬蟲面試必看的常見問題與參考答案解析

文章目錄

一、 Python 基本功

1、簡述Python 的特點和優點

2、Python 有哪些數據類型？

3、列表和元組的區別

4、Python 是如何運行的

5、Python 運行速度慢的原因

6、面對 Python 慢的問題，有什麼解決辦法

7、描述一下全局解釋器鎖 GIL

8、深拷貝淺拷貝

9、is 和 == 的區別

10、文件讀寫

11、請用一行代碼實現

12、請用一行代碼實現

13、請用一行代碼實現

14、請用一行代碼實現

15、請寫出遞歸的基本骨架

16、切片

17、文件路徑

19、請寫出運行結果，並回答問題

20、裝飾器

21、多進程多線程

二、Python 細節問題

1、連接字符串用join還是+

2、Python 垃圾回收機制

3、遞歸

python實戰技能：使用IronPython把Python腳本集成到.NET程序中的教程

Python實現PS濾鏡Fish lens圖像扭曲效果示例

python時間日期函數與利用pandas進行時間序列處理詳解

python日常實用技能：使用python將大量數據導出到Excel中的

Python程序員開發中常犯的10個錯誤

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

python爬蟲面試必看的常見問題與參考答案解析

文章目錄

一、 Python 基本功

1、簡述Python 的特點和優點

2、Python 有哪些數據類型？

3、列表和元組的區別

4、Python 是如何運行的

5、Python 運行速度慢的原因

6、面對 Python 慢的問題，有什麼解決辦法

7、描述一下全局解釋器鎖 GIL

8、深拷貝 淺拷貝

9、is 和 == 的區別

10、文件讀寫

11、請用一行代碼實現

12、請用一行代碼實現

13、請用一行代碼實現

14、請用一行代碼實現

15、請寫出遞歸的基本骨架

16、切片

17、文件路徑

19、請寫出運行結果，並回答問題

20、裝飾器

21、多進程 多線程

二、Python 細節問題

1、 連接字符串用join還是+

2、Python 垃圾回收機制

3、遞歸

8、深拷貝淺拷貝

21、多進程多線程

1、連接字符串用join還是+