後續技術類文檔更新到微信公衆號-------->>喜歡的掃碼關注

基本知識點的梳理

一. python 的基本功

簡述python的特點和優點；
python 是一門開源的解釋性語言，相比於Java C++， python具有動態的特性，非常的靈活。
python有那些數據類型：
python有六種內置的數據類型，其中不可變得數據類型有：int整數，str字符串，tupel元組，可變的數據類型；dict字典，list列表，set集合。
列表和元組得區別：
列表和元組都是可迭代對象，能夠對其進行循環，切片等，但是元組tuple是不可變得，元組不可變的特性使得他可以成爲字典中得鍵。
python是如何運行得：
Cpython：
python程序運行得時候會先進行編譯，將.py中代碼編譯成字節碼，編譯之後的結果存儲再pycodeobject中，然後由python虛擬機解釋運行，當程序運行結束之後，python解釋器會將pycodeobject保存在pyc文件中，每一次運行的時候python都會尋找與文件同名的pyc文件，如果pyc存在則比對修改記錄，根據修改記錄決定直接運行或者再次編譯後運行，最後生成pyc文件
python運行速度慢的原因：
a. python不是強類型的語言，所以解釋器運行遇到遇到變量以及數據類型的轉換，比較操作引用變量的時候都要檢查其數據類型。
b. python 的編譯器啓動速度比java快，但是幾乎每次都要啓動編譯
c. python的對象模型會導致訪問內存的效率變低。Numpy的指針指向緩存區數據的值，而python的指針指向緩存的對象，再通過緩存對象指向數據。
面對python慢的問題又什麼解決辦法？
a。可以使用其他的解釋器，比如pypy和jython等。
b。如果對性能要求較高且靜態類型變量較多的應用程序。可以使用Cpython。
c。對於IO操作多的程序，python提供asyncio模塊提高異步能力。
描述下全局解釋器鎖GIL:
每個線程執行的時候都需要先獲取GIL解釋器鎖GIL，保證同一時刻只有一個線程可以執行代碼，即同一時刻只有一個線程在使用CPU也就是說多線程並不是真真意義上的同時執行，但是在IO操作的時候，是可以釋放鎖的，（這也是python能夠異步的原因），而且如果想要利用多核CPU，那麼可以使用多進程。
深拷貝和淺拷貝：
深拷貝是將對象本身複製給另外一個對象，淺拷貝則是將對象的引用複製給另一個對象。所以當複製後的對象改變的時候，深拷貝的原對象值不會改變，而淺拷貝的原對象值會改變。
is 和 == 的區別
is表示的是對象的標籤，用id值來判斷。而 = = 表示的是相等，用值來判斷。
is的作用就是來檢查對象的標籤是否一致，也就是比較兩個對象在內存中的地址id是否一樣，而 = = 是用來檢查兩個對象是否相等，但是爲了提高系統的性能，對於較小的字符串python會保留其值的一個副本，當創建新的字符串的時候直接指向該副本即可：

a=8
b=8
a is b

文件的讀寫：
簡述文件讀取時 read， readline，readlines的區別和作用：
他們的區別除了除了讀取的類容的範圍不同以外，返回的類容類型也不同：
read()會讀取整個文件，將讀取到底的文件類容放到一個字符串變量，返回str類型。
readline()讀取一行類容，放到一個字符串變量，返回str’類型；
readlines()讀取文件的所有類容按行爲單位放到一個列表中，返回list類型

11、請用一行代碼實現
請分別使用匿名函數和推導式這兩種方式將 [0, 1, 2, 3, 4, 5] 中的元素求乘積，並打印輸出元組。
print(tuple(map(lambda x: x * x, [0, 1, 2, 3, 4, 5])))

print(tuple(i*i for i in [0, 1, 2, 3, 4, 5]))

12、請用一行代碼實現
用 reduce 計算 n 的階乘（n!=1×2×3×…×n）
print(reduce(lambda x, y: xy, range(1, n)))
13、請用一行代碼實現
篩選並打印輸出 100 以內能被 3 整除的數的集合
print(set(filter(lambda n: n % 3 == 0, range(1, 100))))
14、請用一行代碼實現
text = ‘Obj{“Name”: “pic”, “data”: [{“name”: “async”, “number”: 9, “price”: “$3500”}, {“name”: “Wade”, “number”: 3, “price”: “$5500”}], “Team”: “Hot”’
打印文本中的球員身價元組，如 ($3500, $5500)
print(tuple(i.get(“price”) for i in json.loads(re.search(r’[(.)]’, text).group(0))))
15、請寫出遞歸的基本骨架
def recursions(n):
if n == 1:
# 退出條件
return 1
# 繼續遞歸
return n * recursions(n - 1)
16、切片
請寫出下方輸出結果
tpl = [0, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95]

print(tpl[3:])
print(tpl[:3])
print(tpl[::5])
print(tpl[-3])
print(tpl[3])
print(tpl[::-5])
print(tpl[:])
del tpl[3:]
print(tpl)
print(tpl.pop())
tpl.insert(3, 3)
print(tpl)

[15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95]
[0, 5, 10]
[0, 25, 50, 75]
85
15
[95, 70, 45, 20]
[0, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95]
[0, 5, 10]
10
[0, 5, 3]
17、文件路徑
打印輸出當前文件所在目錄路徑
import os
print(os.path.dirname(os.path.abspath(file)))
打印輸出當前文件路徑
import os
print(os.path.abspath(file))
打印輸出當前文件上兩層文件目錄路徑
import os
print(os.path.dirname(os.path.dirname(os.path.abspath(file))))
18、請寫出運行結果，並回答問題
tpl = (1, 2, 3, 4, 5)
apl = (6, 7, 8, 9)
print(tpl.add(apl))
問題：tpl 的值發生變化了嗎？

運行結果如下：
(1, 2, 3, 4, 5, 6, 7, 8, 9)
答：元組是不可變的，它是生成新的對象

19、請寫出運行結果，並回答問題
name = (‘James’, ‘Wade’, ‘Kobe’)
team = [‘A’, ‘B’, ‘C’]

tpl = {name: team}
print(tpl)
apl = {team: name}
print(apl)
問題：這段代碼能運行完畢嗎？爲什麼？它的運行結果是？

答：這段代碼不能完整運行，它會在 apl 處拋出異常，因爲字典的鍵只能是不可變對象，而 list 是可變的，所以不能作爲字典的鍵。運行結果是：
{(‘James’, ‘Wade’, ‘Kobe’): [‘A’, ‘B’, ‘C’]}
TypeError
20、裝飾器
請寫出裝飾器代碼骨架
def log(func):
def wrapper(*args, **kw):
print(‘call %s():’ % func.name)
return func(*args, **kw)
return wrapper
簡述裝飾器在 Python 中的作用：

在不改動原函數代碼的情況下，爲其增加新的功能。

21、多進程多線程
多進程更穩定還是多線程更穩定？爲什麼？

多進程更穩定，它們是獨立運行的，不會因爲一個崩潰而影響其他進程。

多線程的致命缺點是什麼？

因爲所有線程共享進程的內存，所以任何一個線程掛掉都可能直接造成整個進程崩潰。

進程間通信有哪些方式？

共享變量、隊列、管道。

二、Python 細節問題

1、連接字符串用join還是+

當用操作符+連接字符串的時候，每執行一次+都會申請一塊新的內存，然後複製上一個+操作的結果和本次操作的右操作符到這塊內存空間，因此用+連接字符串的時候會涉及好幾次內存申請和複製。而join在連接字符串的時候，會先計算需要多大的內存存放結果，然後一次性申請所需內存並將字符串複製過去，這是爲什麼join的性能優於+的原因。所以在連接字符串數組的時候，應考慮優先使用join。

2、Python 垃圾回收機制
參考 https://blog.csdn.net/xiongchengluo1129/article/details/80462651

Python中的垃圾回收是以引用計數爲主，分代收集爲輔。引用計數的缺陷是循環引用的問題。

在Python中，如果一個對象的引用數爲0，Python虛擬機就會回收這個對象的內存。

引用計數法的原理是每個對象維護一個ob_refcnt，用來記錄當前對象被引用的次數，也就是來追蹤到底有多少引用指向了這個對象，當對象被創建、對象被引用、對象被傳入函數、被存儲在容器中等四種情況時，該對象的引用計數器 +1

對象被創建 a=14
對象被引用 b=a
對象被作爲參數,傳到函數中 func(a)
對象作爲一個元素，存儲在容器中 List={a,”a”,”b”,2}
與上述情況相對應，當發生對象別名被 del 銷燬時、對象的引用被賦予新對象時、漢書執行完畢後、從容器中刪除時等四種情況，該對象的引用計數器-1

當該對象的別名被顯式銷燬時 del a
當該對象的引別名被賦予新的對象， a=26
一個對象離開它的作用域，例如 func函數執行完畢時，函數裏面的局部變量的引用計數器就會 -1（但是全局變量不會）。
將該元素從容器中刪除時，或者容器被銷燬時。
當指向該對象的內存的引用計數器爲0的時候，該內存將會被Python虛擬機釋放.

sys.getrefcount(a)可以查看 a 對象的引用計數，但是比正常計數大1，因爲調用函數的時候傳入a，這會讓 a 的引用計數+1

引用計數的優點:

1、高效
2、運行期沒有停頓：一旦沒有引用，內存就直接釋放了。不用像其他機制等到特定時機。實時性還帶來一個好處：處理回收內存的時間分攤到了平時。
3、對象有確定的生命週期
4、易於實現

引用計數的缺點:

1、維護引用計數消耗資源，維護引用計數的次數和引用賦值成正比，而不像mark and sweep等基本與回收的內存數量有關。
2、無法解決循環引用的問題。A和B相互引用而再沒有外部引用A與B中的任何一個，它們的引用計數都爲1，但顯然應該被回收。

循環引用示例

list1 = []
list2 = []
list1.append(list2)
list2.append(list1)
爲了解決這兩個缺點 Python 還引入了另外的機制:標記清除和分代回收.

標記清除

『標記清除（Mark—Sweep）』算法是一種基於追蹤回收（tracing GC）技術實現的垃圾回收算法。它分爲兩個階段：第一階段是標記階段，GC會把所有的『活動對象』打上標記，第二階段是把那些沒有標記的對象『非活動對象』進行回收。那麼GC又是如何判斷哪些是活動對象哪些是非活動對象的呢？

對象之間通過引用（指針）連在一起，構成一個有向圖，對象構成這個有向圖的節點，而引用關係構成這個有向圖的邊。從根對象（root object）出發，沿着有向邊遍歷對象，可達的（reachable）對象標記爲活動對象，不可達的對象就是要被清除的非活動對象。根對象就是全局變量、調用棧、寄存器。

在上圖中，我們把小黑圈視爲全局變量，也就是把它作爲root object，從小黑圈出發，對象1可直達，那麼它將被標記，對象2、3可間接到達也會被標記，而4和5不可達，那麼1、2、3就是活動對象，4和5是非活動對象會被GC回收。

標記清除算法作爲Python的輔助垃圾收集技術主要處理的是一些容器對象，比如list、dict、tuple，instance等，因爲對於字符串、數值對象是不可能造成循環引用問題。

Python使用一個雙向鏈表將這些容器對象組織起來。不過，這種簡單粗暴的標記清除算法也有明顯的缺點：清除非活動的對象前它必須順序掃描整個堆內存，哪怕只剩下小部分活動對象也要掃描所有對象。

分代回收

分代回收同樣作爲Python的輔助垃圾收集技術處理那些容器對象。

GC 的邏輯
分配內存
-> 發現超過閾值了
-> 觸發垃圾回收
-> 將所有可收集對象鏈表放到一起
-> 遍歷, 計算有效引用計數
-> 分成有效引用計數=0 和有效引用計數 > 0 兩個集合
-> 大於0的, 放入到更老一代
-> =0的, 執行回收
-> 回收遍歷容器內的各個元素, 減掉對應元素引用計數(破掉循環引用)
-> 執行-1的邏輯, 若發現對象引用計數=0, 觸發內存回收
-> python底層內存管理機制回收內存
Python 中, 一個代就是一個鏈表, 所有屬於同一”代”的內存塊都鏈接在同一個鏈表中用來表示“代”的結構體是 gc_generation，包括了當前代鏈表表頭、對象數量上限、當前對象數量。

Python默認定義了三代對象集合，索引數越大，對象存活時間越長，新生成的對象會被加入第0代，前面_PyObject_GC_Malloc中省略的部分就是Python GC觸發的時機。每新生成一個對象都會檢查第0代有沒有滿，如果滿了就開始着手進行垃圾回收。

分代回收是一種以空間換時間的操作方式，Python將內存根據對象的存活時間劃分爲不同的集合，每個集合稱爲一個代，Python將內存分爲了3“代”，分別爲年輕代（第0代）、中年代（第1代）、老年代（第2代），他們對應的是3個鏈表，它們的垃圾收集頻率與對象的存活時間的增大而減小。新創建的對象都會分配在年輕代，年輕代鏈表的總數達到上限時，Python垃圾收集機制就會被觸發，把那些可以被回收的對象回收掉，而那些不會回收的對象就會被移到中年代去，依此類推，老年代中的對象是存活時間最久的對象，甚至是存活於整個系統的生命週期內。同時，分代回收是建立在標記清除技術基礎之上。

3、遞歸
Python 遞歸深度默認是多少？遞歸深度限制的原因是什麼？

Python 遞歸深度可以用內置函數庫中的 sys.getrecursionlimit() 查看。
因爲無限遞歸會導致的 C 堆棧溢出和 Python 崩潰。

爬蟲基本功---面試寶典

後續技術類文檔更新到微信公衆號-------->>喜歡的掃碼關注

基本知識點的梳理

一. python 的基本功

循環引用示例

萬維網基礎知識總結

Mongodb 數據庫

bloom布隆過濾器

簡單概括一些所謂的測試

爬蟲基本功---面試寶典

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結