原创 用Django自帶MySQL ORM操作外鍵前的正確修改方式

在給網站數據庫優化的過程中,需要給幾張表增加外鍵限制,方便管理員界面的聯表操作。 調研發現,網上提供的幾種models的配置都不能讓我的插入程序成功運行,在經過嘗試之後總結出了一個終極解決方案。 我的環境:Django==2.1.7,

原创 Transformers包tokenizer.encode()方法源碼閱讀筆記

1 引言 Hugging Face公司出的transformers包,能夠超級方便的引入預訓練模型,BERT、ALBERT、GPT2… tokenizer = BertTokenizer.from_pretrained

原创 老闆讓我一週上線一個網站的一些記錄(下)

在我的上一篇博客寫了些在建站的過程中,阿里雲服務器的選擇,以及服務器環境配置時遇到的坑。 本篇打算分享一下在使用Django後的感受,以及搭建網站後臺管理員界面(admin.py)時遇到的問題。 1 Django使用後感受      

原创 講真,別再用win32com包來實現Word文檔轉PDF了

這幾天有件大爽事。 之前一直放在Django原生的服務器的網站,終於放到Apache上了。並不是配置多難,也不是我懶,問題出在了用win32com實現word轉pdf,我不能使用這個插件讀取word,一直返回None。 下面的代碼是w

原创 回溯法求解硬幣找零問題的Python實現與個人理解

我尋思着,不能只會暴力求解和動態規劃吧,所以看了一下回溯法。 本文以找零問題爲例,首先使用python進行實現,然後想講講個人對於這個算法的想法。  1 代碼 def backtracking_exchange(amount, de

原创 python爬蟲中使用Xpath方法定位a標籤中所有的子標籤的方法

老闆扔給了我一個陳年語料,讓我通過文章標題回原網址爬取一下對應的doi號,文章很好定位,但是在解析標題的時候遇到了問題,a標籤中混合了i、sub、sup標籤,在使用xpath時不能直接使用text方法獲取,所以在這裏記錄一下自己的解決方

原创 TF-IDF算法的Python語言實現

哈哈一晃就是一個學期。 開始使用python做一些小玩意,比如寫了爬蟲,寫了文本處理的小腳本(文本預處理,詞頻統計,實體抽取,,tfidf的計算……),但還是有點疑惑,爲什麼我所應用到python文本處理的程序,都沒有使用面向對象呢?這可

原创 動態規劃理解——以4道力扣題爲例

導師問我最近在家待得是不是有點“慫”了?害,今天,就盤一下一直弄不清楚的“動態規劃”吧。一點不慫,好吧!? 0 引言     動態規劃解法在程序員筆試中會經常被cue到,它爲什麼這麼火熱呢?可能是因爲“妙”吧。其短小精悍、化繁爲簡的特

原创 一週攻略Pytorch【Day1】——梳理“好看”的項目結構

一直喊着要學Pytorch,官網教程也看了但是就是覺得少了點什麼。畢竟“看完” != “學完”,還差了一點總結練習,藉着學校延期開學,決定用這一週的時間搞點“事情”,也算是對去年立下的flag的交代。用這一週的時間爭取出幾篇博客和大家分

原创 一段Js代碼限制網頁上傳文件大小、類型

搭建網站需要收集用戶提交的信息,限定用戶提交的文件大小不超過1MB,並且文件類型爲pdf。 雖然input 標籤中有文件類型的選項(如下代碼段,設定了傳入的是文件類型,設定可接受的爲pdf)。 <input type="file" ac

原创 Django自帶mysql orm操作插入外鍵的正確打開方式

在給網站數據庫優化的過程中,需要給幾張表增加外鍵限制,方便管理員界面的聯表操作。 調研發現,網上提供的幾種models的配置都不能讓我的插入程序成功運行,在經過嘗試之後總結出了一個終極解決方案。 我的環境:Django==2.1.7,

原创 對Python中lambda方法的理解——以詞典(dic)值(value)排序爲例

每次在任務中需要以詞典的值排序,我都會百度一下解決,巧的是每次解決之後,我都會說下次一定不百度。嗯,“真香”。所以趁着這次在家,抽出時間好好理解一下其中看起來最複雜的lambda部分,到底是幹什麼的。 1. 簡述lambda    

原创 解決pythoncom和win32com下docx文件轉化爲pdf文件過程中Word後臺進程無法關閉的問題

1 目的 筆者在python3.6環境下,想把一個word文檔轉化爲pdf文件。使用了以下的方式 from win32com import client import pythoncom doc2pdf(doc_path, filen

原创 老闆讓我一週上線一個網站的一些記錄(上)

本人IR方向情報學碩士一枚,記得上週二本是一個平靜的調參之夜,老闆突然來了電話讓我去找他一趟。到了辦公室之後,老闆說,我們最近發佈了一個數據集,需要搭個網站。正當我想問“哦?誰來搭呢”,我發現,老闆的眼裏,都是我…… 本文講講筆者在本個項

原创 一個正則表達式搞定http開頭的的url識別

正則表達式核心部分: (http|https):\/\/([\w.!@#$%^&*()_+-=])*\s* Python的實現: pattern = re.compile(r'(http|https):\/\/([\w.!@#$%^&