一段價值2.4萬的Python代碼

上週行哥發了一篇文章,在裏面用遊戲案例分析了一下“我們爲什麼這麼窮?”,可謂字字珠璣,每一個遊戲案例的觀點都深入人心

但是有個小夥伴在羣裏問,有沒有什麼一夜暴富的方法,這讓行哥難以回答,畢竟遊戲裏的結論是前期積累了資源,就很難再變窮。對應我們的生活世界則是如果有上一代有力的資源支持,也很難變窮。

這麼想的話,如果上一代沒有給予有力的支持,那麼最快的暴富方法莫不是

理智很快敲醒了我,在這個該奮鬥的年紀,是真的找不到富婆。。。。

爲了解答這位行友,行哥隨意在網上搜索了一下,就發現一個小小的商機,希望能給這位行友一些啓發

某寶的萬能是公認的,也充滿了很多零成本的生意。比如我們用掌握的Python語言給別人提供服務,就近乎零成本(只消耗電費和頭髮)。這不,淘寶上一個小小的PDF轉換就有20000人收貨,按照掛牌價格計算,價值24000元。如果我們掌握了零成本的轉換方法,那麼一臺頂配外星人是不是到手了。。。

![](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9pbWdrci5jbi1iai51ZmlsZW9zLmNvbS9jZThjMDIwYy1lZjdjLTQ4Y2MtODY5OS1hZDY1MTZkNzQwNWYucG5n?x-oss-process=image/format,png想想在這裏插入圖片描述就激動,行哥使用了0.0001秒把我之前做過的案例拿出來曬一曬

現在的pdf主要有兩種,一種可複製型pdf,這種pdf轉換比較簡單,直接使用python的pdfminer工具包就可以完成pdf轉word、ppt、excel,文件處理不要太方便

另一種是圖片型pdf,這種pdf轉換比較複雜。上古時代最常用的轉換方法就是手打,經過嚴格訓練的打字員,一天內可以轉換上百頁pdf,不要問行哥是怎麼知道的,只是那時候兼職還沒有淘寶刷單這回事。後來人工智能火起來,使用OCR+深度學習的技術,圖片內識別文字分分鐘,雖然速度提升起來但是目前來看大部分轉換的準確率還是不如訓練有素的打字員。

複製型pdf

這裏是將pdf轉成word的核心代碼,主要使用pdfminer工具包對pdf文件拆分,然後依次轉成文本,再拼接和保存文件。一共34行代碼,算下來每行代碼豈不是價值705元,一種學到就是賺到的感覺。

def main():
    fn = open(file_name, 'rb')
    parser = PDFParser(fn)
    doc = PDFDocument()
    parser.set_document(doc)
    doc.set_parser(parser)
    resource = PDFResourceManager()
    laparams = LAParams()
    device = PDFPageAggregator(resource, laparams=laparams)
    interpreter = PDFPageInterpreter(resource, device)
    for i in doc.get_pages():
        interpreter.process_page(i)
        layout = device.get_result()
        for out in layout:
            if hasattr(out, "get_text"):
                content = out.get_text().replace(u'\xa0', u' ')
                document.add_paragraph(
                    content, style='ListBullet'
                )
            document.save('a' + '.docx')
    print('處理完成')

完整代碼可以點擊閱讀全文在行哥免費的知識星球裏下載,或者在公衆號的後臺回覆【一行05】就可以獲得

圖片型pdf

圖片型pdf轉發可是各家廠商的核心機密,雖然後臺也可能包含了訓練有素的打字員。目前公開用法是利用tesseract-ocr工具包進行光學文字識別。行哥當年實習也開發過這種版本,對於比較規整字體的轉換質量還是蠻高的。
在這裏插入圖片描述

如果遇到非常雜亂的格式和字體,這需要大量的數據集去訓練和識別。必要的時候可以使用百度提供api來進行轉換,百度被稱爲中國AI的黃埔軍校,那轉換質量是非常高的。

知乎解決答案

正好昨天看到知乎也上熱搜了,裏面也提供了很多免費轉換的方法。

所以行哥悄咪咪的使用上次分享的知乎爬蟲軟件自動爬取了該問題下的所有答案,可惜沒有版權只能自己學習,只能讓各位行友去我知識星球裏或者後下載這款爬蟲工具

但是要知道里面無論提供網站和軟件,如果遇到大批量pdf文件轉換,都無法實現完完全全的永久免費或者自動化轉換,還需要自己手動一個個點點點點點。如果遇到這種重複勞動力,行哥還是建議使用代碼run一下就好。

行哥說兩句

無論Python還是Java等編程語言,都是一個生產力工具。生產力工具能夠產生價值,關鍵就看我們是如何用這個生產工具爲自己產生價值。行哥這裏有很多案例,我有故事,你有在看嗎?

另外,行哥小聲bb一下,下一個小賺錢的機會是“頭盔”。

在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章