機器學習週刊第五期:一個離譜的數據可視化Python庫、可交互式動畫學概率統計、機器學習最全文檔、快速部署機器學習應用的開源項目、Redis 之父的最新文章

date: 2024/01/08


這個網站用可視化的方式講解概率和統計基礎知識,很多內容還是可交互的,非常生動形象。

大家好,歡迎收看第五期機器學習週刊

本期介紹7個內容,涉及Python、概率統計、機器學習、大模型等,目錄如下:

  • 一個離譜的Python庫
  • 看見概率,看見統計
  • 2024機器學習最強文檔
  • Gradio
  • 頂級程序員如何使用LLM
  • TinyLlama
  • 微軟宣佈利用大型語言模型改進文本嵌入

1、一個離譜的Python庫

地址:https://www.visidata.org/docs/

pip3 install visidata

VisiData是一款免費的開源工具,可讓您在計算機終端中快速打開、探索、彙總和分析數據集。VisiData 可處理 CSV 文件、Excel 電子表格、SQL 數據庫和許多其他數據源。

界面如下所示:

甚至還能在命令行中做可視化,酷是真酷,就是看了半天不清楚有什麼使用場景。

2、看見概率,看見統計

地址:https://seeing-theory.brown.edu/basic-probability/cn.html

這個網站用可視化的方式講解概率和統計基礎知識,很多內容還是可交互的,非常生動形象。

章節目錄如下:

  • 基礎概率論
  • 進階概率論
  • 概率分佈
  • 統計推斷:頻率學派
  • 統計推斷:貝葉斯學派
  • 迴歸分析

3、2024機器學習最強文檔

地址:https://huggingface.co/tasks

HuggingFace這個頁面我願稱之爲機器學習最強文檔,囊括了各種機器學習任務,比如表格數據預測、NLP、機器視覺、音頻、多模態、強化學習等任務所需的全部內容(演示、用例、模型、數據集等等)

4、G𝚛𝚊𝚍𝚒𝚘

地址:https://www.gradio.app/

Gradio是一個可以快速部署機器學習應用的開源項目,我用它做過很多小工具。如果你第一次聽說gradio,強烈建議趕快用起來。最近它更新到了4.13版,完美兼容Python 3.12 。

5、Redis 之父的最新文章

地址:http://antirez.com/news/140

翻譯:https://blog.zhanglearning.com/posts/2024年初的LLMs與編程/

Redis 作者寫了篇文章,非常詳細地分享他在工作中使用 LLM 編程的體驗,我們可以一窺頂級程序員是如何使用大模型的。這篇文章很我讓ChatGPT提取了摘要,用Claude-2-100K完成了翻譯,我沒有做校對:

  • 在2023年,人工智能尤其是可以在設備上本地使用的LLMs取得了顯著的進步,作者廣泛利用這項技術來加速他的編程能力。
  • 起初,作者主要使用LLMs來處理文檔和避免在編程中的無聊/不感興趣的部分。然而,隨着時間的推移,他學會了何時使用LLMs最有幫助,以及何時它們可能會減慢他的速度。
  • LLMs在推理和插值方面的能力有限,它們不能超越它們被訓練的內容。雖然它們不能替代人類程序員,但如果適當使用,它們可以是有用的輔助工具。
  • 作者提供了幾個例子,展示了LLMs如何幫助他更快地編寫代碼,例如在框架之間切換、用一種不熟悉的語言編程,或分析他不完全理解的網絡輸出時。
  • 當任務雖然無聊但對作者的目標有用時,LLMs也適用於編寫一次性/臨時腳本。
  • 系統編程需要更強的推理能力,這通常是LLMs所缺乏的。作者提供了一個例子,其中LLMs在提供相關代碼時,仍然難以解釋一個低級別的數據格式。
  • 總之,LLMs最好被用作程序員的輔助工具而不是替代品。有了經驗,人們可以學習如何以及何時有效地利用它們來處理不同的編程任務。但它們的能力仍然有限,並且可能不會擴展到所有領域,比如系統編程。

6、TinyLlama

模型地址:https://huggingface.co/TinyLlama

TinyLlama 發佈1.0版本,1.1B 參數,基於3萬億 tokens 訓練,與 LLaMa 2 完全相同的架構和分詞器,
從他們的Github能看到完整的訓練過程。

7、微軟宣佈利用大型語言模型改進文本嵌入

論文: https://arxiv.org/pdf/2401.00368.pdf

最後推薦一篇微軟最近發佈的論文,介紹了一種新穎且簡單的方法,該方法不需要構建複雜的訓練管道或依賴於手動收集的數據集,僅使用合成數據和少於 1k 的訓練步驟即可獲得高質量的文本嵌入。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章