機器學習週刊第五期：一個離譜的數據可視化Python庫、可交互式動畫學概率統計、機器學習最全文檔、快速部署機器學習應用的開源項目、Redis 之父的最新文章

原創

2024-01-17 13:53

date: 2024/01/08

這個網站用可視化的方式講解概率和統計基礎知識，很多內容還是可交互的，非常生動形象。

大家好，歡迎收看第五期機器學習週刊

本期介紹7個內容，涉及Python、概率統計、機器學習、大模型等,目錄如下：

一個離譜的Python庫
看見概率，看見統計
2024機器學習最強文檔
Gradio
頂級程序員如何使用LLM
TinyLlama
微軟宣佈利用大型語言模型改進文本嵌入

1、一個離譜的Python庫

地址：https://www.visidata.org/docs/

pip3 install visidata

VisiData是一款免費的開源工具，可讓您在計算機終端中快速打開、探索、彙總和分析數據集。VisiData 可處理 CSV 文件、Excel 電子表格、SQL 數據庫和許多其他數據源。

界面如下所示：

甚至還能在命令行中做可視化，酷是真酷，就是看了半天不清楚有什麼使用場景。

2、看見概率，看見統計

地址：https://seeing-theory.brown.edu/basic-probability/cn.html

這個網站用可視化的方式講解概率和統計基礎知識，很多內容還是可交互的，非常生動形象。

章節目錄如下：

基礎概率論
進階概率論
概率分佈
統計推斷：頻率學派
統計推斷：貝葉斯學派
迴歸分析

3、2024機器學習最強文檔

地址：https://huggingface.co/tasks

HuggingFace這個頁面我願稱之爲機器學習最強文檔，囊括了各種機器學習任務，比如表格數據預測、NLP、機器視覺、音頻、多模態、強化學習等任務所需的全部內容（演示、用例、模型、數據集等等）

4、G𝚛𝚊𝚍𝚒𝚘

地址：https://www.gradio.app/

Gradio是一個可以快速部署機器學習應用的開源項目，我用它做過很多小工具。如果你第一次聽說gradio，強烈建議趕快用起來。最近它更新到了4.13版，完美兼容Python 3.12 。

5、Redis 之父的最新文章

地址：http://antirez.com/news/140

翻譯：https://blog.zhanglearning.com/posts/2024年初的LLMs與編程/

Redis 作者寫了篇文章，非常詳細地分享他在工作中使用 LLM 編程的體驗，我們可以一窺頂級程序員是如何使用大模型的。這篇文章很我讓ChatGPT提取了摘要，用Claude-2-100K完成了翻譯，我沒有做校對：

在2023年，人工智能尤其是可以在設備上本地使用的LLMs取得了顯著的進步，作者廣泛利用這項技術來加速他的編程能力。
起初，作者主要使用LLMs來處理文檔和避免在編程中的無聊/不感興趣的部分。然而，隨着時間的推移，他學會了何時使用LLMs最有幫助，以及何時它們可能會減慢他的速度。
LLMs在推理和插值方面的能力有限，它們不能超越它們被訓練的內容。雖然它們不能替代人類程序員，但如果適當使用，它們可以是有用的輔助工具。
作者提供了幾個例子，展示了LLMs如何幫助他更快地編寫代碼，例如在框架之間切換、用一種不熟悉的語言編程，或分析他不完全理解的網絡輸出時。
當任務雖然無聊但對作者的目標有用時，LLMs也適用於編寫一次性/臨時腳本。
系統編程需要更強的推理能力，這通常是LLMs所缺乏的。作者提供了一個例子，其中LLMs在提供相關代碼時，仍然難以解釋一個低級別的數據格式。
總之，LLMs最好被用作程序員的輔助工具而不是替代品。有了經驗，人們可以學習如何以及何時有效地利用它們來處理不同的編程任務。但它們的能力仍然有限，並且可能不會擴展到所有領域，比如系統編程。

6、TinyLlama

模型地址：https://huggingface.co/TinyLlama

TinyLlama 發佈1.0版本，1.1B 參數，基於3萬億 tokens 訓練，與 LLaMa 2 完全相同的架構和分詞器，
從他們的Github能看到完整的訓練過程。

7、微軟宣佈利用大型語言模型改進文本嵌入

論文： https://arxiv.org/pdf/2401.00368.pdf

最後推薦一篇微軟最近發佈的論文，介紹了一種新穎且簡單的方法，該方法不需要構建複雜的訓練管道或依賴於手動收集的數據集，僅使用合成數據和少於 1k 的訓練步驟即可獲得高質量的文本嵌入。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

機器學習週刊第五期：一個離譜的數據可視化Python庫、可交互式動畫學概率統計、機器學習最全文檔、快速部署機器學習應用的開源項目、Redis 之父的最新文章

1、一個離譜的Python庫

2、看見概率，看見統計

3、2024機器學習最強文檔

4、G𝚛𝚊𝚍𝚒𝚘

5、Redis 之父的最新文章

6、TinyLlama

7、微軟宣佈利用大型語言模型改進文本嵌入

《日本蠟燭圖》讀書筆記 & 技術分析回測

一分鐘部署 Llama3 中文大模型，沒別的，就是快

Python多線程編程深度探索：從入門到實戰

《期貨-市場技術分析》讀書筆記

mongodb處理json數據很好

ffmpeg 百度雲盤

頂級 Javaer 都在用的 20 個類庫，真香！

[轉帖]cpupower

google瀏覽器插件開發

35K*14 薪，入職了！這公司只要不裁員，我能一直呆下去！

機器學習週刊第五期：一個離譜的數據可視化Python庫、可交互式動畫學概率統計、機器學習最全文檔、快速部署機器學習應用的開源項目、Redis 之父的最新文章

機器學習週刊第六期：哈佛大學機器學習課、Chatbot Ul 2.0 、LangChain v0.1.0、Mixtral 8x7B

機器學習週刊第4期：動手實戰人工智能、計算機科學熱門論文、免費的基於ChatGPT API的安卓端語音助手、每日數學、檢索增強 (RAG) 生成技術綜述

機器學習週刊03:如何學習深度學習？2024 年學習生成式 AI 路線圖、如何構建高效的RAG系統、蘋果騰訊最新論文、阿里DreaMoving

玩轉Python：用Python處理文檔，5個必備的庫，特別實用，附代碼

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結