騰訊推出的 AppAgent,是一個多模態智能體,通過識別當前手機的界面和用戶指令直接操作手機界面,能像真實用戶一樣操作手機!
機器學習週刊:關注Python、機器學習、深度學習、大模型等硬核技術
1、如何學習深度學習?
最近X上有推友重提這篇文章,是網友看過 Jeremy 教授的 fast.ai 深度學習課程後,把每節課提到的學習建議和忠告都總結了下來:https://forums.fast.ai/t/things-jeremy-says-to-do/36682/1
我讓ChatGPT、Claude、Gemini翻譯並總結了這篇文章,Gemini完成的更加出色,給出了26條關於學習方法和一些細節的建議(強烈建議,如果時間允許,可以看原文):
- 傾聽:仔細注意老師在整堂課中的建議和提示。
- 不要被理論淹沒:專注於運行代碼並對其進行實驗,而不是一開始就陷入理論細節中。
- 選擇一個項目並把它做得精彩:選擇一個你感興趣的項目,並投入額外的精力,確保對其進行優化和改進。
- 探索不同的數據集:不要侷限於課程中提供的數據集;自己尋找數據集並對其進行實驗。
- 不要使你的代碼過於複雜:保持你的代碼簡單和有條理,避免不必要的複雜性。
- 學習 Jupyter 快捷鍵:熟悉 Jupyter 快捷鍵以提高你的效率。
- 運行代碼並對其進行實驗:不要只閱讀代碼;運行它並嘗試不同的輸入和參數來觀察會發生什麼。
- 不要花幾個小時試圖立即理解所有理論:可以先不理解所有內容;專注於實踐方面,並隨着時間的推移逐漸加深你的理解。
- 閱讀比賽獲勝者的論文:通過閱讀比賽獲勝者的論文來學習他人的成功經驗,注意他們的方法和見解。
- 使用你擁有的所有文本:在處理 NLP 時,確保使用所有可用的文本,包括未標記的驗證集,以增強模型的性能。
- 學會發音希臘字母:熟悉深度學習論文中常用的希臘字母的發音。
- 非常習慣 PyTorch 張量:培養對 PyTorch 張量和運算的紮實理解。
- 應用廣播規則:在處理更高秩張量時學習並應用廣播規則。
- 不要假設庫是正確的:對庫持懷疑態度;驗證其正確性並瞭解其工作原理。
- 不要擔心你是否跟上了所有內容:感到不知所措是正常的;專注於你能理解的內容,並逐漸建立你的知識。
- 學會調試深度學習代碼:調試 DL 代碼具有挑戰性;確保你的代碼簡單,並檢查中間結果以儘量減少錯誤。
- 用玩具問題進行實驗:創建並解決玩具問題以深入瞭解深度學習的概念和技術。
- 學習 Swift for TensorFlow:抓住機會學習 Swift for TensorFlow,它爲 DL 開發提供了優勢。
- 爲 Swift for TensorFlow 生態系統做出貢獻:通過爲代碼、文檔或討論做出貢獻來參與 Swift for TensorFlow 社區。
- 使用
compose
進行函數組合:使用compose
函數熟悉函數組合的概念。 - 謹慎的數據增強:在增強數據時,仔細考慮轉換及其對數據完整性和標籤準確性的影響。
- 嘗試不同的架構:嘗試不同的神經網絡架構以深入瞭解它們的性能特徵。
- 不要凍結批歸一化層:避免在微調期間凍結批歸一化層,以確保適當的權重更新。
- 儘可能以原始方式預處理數據:作爲一般規則,儘量減少對神經網絡數據的預處理,以保留其原始信息和結構。
- 學習 Swift for TensorFlow:抓住機會學習 Swift for TensorFlow,它爲 DL 開發提供了優勢。
- 自定義 Swift for TensorFlow:Swift for TensorFlow 是完全可自定義的,允許你修改和擴展它以滿足你的特定需求。
2、2024 年學習生成式 AI 路線圖
項目地址:https://github.com/krishnaik06/Roadmap-To-Learn-Generative-AI-In-2024
這個項目總結了生成式AI學習路線,從Python、機器學習、NLP、深度學習、GPT-4、Langchain、向量數據庫、LLM項目部署,非常順暢。
3、機器學習調查
地址:https://github.com/metrofun/machine-learning-surveys
有關主動學習、生物信息學、分類、度量學習、蒙特卡羅、多視圖學習等方面的調查、教程和書籍的精選列表。
4、應用機器學習
地址:https://github.com/eugeneyan/applied-ml
這個項目分享了各公司在生產中數據科學和機器學習方面的論文和技術博客,已經更新了3年。
主要內容包括:
- 如何構架問題 🔎(例如,將個性化視爲推薦系統 vs. 搜索 vs. 序列)
- 哪些機器學習技術有效 ✅(有時候,哪些不行 ❌)
- 爲什麼它有效,背後的科學原理包括研究、文獻和引用 📂
- 實現了什麼現實世界的結果(可以更好地評估投資回報率 ⏰💰📈)
5、如何構建高效的RAG系統
程序員Jiayuan (Forrest)在X上分享了開發者搜索工具 devv.ai 是如何構建RAG系統的過程,內容十分硬核。
這裏是Treads彙總:https://typefully.com/Tisoga/PBB58Vu
6、MLC Chat
MLC Chat:在iPhone上離線運行7B最強LLM Mistral
中文不太行,速度很快,手機會發熱
APP下載:https://apps.apple.com/gb/app/mlc-chat/id6448482937
Github:https://github.com/mlc-ai/mlc-llm
支持各種系統,能在各種設備上開發、優化和部署AI模型。包括iOS和安卓
7、Ollama
Ollama爲那些在macOS、Linux(暫不支持Windows)上使用LLM的開發者提供了一種簡便的解決方案,可以更輕鬆地將這些模型集成到自己的應用程序中。
Ollama目前支持了10餘種大模型,安裝後均可一個命令本地啓動並運行
Model | Parameters | Size | Download |
---|---|---|---|
Neural Chat | 7B | 4.1GB | ollama run neural-chat |
Starling | 7B | 4.1GB | ollama run starling-lm |
Mistral | 7B | 4.1GB | ollama run mistral |
Llama 2 | 7B | 3.8GB | ollama run llama2 |
Code Llama | 7B | 3.8GB | ollama run codellama |
Llama 2 Uncensored | 7B | 3.8GB | ollama run llama2-uncensored |
Llama 2 13B | 13B | 7.3GB | ollama run llama2:13b |
Llama 2 70B | 70B | 39GB | ollama run llama2:70b |
Orca Mini | 3B | 1.9GB | ollama run orca-mini |
Vicuna | 7B | 3.8GB | ollama run vicuna |
LLaVA | 7B | 4.5GB | ollama run llava |
8、DreaMoving
DreaMoving是一個基於擴散模型的人類舞蹈視頻生成框架。能夠根據指導序列和簡單的內容描述(僅文本提示、僅圖像提示或文本和圖像提示)生成高質量、高保真度的視頻。
體驗地址:https://modelscope.cn/studios/vigen/video_generation/summary
9、蘋果最新論文
論文: https://huggingface.co/papers/2312.11514
蘋果發的這個論文《使用有限的內存實現更快的 LLM 推理》。通過將將模型參數保存在閃存裏,根據需要移動到DRAM。 使得能夠運行的模型大小是可用DRAM的兩倍,與傳統的CPU和GPU加載方法相比,推理速度分別提高了4-5倍和20-25倍。
10、騰訊最新論文:《AppAgent: 多模態智能體,像真實用戶一樣操作手機》
項目首頁:https://appagent-official.github.io
論文鏈接:https://arxiv.org/abs/2312.13771
項目地址:https://github.com/mnotgod96/AppAgent
論文通過引入一種基於大型語言模型(LLMs)的多模態智能代理(Agent)框架,賦予了智能體操作智能手機應用的能力。與傳統的智能助手如 Siri 不同,AppAgent 不依賴於系統後端訪問,而是通過模擬人類的點擊和滑動等操作,直接與手機應用的圖形用戶界面(GUI)互動。這種獨特的方法不僅提高了安全性和隱私性,還確保了智能體能夠適應應用界面的變化和更新。