原创 聊聊神經網絡的基礎知識

來自《深度學習入門:基於Python的理論與實現》 張量 Numpy、TensorFlow、Pytorch等框架主要是爲了計算張量或是基於張量計算。 標量:0階張量;12,4,3, 向量:一階張量;[12,4,3] 矩陣:二階張量;[

原创 聊聊數據庫事務內嵌TCP連接

最近再看項目代碼,發現很多的service裏面,喜歡在事務內部再去調用HTTP請求,簡單分析下此種方式的利弊與解決策略。 概述 在數據庫內部嵌套TCP連接(一般是HTTP調用或是RPC遠程調用)。 @Transactional(rollba

原创 聊聊預訓練模型的微調

翻譯自:Fine-tuning a model with the Trainer API Transformers 提供了一個 Trainer 類,處理微調在數據集上提供的任何預訓練模型。 完成所有數據預處理工作後,只需執行幾個步驟即可定義

原创 聊聊多任務學習

最近翻譯的一篇分享中,主要講解了多任務學習的各個方面,很多的專業術語與概念都不清楚,因此簡單的整理了下相關的知識,做個筆記。 概述 現在大多數機器學習任務都是單任務學習。對於複雜的問題,也可以分解爲簡單且相互獨立的子問題來單獨解決,然後再合

原创 聊聊HuggingFace如何處理大模型下海量數據集

翻譯自: Big data? 🤗 Datasets to the rescue! 如今,使用大GB的數據集並不罕見,特別是從頭開始預訓練像BERT或GPT-2這樣的Tranformer模型。在這樣的情況下,甚至連加載數據都可能是一個挑戰。例

原创 聊聊HuggingFace Transformer

概述 參見:聊聊HuggingFace 項目組件 一個完整的transformer模型主要包含三部分:Config、Tokenizer、Model。 Config 用於配置模型的名稱、最終輸出的樣式、隱藏層寬度和深度、激活函數的類別等。 示

原创 聊聊Hugging Face

概述 HuggingFace是一個開源社區,提供了開源的AI研發框架、工具集、可在線加載的數據集倉庫和預訓練模型倉庫。HuggingFace提出了一套可以依照的標準研發流程,按照該框架實施工程,能夠在一定程度上規避開發混亂、開發人員水平不一

原创 聊聊Embedding(嵌入向量)

摘要自《深入淺出Embedding》一問。具體詳細內容請移步該書。 概述 簡單來說,嵌入是用向量表示一個物體,這個物體可以是一個單詞、一條語句、一個序列、一件商品、一個動作、一本書、一部電影等,可以說嵌入(Embedding)涉及機器學習、

原创 聊聊Transformer和GPT模型

本文基於《生成式人工智能》一書閱讀摘要。感興趣的可以去看看原文。 可以說,Transformer已經成爲深度學習和深度神經網絡技術進步的最亮眼成果之一。Transformer能夠催生出像ChatGPT這樣的最新人工智能應用成果。 序列到序列

原创 聊聊語言模型與知識圖譜

語言模型 語言模型泛指:大語言模型LLM、通用模型GLM。 語言模型也是知識庫。基於語言模型下的實現,比如ChatGPT,BERT,ChatGLM等等,這類知識庫就像是已經人爲處理好、編排好、可直接使用的知識庫。 知識圖譜 知識圖譜的定義由

原创 聊聊自然語言處理NLP

概述 自然語言處理(NLP)的正式定義:是一個使用計算機科學、人工智能(AI)和形式語言學概念來分析自然語言的研究領域。不太正式的定義表明:它是一組工具,用於從自然語言源(如web頁面和文本文檔)獲取有意義和有用的信息。NLP工具的實現一

原创 聊聊日誌聚類算法及其應用場景

閱讀《基於 Flink ML 搭建的智能運維算法服務及應用》一文後,對其中日誌聚類算法有了些思考。 概述 日誌聚類,簡而言之是對海量日誌的分析;其分析處理鏈路可以分爲如下流程:日誌採集 -> 預處理 -> 分詞和特徵表示 -> 聚類和標註;

原创 聊聊我認爲的分佈式、集羣實現關鍵點

基於常見的中間件(Mysql、ElasticSearch、Zookeeper、Kafka、Redis)等分佈式集羣設計的機制,自己總結了在在集羣設計過程中需要考慮的通用問題。 節點通信機制 主節點的增加、刪除、通信機制。 路由算法 即數據路

原创 聊聊Zookeeper技術內幕之客戶端與SetData請求處理

從客戶端會話創建到網絡連接、請求處理,簡單的敘述下流程與邏輯 客戶端 客戶端是開發人員使用ZooKeeper最主要的途徑,ZooKeeper的客戶端主要由以下幾個核心組件組成。 ZooKeeper實例:客戶端的入口。 ClientWatc

原创 聊聊Kafka的生產者消費者確認機制

生產者確認機制 消息從生產者客戶端發送至broker服務端topic,需要ack確認。acks與min.insync.replicas是兩個配置參數.其中acks是producer的配置參數,min.insync.replicas是Brok