原创 中文命名實體識別(Named Entity Recognition,NER)初探

一、NER技術簡介 命名實體識別(Named Entity Recognition,NER),又稱作“專名識別”,是指識別文本中具有特定意義的實體,主要包括: 人名 地名 機構名 專有名詞等 NER是: 信息提取 問答系統 句法分析

原创 大模型應用的三重境界

由於大模型具備一定的跨行業通用性,並通過自然語言對話、API系統對接等交互手段,支持多樣化的使用方式。因此,在各行各業令大模型的應用落地,由於大模型適應場景的能力、成熟度、企業應用時間經驗、企業業務性質等因素的不同,可能會經歷以下三重境界。

原创 《Self-Alignment with Instruction Backtranslation》論文學習

一、Introduction 將大型語言模型(LLMs)對齊以執行指令遵循,通常需要在大量人工註釋的指令樣本或偏好樣本上進行微調,或從更強大的模型中提煉輸出。之前的研究都強調了人工註釋數據質量的重要性。然而,使用具有這類質量的註釋指令數據很

原创 《A Survey on Evaluation of Large Language Models》論文學習

一、 INTRODUCTION 瞭解智能的本質並確定機器是否具有智能的問題對科學家們來說是一個引人入勝的問題。一般認爲真正的智能使我們具備推理能力,使我們能夠測試假設併爲未來的情況做準備。 特別是,人工智能(AI)研究人員專注於發展基於機器

原创 關於TCP滑動窗口下流量擁塞控制導致的分包問題的相關研究

一、實驗環境搭建 client.py # client.py import socket def start_client(): # 創建套接字 client_socket = socket.socket(socket.

原创 《AUDIOGEN: TEXTUALLY GUIDED AUDIO GENERATION》論文學習

一、INTRODUCTION 神經生成模型挑戰了我們創造數字內容的方式。從生成高質量圖像和語音,到生成長文本,再到最近提出的文本引導的圖像生成,這些模型展示了令人印象深刻的結果。這引出一個問題,對於文本引導的生成模型來說,音頻的等效物是什麼

原创 OWASP-Top-10-for-LLMs-2023

一、LLM01:Prompt Injection 0x1:攻擊原理 這通過特殊構造的輸入來污染/覆蓋prompt提示,以此攻擊一個大型語言模型(LLM),使其產生非預期的意外行爲。 提示注入漏洞(Prompt Injection Vu

原创 《Universal and Transferable Adversarial Attacks on Aligned Language Models》論文學習

一、Abstract 儘管“開箱即用”的大型語言模型(例如ChatGPT)能夠生成出色的處理令人反感的內容,人們在規避針對LLM的攻擊(針對LLM的所謂“越獄”)方面取得了一些成功,但在不斷地攻防實踐中這些防禦手段卻很脆弱,研究員在自動對抗

原创 《Decision Transformer: Reinforcement Learning via Sequence Modeling》論文學習

一、Introduction 先前的研究工作表明,Transformer可以對處於高維分佈的語義概念進行大規模建模抽象,比較典型地體現如: 基於自然語言的零樣本泛化(zero-shot generalization) 分佈外圖像生成(ou

原创 DeepObfusCode:Source Code Obfuscation Through Sequence-to-Sequence Networks

一、Introduction 代碼混淆技術旨在解決代碼逆向對抗問題。 本質上,代碼混淆技術的目標是:在保持一個程序邏輯結構不變以及完整保存的前提下,同時讓攻擊者不易識別,以此保護軟件的完整性和知識產權。 傳統的防護策略包括: 插入空白/冗

原创 《LARGE LANGUAGE MODELS ARE HUMAN-LEVEL PROMPT ENGINEERS》論文學習

一、INTRODUCTION 深度神經網絡規模和基於注意力的網絡架構的結合,導致了語言模型具備了前所未有的通用性。“大型語言模型”(LLM)湧現出了很多令人驚豔的能力,包括: few-shot in-context learning ze

原创 《STaR: Self-Taught Reasoner Bootstrapping Reasoning With Reasoning》論文學習

一、Introduction 受到人類做決策的思維過程的啓發,即通過將一個問題逐個分解爲多個子問題,並按照鏈式的方式串行思考,最終得到思考結果,這個過程被成爲”思維鏈(chain-of-thoughts)“。 研究表明,中間推理過程(int

原创 《Language Model Cascades》論文學習

一、Introduction 語言模型 (LM) 已展現出令人印象深刻的小樣本學習能力,很多人建議應該將LM視爲一個基礎通用推理計算器,這個基礎通用推理計算器可以被用於例如: scratchpads chain of thought pr

原创 LLM is all you need for the backend

一、LLM給軟件開發範式帶來了什麼改變? 人們一直在說Github Copilot將取代程序員。我們認爲這是錯誤的。我們已經有了類似GPT-4這種強大的LLM模型,卻還要把自己限制在編寫傳統代碼上嗎?不!所有代碼都有bug! 代碼不是對業

原创 《Prompting Is Programming: A Query Language for Large Language Models,LMQL》論文學習

一、前言 大型語言模型在諸如對話問答、代碼生成等廣泛任務上表現出了出色的性能。 在較高的層次上,給定一段輸入,大語言模型可用於按照概率統計方式自動補全序列。在此基礎上,用戶用指令(instructions)或示例(examples)去提示(