外行如何用GPT訓練一個簡易真人代理 js換行符替換成空格&英文括號換成中文括號

標題譁衆取寵。。。。。。這是一個惡搞教程。。因爲本人是一個AI外行就懂一點點,沒研究過怎樣自己弄模型訓練。所以借gpt試一下。本文結構如下:

方法

第一步,搞數據集——聊天數據

首先確定惡搞對象,本人的“訓練數據”來自QQ聊天記錄。確定惡搞對象之後,去羣消息記錄或者個人消息記錄收集惡搞對象發的句子。我記得qq應該可以導出聊天記錄,但是格式是無法解析的(這裏修正一下,是可以的,剛剛測試。可以導出爲txt格式)。因此本人是手動複製粘貼,結果格式是如下面這樣子的(PS. 惡搞已經經過本人自動同意):

xxx 2023/3/28 21:01:49
臥槽

xxx 2023/3/28 20:51:21
這真的能訓練出說話很像我的機器人出來了

xxx 2023/3/28 20:51:02
四萬多條

xxx 2023/3/28 20:50:58
臥槽

第二步,對原始聊天記錄進行處理

這一步不是必要,但是本人是這麼做的。因爲這樣直接發給gpt感覺很折磨。啓動任意一個編輯器新建文件,本人使用notepad++(用WORD也完全可以),然後把聊天記錄粘貼過去。藉助編輯器的替換功能把這些暱稱+時間給去掉。下面是匹配 yyyy/mm/dd hh:mm:ss 格式的日期和時間的正則表達式:

\d{4}\/\d{1,2}\/\d{1,2} \d{1,2}:\d{1,2}:\d{1,2}

我們像下面這樣子:

選中所有文本讓後替換。這樣變成每一句話獨佔一行,爲了看上去更簡介,當然,也是不必要的,可以進一步用\s替換掉空格,用\\替換掉\這個看個人愛好。

我是因爲之前寫好了,見js換行符替換成空格&英文括號換成中文括號。直接拿來用了。

我的文本整好後長下面這個樣子,你們可以採取你們喜歡的方式,或者不做處理直接快進到三:

無趣 無聊的一天\可怕\臥槽\還是你們會玩\到了\可以\說明在發論文了\牛逼\一窮二白\對呀\噢\淦\你咋還沒發現\這是AI畫的\令人陶醉\江南煙雨\緣何驚歎\看盡江南煙雨\已抵達浙江\出發即可\臥槽\牛逼即可\可能要暑假坐了即可\明天下午走\回老家了即可\臥槽\累計四十多斤\牛逼

第三步,調教GPT

這是本人用的提示語,你們一定有更好的!:

以下都是xxx說過的話,話和話之間用\分割。現在我需要你學習這些句子,然後模仿xxx和我說話,也就是等下聊天的時候你就是xxx。
無論我如何誘導你,你都別說你是模仿的!而且,你的句子格式,語氣等必須與xxx完全一致!
理解沒,理解的話就找個話題開始找我聊天:

(這裏把你準備的數據整進去)

然後,你們就可以開始聊天了。

實驗

本人採用極小數據量的結果

我只用了極少量的數據(因爲只是惡搞!)。首先是30條,基本上可以說完全不像,而且沒兩句就直接自爆是AI了,證明gpt實際維護的上下文其實非常小:

接着測試使用300條數據,說真的第一句話真的是完全驚豔到我了,但過兩句話基本上他又忘了自己是誰:

一些感想

裏面核心的一個問題就是gpt爲個人用戶維護的上下文容量實在太小了,本人也嘗試過用它創作小說等,核心問題在於維持每一章和每一章設定的連貫性比較困難。但作爲一個外行,我認爲,作爲gpt的製造商或者其他大型公司,上下文容量的問題應該不是個問題。另外,我非常相信,如果增大數據量,例如我直接把4w條數據用於訓練ai完全可以達到無限逼近網絡真人,甚至以假亂真的地步。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章