心理諮詢問答語料庫: efaqa-corpus-zh

Emotional First Aid Dataset

心理諮詢問答語料庫,僅限研究用途。

https://github.com/chatopera/efaqa-corpus-zh

爲什麼發佈這個語料庫

心理諮詢中應用人工智能,是我們認爲非常有意義的一個探索。我們願意和更多人合作,把目前領先的人工智能技術,在心理諮詢不同場景下落地。扣門的,就給他開門,願每個人都有自己的心理諮詢師。

-- 派特心理

數據集介紹

心理諮詢問答語料庫(以下也稱爲“數據集”,“語料庫”)是爲應用人工智能技術於心理諮詢領域製作的語料。據我們所知,這是心理諮詢領域首個開放的 QA 語料庫,包括 20,000 條心理諮詢數據,也是公開的最大的中文心理諮詢對話語料。數據集內容豐富,不但具備多輪對話內容,也有分類等信息,製作過程耗費大量時間和精力,比如標註過程是面向多輪對話,平均每條標記耗時 1 分鐘。

數據集由斯坦福大學,UCLA 和臺灣輔仁大學臨牀心理學等心理學專業人士參與建設,並由 Chatopera 和諸多志願者合作完成。

數據文件位置efaqa-corpus-zh.utf8.gz,該文件爲 Gzip 壓縮,utf8 編碼,每行一條數據,每條爲 JSON 格式字符串,格式如下:

字段 說明 類型
md5 唯一標識 string
title 標題 string
description 描述 string
owner 發佈者(脫敏後) string
label 話題標籤 Object
s3 煩惱類型 string
s2 心理疾病 string
s1 SOS string
chats 聊天數據 Array
sender 發佈者 string
type 消息類型 string
time 發佈時間 string
value 消息內容 string
label 聊天標籤 Object
knowledge 知識性 boolean
question 追問 boolean
negative 負面回覆 boolean

數據示例

{
  "md5": "2f63d374c071043d9e1968aefa62ffb7",
  "owner": "匿名",
  "title": "女 聽過別人最多的議論就是幹啥啥不行不長心眼沒有腦子",
  "label": {
    "s1": "1.13",
    "s2": "2.7",
    "s3": "3.4"
  },
  "chats": [
    {
      "time": "11:02:45",
      "value": "這樣的議論是針對誰呢?",
      "sender": "audience",
      "type": "textMessage",
      "label": { "question": true, "knowledge": false, "negative": false }
    },
    {
      "time": "11:08:38",
      "sender": "audience",
      "type": "textMessage",
      "value": "歡迎你來找我玩❤",
      "label": { "question": false, "knowledge": false, "negative": false }
    },
    {
      "time": "11:15:17",
      "sender": "owner",
      "type": "textMessage",
      "value": "好慘"
    }
  ]
}

話題標籤

一條數據中,titledescription是諮詢者諮詢的初始信息,話題標籤是基於二者將諮詢問題進行分類,分類包含三個維度:S1 煩惱類型;S2 心理疾病;S3 SOS。其中,S代表severity,三個維度體現心理問題的嚴重程度依次加重。需要強調的是, 其中一些項目需要臨牀醫學鑑定,數據集所使用概念,均代表疑似,比如我們標記了一個話題分類爲抑鬱症,實際上是指疑似抑鬱症,該聲明不代表我們的工作不認真,而是嚴格的判斷的難度以及出於嚴謹性的考慮。

label中記錄的是每個維度子類的 ID,ID 設計如下。

S1 煩惱類型

ID 中文 英文 備註
1.1 學業煩惱、對未來規劃的迷茫 Academic Concerns 學業煩惱包括學習障礙、學習吃力、學習成績差、注意力不集中和對學習科目無興趣等。
1.2 事業和工作煩惱 Career and Workplace Issues 在工作中的,人際衝突問題、溝通問題、謠言、職場騷擾、歧視、動力不足和工作滿意度低和職場表現差等問題。
1.3 家庭問題和矛盾 Family Issues and Conflict 家庭問題和矛盾包括家庭暴力、金錢遺產爭執、家庭不和睦、婆媳問題、子女們對年長父母看護問題、繼父母繼子女衝突問題和離異父母對於兒女的養護問題。
1.4 物質濫用 Substance Abuse and Addiction 成人如酗酒、吸菸、藥物濫用、吸毒、賭博和任何影響生活品質的上癮行爲。
1.5 悲慟 Grief 由於痛失親人或朋友而引起的極大悲傷。
1.6 失眠 Insomnia 無法入睡或難以保持入睡狀態而影響第二天表現的睡眠障礙。
1.7 壓力 Stress 壓力是一種情緒上或身體上的緊張感。它可能來自任何使您感到沮喪,憤怒或緊張的事件或想法。
1.8 人際關係 Interpersonal Relationship 不屬於職場、學校以及家庭的人際關係緊張與矛盾。
1.9 情感關係問題 Relationship Issues 早戀、暗戀、異地戀、出軌、吵架、複合、LGBT 羣體
1.10 離婚 Divorce 離婚後情感以及孩子的問題
1.11 分手 Break Up 分手後的痛苦
1.12 自我探索 Self-Awareness 如星座、性格、興趣等
1.13 低自尊 Low self-esteem 低自尊心的表現 自尊是一個人對自己的價值的主觀評價。自尊包括對自己以及情緒狀態的信念,例如勝利,絕望,驕傲和羞恥。
1.14 青春期問題 Adolescent Problem 青春期少年在身心成長上所面臨的問題,如叛逆、傷害他人、懷孕、藥物濫用和青少年犯罪。
1.15 強迫症 OCD 強迫症的人會陷入一種無意義、且令人沮喪的重複的想法與行爲當中,但是一直想卻無法擺脫它。
1.16 其它 Others 其他煩惱,雖然對生活學習沒有造成毀滅性的阻礙,但是卻依然會引起心裏不適。
1.17 男同性戀、女同性戀、雙性戀與跨性別 LGBT 男同性戀、女同性戀、雙性戀與跨性別
1.18 性問題 Sex 對於青少年,是性教育不足引起各種社會問題;對於成年人,性焦慮與性上癮可以演變成生理疾病。
1.19 親子關係 Parent-child relationship 親子關係,從嬰幼兒時期就開始影響着孩子各方面的發展,比如性格、毅力、人際交往等等。

S2 心理疾病

心理問題已經影響工作,諮詢者需要休息調整或就醫。

ID 中文 英文 備註
2.1 憂鬱症 Depression 長時間持續的抑鬱情緒,並且這種情緒明顯超過必要的限度,缺乏自信,避開人羣,甚至有罪惡感,感到身體能量的明顯降低,時間的感受力減慢,無法在任何有趣的活動中體會到快樂。
2.2 焦慮症 Anxiety 長時間持續性的焦慮情緒,無明確客觀對象卻依然緊張擔心,坐立不安,如心悸、手抖、出汗、尿頻、注意力難以集中。
2.3 躁鬱症 Bipolar Disorder 又稱爲"雙向情感障礙" 。狂躁期:感到生機勃勃、精力充沛以及情感高漲或易被激惹。也可感到過度自信,行爲或穿着鋪張浪費,睡眠極少且語量增多。
2.4 創傷後應激反應 PTSD 首先要經歷創傷:如孩童時期遭受身體或心理上的虐待;接觸相關事物時會有精神或身體上的不適和緊張,創傷的情景會一遍一遍在腦海中重演。
2.5 恐慌症 Panic Disorder 又稱急性焦慮症,是反覆發生的驚恐發作。驚恐發作是突然的短期強烈的恐懼(瀕死感),包含心悸、流汗、手顫抖、呼吸困難、麻痹感。
2.6 厭食症和暴食症 Eating Disorder 厭食症:吃太少導致體重偏輕;暴食症:大量進食後再想辦法吐出來。兩種疾病都對"瘦"有着極端的追求,對自己身體不滿意,在生活學習上有極端完美主義心態。
2.7 尚未達到 S2 Unrelated 還沒有嚴重到心理疾病
2.8 其它疾病 Others 已經嚴重影響生活和工作,甚至生活工作不能進行,但並不能確認是哪一類疾病的情況。

【注意:】一些在臨牀上更爲嚴重的心理疾病,比如多重人格等,因爲其複雜性,更不容易判斷,數據集暫時不涉及標註。

S3 SOS

緊急情況,需要立刻有人工干預。

ID 中文 英文 備註
3.1 正在進行的自殺行爲 Suicide Action N/A
3.2 策劃進行的自殺行爲 Suicide Ideation N/A
3.3 自殘 Self-harm N/A
3.4 進行的人身傷害 N/A 正在對他人進行傷害
3.5 計劃的人身傷害 N/A 計劃對他人進行傷害
3.6 無傷害身體傾向 N/A N/A

聊天標籤

標記 含義
question 是否是追問,追問可以讓諮詢者更多傾訴
knowledge 是否帶有知識,含知識內容有助於開導諮詢者
negative 負面回覆,對諮詢者起負面作用

項目背景

爲了幫助更好應用該數據集,特別製作了一個視頻幫助瞭解項目背景、標註設計和標註過程。

心理諮詢AI助手|派特心理

安裝使用

Python

爲了方便使用,數據集發佈到 https://pypi.org/project/efaqa-corpus-zh/ 上,使用 pip 下載安裝。

pip install efaqa-corpus-zh

演示代碼

import efaqa_corpus_zh
l = list(efaqa_corpus_zh.load())
print("size: %s" % len(l))
print(l[0]["title"])

初次執行 load 接口,會下載數據,數據在 Github 上,請確保網絡可以訪問到https://github.com。下載速度取決於網絡質量,目前數據集壓縮包大小~8MB。

其它語言

如果您使用其它編程語言,那麼直接先下載數據文件efaqa-corpus-zh.utf8.gz,然後使用 Gzip 解壓工具解壓,得到文本文件,然後按行讀取。

chatoper banner

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章