Emotional First Aid Dataset
心理諮詢問答語料庫,僅限研究用途。
https://github.com/chatopera/efaqa-corpus-zh
爲什麼發佈這個語料庫
心理諮詢中應用人工智能,是我們認爲非常有意義的一個探索。我們願意和更多人合作,把目前領先的人工智能技術,在心理諮詢不同場景下落地。扣門的,就給他開門,願每個人都有自己的心理諮詢師。
-- 派特心理
數據集介紹
心理諮詢問答語料庫(以下也稱爲“數據集”,“語料庫”)是爲應用人工智能技術於心理諮詢領域製作的語料。據我們所知,這是心理諮詢領域首個開放的 QA 語料庫,包括 20,000 條心理諮詢數據,也是公開的最大的中文心理諮詢對話語料。數據集內容豐富,不但具備多輪對話內容,也有分類等信息,製作過程耗費大量時間和精力,比如標註過程是面向多輪對話,平均每條標記耗時 1 分鐘。
數據集由斯坦福大學,UCLA 和臺灣輔仁大學臨牀心理學等心理學專業人士參與建設,並由 Chatopera 和諸多志願者合作完成。
數據文件位置efaqa-corpus-zh.utf8.gz,該文件爲 Gzip 壓縮,utf8 編碼,每行一條數據,每條爲 JSON 格式字符串,格式如下:
字段 | 說明 | 類型 | ||
---|---|---|---|---|
md5 | 唯一標識 | string | ||
title | 標題 | string | ||
description | 描述 | string | ||
owner | 發佈者(脫敏後) | string | ||
label | 話題標籤 | Object | ||
s3 | 煩惱類型 | string | ||
s2 | 心理疾病 | string | ||
s1 | SOS | string | ||
chats | 聊天數據 | Array | ||
sender | 發佈者 | string | ||
type | 消息類型 | string | ||
time | 發佈時間 | string | ||
value | 消息內容 | string | ||
label | 聊天標籤 | Object | ||
knowledge | 知識性 | boolean | ||
question | 追問 | boolean | ||
negative | 負面回覆 | boolean |
數據示例
{
"md5": "2f63d374c071043d9e1968aefa62ffb7",
"owner": "匿名",
"title": "女 聽過別人最多的議論就是幹啥啥不行不長心眼沒有腦子",
"label": {
"s1": "1.13",
"s2": "2.7",
"s3": "3.4"
},
"chats": [
{
"time": "11:02:45",
"value": "這樣的議論是針對誰呢?",
"sender": "audience",
"type": "textMessage",
"label": { "question": true, "knowledge": false, "negative": false }
},
{
"time": "11:08:38",
"sender": "audience",
"type": "textMessage",
"value": "歡迎你來找我玩❤",
"label": { "question": false, "knowledge": false, "negative": false }
},
{
"time": "11:15:17",
"sender": "owner",
"type": "textMessage",
"value": "好慘"
}
]
}
話題標籤
一條數據中,title
和description
是諮詢者諮詢的初始信息,話題標籤是基於二者將諮詢問題進行分類,分類包含三個維度:S1
煩惱類型;S2
心理疾病;S3
SOS。其中,S
代表severity
,三個維度體現心理問題的嚴重程度依次加重。需要強調的是, 其中一些項目需要臨牀醫學鑑定,數據集所使用概念,均代表疑似,比如我們標記了一個話題分類爲抑鬱症,實際上是指疑似抑鬱症,該聲明不代表我們的工作不認真,而是嚴格的判斷的難度以及出於嚴謹性的考慮。
在label
中記錄的是每個維度子類的 ID,ID 設計如下。
S1 煩惱類型
ID | 中文 | 英文 | 備註 |
---|---|---|---|
1.1 | 學業煩惱、對未來規劃的迷茫 | Academic Concerns | 學業煩惱包括學習障礙、學習吃力、學習成績差、注意力不集中和對學習科目無興趣等。 |
1.2 | 事業和工作煩惱 | Career and Workplace Issues | 在工作中的,人際衝突問題、溝通問題、謠言、職場騷擾、歧視、動力不足和工作滿意度低和職場表現差等問題。 |
1.3 | 家庭問題和矛盾 | Family Issues and Conflict | 家庭問題和矛盾包括家庭暴力、金錢遺產爭執、家庭不和睦、婆媳問題、子女們對年長父母看護問題、繼父母繼子女衝突問題和離異父母對於兒女的養護問題。 |
1.4 | 物質濫用 | Substance Abuse and Addiction | 成人如酗酒、吸菸、藥物濫用、吸毒、賭博和任何影響生活品質的上癮行爲。 |
1.5 | 悲慟 | Grief | 由於痛失親人或朋友而引起的極大悲傷。 |
1.6 | 失眠 | Insomnia | 無法入睡或難以保持入睡狀態而影響第二天表現的睡眠障礙。 |
1.7 | 壓力 | Stress | 壓力是一種情緒上或身體上的緊張感。它可能來自任何使您感到沮喪,憤怒或緊張的事件或想法。 |
1.8 | 人際關係 | Interpersonal Relationship | 不屬於職場、學校以及家庭的人際關係緊張與矛盾。 |
1.9 | 情感關係問題 | Relationship Issues | 早戀、暗戀、異地戀、出軌、吵架、複合、LGBT 羣體 |
1.10 | 離婚 | Divorce | 離婚後情感以及孩子的問題 |
1.11 | 分手 | Break Up | 分手後的痛苦 |
1.12 | 自我探索 | Self-Awareness | 如星座、性格、興趣等 |
1.13 | 低自尊 | Low self-esteem | 低自尊心的表現 自尊是一個人對自己的價值的主觀評價。自尊包括對自己以及情緒狀態的信念,例如勝利,絕望,驕傲和羞恥。 |
1.14 | 青春期問題 | Adolescent Problem | 青春期少年在身心成長上所面臨的問題,如叛逆、傷害他人、懷孕、藥物濫用和青少年犯罪。 |
1.15 | 強迫症 | OCD | 強迫症的人會陷入一種無意義、且令人沮喪的重複的想法與行爲當中,但是一直想卻無法擺脫它。 |
1.16 | 其它 | Others | 其他煩惱,雖然對生活學習沒有造成毀滅性的阻礙,但是卻依然會引起心裏不適。 |
1.17 | 男同性戀、女同性戀、雙性戀與跨性別 | LGBT | 男同性戀、女同性戀、雙性戀與跨性別 |
1.18 | 性問題 | Sex | 對於青少年,是性教育不足引起各種社會問題;對於成年人,性焦慮與性上癮可以演變成生理疾病。 |
1.19 | 親子關係 | Parent-child relationship | 親子關係,從嬰幼兒時期就開始影響着孩子各方面的發展,比如性格、毅力、人際交往等等。 |
S2 心理疾病
心理問題已經影響工作,諮詢者需要休息調整或就醫。
ID | 中文 | 英文 | 備註 |
---|---|---|---|
2.1 | 憂鬱症 | Depression | 長時間持續的抑鬱情緒,並且這種情緒明顯超過必要的限度,缺乏自信,避開人羣,甚至有罪惡感,感到身體能量的明顯降低,時間的感受力減慢,無法在任何有趣的活動中體會到快樂。 |
2.2 | 焦慮症 | Anxiety | 長時間持續性的焦慮情緒,無明確客觀對象卻依然緊張擔心,坐立不安,如心悸、手抖、出汗、尿頻、注意力難以集中。 |
2.3 | 躁鬱症 | Bipolar Disorder | 又稱爲"雙向情感障礙" 。狂躁期:感到生機勃勃、精力充沛以及情感高漲或易被激惹。也可感到過度自信,行爲或穿着鋪張浪費,睡眠極少且語量增多。 |
2.4 | 創傷後應激反應 | PTSD | 首先要經歷創傷:如孩童時期遭受身體或心理上的虐待;接觸相關事物時會有精神或身體上的不適和緊張,創傷的情景會一遍一遍在腦海中重演。 |
2.5 | 恐慌症 | Panic Disorder | 又稱急性焦慮症,是反覆發生的驚恐發作。驚恐發作是突然的短期強烈的恐懼(瀕死感),包含心悸、流汗、手顫抖、呼吸困難、麻痹感。 |
2.6 | 厭食症和暴食症 | Eating Disorder | 厭食症:吃太少導致體重偏輕;暴食症:大量進食後再想辦法吐出來。兩種疾病都對"瘦"有着極端的追求,對自己身體不滿意,在生活學習上有極端完美主義心態。 |
2.7 | 尚未達到 S2 | Unrelated | 還沒有嚴重到心理疾病 |
2.8 | 其它疾病 | Others | 已經嚴重影響生活和工作,甚至生活工作不能進行,但並不能確認是哪一類疾病的情況。 |
【注意:】一些在臨牀上更爲嚴重的心理疾病,比如多重人格等,因爲其複雜性,更不容易判斷,數據集暫時不涉及標註。
S3 SOS
緊急情況,需要立刻有人工干預。
ID | 中文 | 英文 | 備註 |
---|---|---|---|
3.1 | 正在進行的自殺行爲 | Suicide Action | N/A |
3.2 | 策劃進行的自殺行爲 | Suicide Ideation | N/A |
3.3 | 自殘 | Self-harm | N/A |
3.4 | 進行的人身傷害 | N/A | 正在對他人進行傷害 |
3.5 | 計劃的人身傷害 | N/A | 計劃對他人進行傷害 |
3.6 | 無傷害身體傾向 | N/A | N/A |
聊天標籤
標記 | 含義 |
---|---|
question | 是否是追問,追問可以讓諮詢者更多傾訴 |
knowledge | 是否帶有知識,含知識內容有助於開導諮詢者 |
negative | 負面回覆,對諮詢者起負面作用 |
項目背景
爲了幫助更好應用該數據集,特別製作了一個視頻幫助瞭解項目背景、標註設計和標註過程。
安裝使用
Python
爲了方便使用,數據集發佈到 https://pypi.org/project/efaqa-corpus-zh/ 上,使用 pip
下載安裝。
pip install efaqa-corpus-zh
演示代碼
import efaqa_corpus_zh
l = list(efaqa_corpus_zh.load())
print("size: %s" % len(l))
print(l[0]["title"])
初次執行 load
接口,會下載數據,數據在 Github 上,請確保網絡可以訪問到https://github.com。下載速度取決於網絡質量,目前數據集壓縮包大小~8MB。
其它語言
如果您使用其它編程語言,那麼直接先下載數據文件efaqa-corpus-zh.utf8.gz,然後使用 Gzip 解壓工具解壓,得到文本文件,然後按行讀取。