Large Language Models in Psychiatry: Current Applications, Limitations, and Future Scope

Zhe Liu^{¹^,^Z}, Yihang Bao^{¹^,^Z}, Shuai Zeng^{²^,^Z}, Ruiyi Qian^¹, Miaohan Deng^¹, An Gu^¹, Jianye Li^¹, Weidi Wang^¹, Wenxiang Cai^¹, Wenhao Li^³, Han Wang^³(), Dong Xu^²(), Guan Ning Lin^¹()

1Shanghai Mental Health Center, Shanghai Jiao Tong University School of Medicine, and School of Biomedical Engineering, Shanghai Jiao Tong University, Shanghai 200030, China

2Department of Electrical Engineering and Computer Science, University of Missouri, Columbia, MO 65211, USA

3School of Information Science and Technology, Institute of Computational Biology, Northeast Normal University, Changchun 130024, China

Show Author Information

Abstract

With the advancements in Artificial Intelligence (AI) technology, Large Language Models (LLMs) provide outstanding capabilities for natural language understanding and generation, enhancing various domains. In psychiatry, LLMs can empower healthcare by analyzing vast amounts of medical data to improve diagnostic accuracy, enhance therapeutic communication, and personalize patient care with their strength in understanding and generating human-like text. In clinical AI, developing and utilizing robust and interpretable models has been a longstanding challenge. This survey investigates the current psychiatric practice of LLMs, along with a series of corpus resources that could be used for training psychiatric LLMs. We discuss the limitations concerning LLM reproducibility, capabilities, usability, interpretability in clinical settings, and ethical considerations. Additionally, we propose potential future directions for research, clinical application, and education in psychiatric LLMs. Finally, we discuss the challenge of integrating LLMs into the evolving landscape of healthcare in real-world scenarios.

Keywords

Artificial Intelligence (AI)Large Language Model (LLM)psychiatry medical application

Electronic Supplementary Material

Download File(s)

BDMA-2024-0111-ESM.xlsx (40.4 KB)

References

[1]

J. A. Lieberman and A. J. Rush, Redefining the role of psychiatry in medicine, Am. J. Psychiatry, vol. 153, no. 11, pp. 1388–1397, 1996.

LLM	Training mode	Base model	Data source	Main language	Application
SoulChat^[27]	Fine-tuning	ChatGLM-6B	SoulChatCorpus	Chinese	Psychological counseling
ChatCounselor^[28]	Instruction fine-tuning	Vicuna-v1.3-7B	Psych8k	English	Psychological counseling
Psy-LLM^[29]	De nove training	PanGu, WenZhong	PsyQA, social media	Chinese	Psychological counseling
Mental-LLM^[30]	Instruction fine-tuning	Alpaca, FLAN-T5	Social media	English	Mental state/Risk action classification
MentalLLaMA^[31]	Instruction fine-tuning	LLaMA2	Social media	English	Mental health detection with explanations
ExTES-LLaMA^[34]	Instruction fine-tuning	LLaMA	Synthetic	English	Emotional support
ZhiXin^[35]	Instruction fine-tuning	LLaMA2	Local Electronic Health Record (EHR)	Chinese	Mental disorders diagnosis

Model	Training mode	Language	Base
Note: PEFT: Parameter Efficient Fine-Tuning; FFT: Full model Fine-Tuning; TP: Text Prompt; FS: From Scratch
HuatuoGPT^[32]	FFT	Chinese	Bloomz
ClinicalGPT^[37]	PEFT	Chinese	BLOOM
GatorTronGPT^[38]	FS	English	GPT-3
MEDITRON-70B^[39]	FFT	English	LLaMA
ChatDoctor^[40]	FFT	English	LLaMA
MedAlpaca^[41]	PEFT	English	LLaMA
HuatuoGPT-II^[42]	FFT	Chinese	Baichuan/Yi
Asclepius^[43]	FFT	English	LLaMA
Zhongjing^[44]	PEFT	Chinese	Ziya-LLaMA
AlpaCare^[45]	FFT	English	LLaMA
Med-PaLM^[46]	PEFT	English	Flan-PaLM/PaLM
GPT-4-Med^[47]	TP	English	GPT-4
DoctorGLM^[48]	PEFT	English/Chinese	ChatGLM
BenTsao^[49]	PEFT	Chinese	LLaMA
PMC-LLaMA^[50]	FFT	English	LLaMA
BianQue^[51]	FFT	Chinese	ChatGLM
Med-PaLM2^[52]	FFT	English	PaLM2
ChatGLM-Med^[53]	−	Chinese	ChatGLM
ChatMed^[54]	PEFT	Chinese	LLaMA
ShenNong-TCM-LLM^[55]	PEFT	Chinese	LLaMA
CareGPT^[56]	PEFT	Chinese	LLaMA/Baichuan
Towards accurate differential diagnosis with LLMs^[57]	FFT	English	PaLM2
Taiyi^[58]	PEFT	Chinese	Qwen
DISC-MedLLM^[59]	PEFT	Chinese	Baichuan
Qilin-Med^[60]	PEFT	Chinese	−
Clinical Camel^[61]	PEFT	English	LLaMA

Data	Source	Type	Language	Accessibility
SoulChatCorpus^[27]	Synthetic	Dialogue diagnosis	Chinese	Limit
Psych8k^[28]	Medical consultation	Dialogue diagnosis	English	Private
MD-EHR^[37]	EHR	Text data diagnosis	Chinese	Private
Clinical Guideline-dataset^[39]	Knowledge base	General knowledge	English	Limit
HealthCareMagic100k^[40]	Medical consultation	Dialogue diagnosis	English	Limit
Anki Flashcards^[41]	Knowledge base	Knowledge QA	English	Public
MedInstruct-52K^[41]	Synthetic	Dialogue diagnosis	English	Public
Wikidoc^[41]	Social media	General knowledge	English	Public
Asclepius-data^[43]	EHR	Text data diagnosis	English	Public
CMtMedQA^[44]	EHR	Dialogue diagnosis	Chinese	Public
S2ORC(selected)^[50]	Research papers	General knowledge	English	Public
MedC-K^[50]	Knowledge base	General knowledge	English	Limit
MedC-I^[50]	Various	Various	English	Limit
DISC-Med-SFT^[59]	Various	Various	Chinese	Public
MedQuAD^[63]	Knowledge base	Knowledge QA	English	Public
CMeKG^[64]	Knowledge base	General knowledge	Chinese	Public
ChatMed_Consult_Dataset	Synthetic	Dialogue diagnosis	Chinese	Limit
Dreaddit^[65]	Social media	Text data diagnosis	English	Public
DepSeverity^[66]	Social media	Text data diagnosis	English	Public
CSSRS-Suicide^[67]	Social media	Text data diagnosis	English	Public
USMLE (MedQA)^[68]	Examination	Knowledge QA	English	Public
MedMCQA^[69]	Examination	Knowledge QA	English	Public
UF Health IDR^[70]	EHR	Text data diagnosis	English	Private
n2c2^[71]	EHR	Text data diagnosis	English	Limit
Wikipedia^[72]	Knowledge base	General knowledge	English	Public
PubMedQA^[73]	Research papers	Knowledge QA	English	Public
SDCNL^[74]	Social media	Text data diagnosis	English	Public
PsyQA^[75]	Medical consultation	Dialogue diagnosis	Chinese	Limit
MedDialog-CN^[76]	Medical consultation	Dialogue diagnosis	Chinese	Public
IMCS-V2^[77]	Medical consultation	Dialogue diagnosis	Chinese	Public
CHIP-MDCFNPC^[78]	Medical consultation	Dialogue diagnosis	Chinese	Public
CBLUE^[78]	Various	Various	Chinese	Public
cMedQA2^[79]	Medical consultation	Dialogue diagnosis	Chinese	Public
cMedQA-KG^[79]	Medical consultation	Dialogue diagnosis	Chinese	Public
webMedQA^[80]	Medical consultation	Dialogue diagnosis	Chinese	Public
Huatuo-26m^[81]	Various	Various	Chinese	Limit
xywy-KG^[81]	Medical consultation	Dialogue diagnosis	Chinese	Public
39Health-KG^[81]	Medical consultation	Dialogue diagnosis	Chinese	Public
SMILE^[82]	Synthetic	Dialogue diagnosis	English	Limit
CLPsych15^[83]	Social media	Text data diagnosis	English	Public
T-SID^[84]	Social media	Text data diagnosis	English	Public
SWMH^[84]	Social media	Text data diagnosis	English	Public
SAD^[85]	Social media	Text data diagnosis	English	Public
CAMS^[86]	Social media	Text data diagnosis	English	Public
IRF^[87]	Social media	Text data diagnosis	English	Public
MultiWD^[88]	Social media	Text data diagnosis	English	Public

Limitation	Description
Temporal relevance	LLMs rely on static corpora that are not automatically updated post-training. This limits their ability to generate new, contemporary knowledge unless retrained or fine-tuned.
Clinical usability	LLMs may produce fabricated information, which is critically problematic in clinical settings. Additionally, the data used for training psychiatric LLMs, often sourced from social media, may not be representative of clinical scenarios.
Output stability/reproducibility	The variable output of LLMs poses challenges in clinical psychiatry, as specific inputs do not guarantee consistent outputs. This can increase the labor required to verify output accuracy.
Empathy	LLMs may not adequately capture the nuances of human emotions and the complexities of psychiatric conditions, impacting their effectiveness in mental health care that relies heavily on empathy and context.
Modality limitation	LLMs primarily handle linguistic or textual information, overlooking other crucial modalities like EEG, imaging, and pharmacodynamics involved in the diagnosis and treatment of mental illnesses.
Computational cost	The deployment of LLMs in psychiatry faces computational limitations, especially since the local operation is anticipated for data sensitivity; this presents challenges in fine-tuning and renders running full-scale LLMs an inefficient use of resources.
Interpretability	Attempts to make LLMs self-explain their reasoning process do not necessarily enhance interpretability. Such explanations may be unreliable or superficial, not addressing the “black-box” nature of LLMs.
Ethical consideration	This category includes concerns about patient confidentiality, data security, informed consent, accountability, and equitable access, which are crucial in integrating LLMs into psychiatric practice.