大语言模型在创造力自动化评估中越来越受欢迎,它能够通过生成语义距离客观地衡量创意的质量。然后,目前的评估系统只针对英语,在中文语境中还缺乏相应的自动评估工具。这使得国内的研究者仍依赖人工评分者,人力成本与主观性问题影响了测量的信效度。为解决这一问题,北京大学心理与认知科学学院侯玉波课题组基于Transformer语言模型,开发了一个能够对中文多用途任务(AUT)独创性和灵活性加以评估的工具TransDis,这一工具不仅能自动地评估想法的新颖性,还能快速地评估想法的多样性。相关研究成果于2023年12月21日在国际著名心理学研究方法杂志Behavior Research Methods上在线发表。

论文包括三个研究,研究1首先筛选出适用于句向量计算的3个语言模型,构成TransDis评分系统,并发现模型生成的独创性和灵活性评分对人类评分有很强的预测作用;效度分析表明,模型生成的独创性和灵活性评分与其他创造力相关指标正相关,显示出与人类评分相似的效度。研究2采用启动实验的方法,证明了TransDis能够有效地区分接受创造性指导语的被试和接受常规性指导语的被试。研究3进一步采用启动的方法,证明这一方法可以有效地区分接受灵活指导语的被试和接受坚持指导语的被试,验证了已知群组效度(Known-Group Validity)。研究结果表明,TransDis在计算句子水平的语义距离方面非常有效,可以作为一种可靠和低成本的工具来衡量中文中想法的独创性和灵活性,并且在评估不同语言的创造力方面具有潜在的适用性。本研究提供了一个开放的平台来计算中文和其他50多种语言的AUT回答的独创性和灵活性(https://osf.io/59jv2/)。

文章的第一作者杨天宸和第三作者孙朝阳为侯玉波课题组的博士生,侯玉波副教授为本文通讯作者。这项研究由国家自然科学基金项目(32271125)资助完成。

Yang, T., Zhang, Q., Sun, Z., & Hou, Y. (2023). Automatic Assessment of Divergent Thinking in Chinese Language with TransDis: A Transformer-Based Language Model Approach. Behavior Research Methods. Doi:10.3758/s13428-023-02313-z


2023-12-22