前沿 | 人工智能技术法律实证培训招生简章(总第十期)发表时间:2026-05-11 17:13 如何实现法律文本的批量获取→读取→整理→清洗→分析→可视化的完整过程? 分析的裁判文书或者法学论文等文本多达数万份,甚至上百万份,人工逐一阅读几乎不可能,如何快速提取、归类和厘清其中的关键和核心信息? 如何对法律文本进行情感分析以及其他自然语言处理(NLP)? 如何量化和区分不同法院不同时期的审判风格、审理要点和审理逻辑? 如何量化和区分法学学术研究的时代变迁特征? 如何通过AI起草和完善代码(逻辑闭环)? 如何调用大模型的强大算力服务于法学学术研究? 基于神经网络等模型的机器学习技术如何运用于法学学术研究? 如何使用真实的司法裁判文书训练法律大模型,从而进行司法预测? 哪些自然语言处理模型可以用于法律大数据?应当如何应用? 尤为关键的是,上述内容应当如何操作和实现? 一、师资力量 戴治勇教授,浙江大学经济学博士,现为西南财经大学法学院教授、博士生导师,法律经济学研究所所长,研究方向为法律经济学。在《法学研究》《经济研究》《管理世界》《法制与社会发展》《财经论丛》《世界经济文汇》《南方经济》《制度经济学研究》《财经科学》《山东大学学报》(哲学社会科学版)《Journal of Rural Studies》等CSSCI和SSCI期刊发表论文多篇,主持国家社会科学基金项目两项,其他省部级项目多项。 黄致韬博士,香港大学法学博士,北京大学法学硕士、法学学士,现为北京大学国际法学院博士后研究人员,研究方向为法律人工智能、法律实证研究。在《法律和社会科学》等中英文刊物发表论文多篇,参与多项法律实证和人工智能项目,拥有法律实证研究数据处理、法律人工智能模型构建领域的经验。 阳李博士,首都经济贸易大学法律经济学博士,西南财经大学法学硕士,现为成都中医药大学讲师,研究方向为法律的经济分析。在《制度经济学研究》《广东财经大学学报》《人大法律评论》《南大法学》《公法研究》《中山大学法律评论》《厦门大学法律评论》等期刊发表论文多篇;拥有处理千万量级司法裁判文书和百万量级法学学术论文文本分析的丰富经验;出版著作《法律的经济分析:基本原理和Stata应用》《民法典与国家治理》两部。 二、培训业绩 截至目前,一共开展九期法律实证研究培训(相关信息可参阅公众号“法学实证研究”或者唯一官网“www.ealegal.cn”的“法学实证”板块),为数百名学员提供了有效指导和精准服务。参训学员主要来自北京大学、复旦大学、浙江大学、中国科学院大学、中国科学技术大学、北京理工大学、武汉大学、中国人民公安大学、山东大学、东南大学、吉林大学、中山大学、北京外国语大学、四川大学、北京师范大学、中国政法大学、中南财经政法大学、长安大学、华侨大学、首都经济贸易大学、上海财经大学、江西财经大学、西南政法大学、西北政法大学、上海政法学院、广东警官学院、郑州警察学院等高校,亦包括美国密歇根州立大学、比利时鲁汶大学、瑞士苏黎世大学、罗马第二大学、香港城市大学、香港中文大学、澳门科技大学、澳门城市大学等高校,以本科生、硕士生、博士生和青年教师居多,兼有部分公安干警、法官、检察官和律师等法律实务专业人士。 三、培训内容 培训课程遵循“总—分—总”的学习逻辑:首先,在宏观层面介绍人工智能技术及其理论路径;随后,详细介绍各个具体的人工智能基础技术和模型,在介绍基本原理的同时,侧重于具体的操作和结果解读(以Python或者Anaconda为操作软件);最后,以司法裁判文书和法学学术论文等法学文本为分析载体,对人工智能基础技术和模型的具体运用进行全面而系统的操作、解读和分析。 (一)入门基础技术 1.Python和Anaconda环境搭建、变量和数据类型、字符串、元组、数组、列表、字典、if语句、for循环和while循环、定义与调用函数、正则表达式、类、文件读写、路径处理等。(附赠) 2.基础技术的组合应用。 (二)部分人工智能基础技术及模型 1.词袋模型(简化的表达模型) 2.TF-IDF(词频-逆文档频率) 3.Word2Vec(产生词向量的神经网络模型)和余弦相似度 4.GloVe(无监督词向量模型) 5.Doc2vec(将文档转换为固定长度的向量表示) 6.FastText(Facebook开源的高效文本表示学习和分类库) 7.RAKE(自动关键词提取的文本挖掘算法)和YAKE(无监督、轻量级、多语言的关键词提取算法) 8.LDA(隐含狄利克雷分布的文档主题生成模型)和TextRank(源于Google的PageRank网页排名算法,主要用于关键词提取和自动文本摘要) 9.BERT(基于Transformer架构的预训练语言模型)和Kmeans(k均值聚类算法) 10.SVM(支持向量机) 11.DNN(深度神经网络)、RNN(循环神经网络)、LSTM(长短期记忆网络)、GRU(门控循环单元)、CNN(卷积神经网络) 12.模型训练、应用和预测 13.基于大模型和深度学习的文本向量化、分类、聚类、情感分析 (三)人工智能基础技术及模型应用的代表性论文 目前,在法学学术领域,人工智能基础技术及模型应用的论文较为前沿;现摘录部分供参考的相关性论文如下。 代表性论文1:Miguel F.P. de Figueiredo, Brett Hashimoto & Dane Thorley, “Unwarranted Warrants?An Empirical Analysis of Judicial Review in Search and Seizure”《无根据的搜查令?对搜查扣押司法审查的实证分析》 (2025).Harvard Law Review《哈佛法律评论》.(SSCI) 研究基于美国社会每年发生的海量警察搜查行为这一现实背景,指出尽管第四修正案的搜查令要求旨在通过司法审查制约警察权力,但学术界对其实际运作机制知之甚少,尤其缺乏对法官如何具体审查搜查令的大规模实证分析。为了揭示这一“黑箱”过程,研究团队创新性地利用犹他州“电子搜查令”系统,对超过33000份申请进行了定量分析,通过结合申请书全文和精确的时间戳数据,系统评估了审查时长与批准情况。研究发现揭示了审查过程的两个核心特征:极高的效率与极高的批准率。数据显示,法官审查搜查令的中位时间仅为三分钟,超过十分之一的申请在一分钟内获批,首次提交的批准率高达93%,而最终批准率更是达到98%。研究进一步指出,即使考虑了搜查令的类型、复杂度和文本长度,许多获批的申请也显然未被仔细或完整阅读,这表明司法审查在实践中可能流于形式。 涉及知识点:关键词分析发现,系统中常使用“可能”(likely)、“相信”(believe)、“据信”(it is believed)等主观性词汇,将“合理根据”的客观标准转化为申请方的主观判断。 代表性论文2:Hongbin Cai, Heng Chen, Yuyu Chen, Sisi Zhang,Cronies in the courtroom: Political interference and judicial reforms《法庭上的裙带关系:政治干预与司法改革》,Journal of Public Economics《公共经济学杂志》,2026.(SSCI) 研究通过中国裁判文书网获取2014-2019年间约2534万份原始民事判决书,构建了覆盖全国31个省级行政区的基础数据库。首先通过关键词过滤排除刑事、行政等非民事案件,再利用正则表达式提取案件编号、审判日期、当事人信息等结构化字段。其次,基于企业名称特征的分类算法——通过识别名称中“公司”“集团”“厂”等后缀及“有限责任”“股份”等关键词,从2311万份有效案件中筛选出157.6万份企业间诉讼样本。最后,关联变量设计采用“地理-教育-职业”三维匹配法:首先通过官员出生地、高等教育地、工作地与企业注册地的空间重叠性判断关联;其次通过官员任期与企业诉讼时间的时间重叠性验证关联时效性。例如,若某市委书记在2015-2018年间任职,且其出生地与企业注册地相同,则该企业被标记为“与市委书记关联”。 代表性论文3:Elliott Ash, Daniel L Chen, Suresh Naidu, Ideas Have Consequences: The Impact of Law and Economics on American Justice《法学和经济学,谁更能影响司法判决?》, The Quarterly Journal of Economics《经济学季刊》, 2025.(SSCI) 论文通过实证研究,深入剖析了早期法律与经济学运动对美国司法机构产生的深远影响。研究聚焦于曼恩联邦法官经济学研究所——这一在1976年至1999年间发挥了重要作用的强化经济学培训课程,期间它为近半数的联邦法官提供了专业培训。本研究依托美国巡回法院发布的司法意见以及涵盖100万份地方法院刑事量刑决定的庞大数据库,系统评估了参与Manne项目的法官在培训前后的内在变化。研究结果显示,法官在接受经济学培训之后,其撰写的司法意见中融入了更多经济学专业术语,对相关案件的监管机构的不利裁决更为频繁,且在刑事量刑上表现出更为严厉的倾向。基于这些发现,研究推断,经济学作为一门严谨的社会科学学科,在影响并说服法官决策方面展现出了独特的效力。 代表性论文4:Ramdas, Tejas; Huang, Patrick Chung-Chia; Garoupa, Nuno; Wells, Martin T.; Chang, Yun-chien; and Ginsburg, Tom, “The Genesis of Constitutions: A Natural Language Processing Approach”《宪法的起源:一种自然语言处理方法》(2025). Public Law and Legal Theory Working Papers. 25-43. 论文运用自然语言处理方法,文本预处理、K-Means聚类、BERT、Word2Vec、余弦相似度计算、时间序列分析及PageRank网络分析等多维度方法,系统研究了1900年至2020年间16部具有代表性的“核心”与“标志性”宪法对全球572部新宪法的语义影响。研究发现,以美国1789年宪法、西班牙1812年宪法、法国1848年宪法为代表的早期核心宪法在整个20世纪持续发挥影响,尽管其影响力在20世纪初至二战期间有所下降,但自1950年代以来趋于稳定,尤其是美国宪法和法国1848年宪法的影响从未完全消失。 代表性论文5:John Zhuang Liu, Wenwei Peng, Shaoda Wang, and Daniel Xu, “The Law and Economics of Lawyers: Evidence from the Revolving Door in China’s Judicial System”《律师的法律与经济学:来自中国司法系统“旋转门”现象的证据》“做过法官的律师更能打赢官司吗?”NBER Working Paper 33708 (2025). 通过中国裁判文书网收集了超过1.44亿份法院判决文书,文书详细记录了案件的基本信息、法院裁决、法官及律师信息等,为分析律师对司法结果的影响提供了丰富的基础数据。天眼查平台则提供了中国企业的全面注册信息,包括企业位置、所有权类型、法律代表、股东结构等,有助于了解涉案企业的背景特征。通过中国知网(CNKI)的论文,获取了法官的教育背景数据。这些数据资源的匹配共同构成了研究的数据基础。 代表性论文6:Ludwig, Jens, and Sendhil Mullainathan. “Machine learning as a tool forhypothesis generation.”《机器学习作为假设生成的工具:相貌会影响量刑?》 The Quarterly Journal of Economics《经济学季刊》.2024.(SSCI) 论文以法官的保释决策为例,通过训练一个深度神经网络模型发现,被告的面部特征(仅凭照片像素)能够解释法官决策中相当大比例的可预测变异(约25%至50%),远超过已知人口统计特征或心理学特征(如吸引力、可信度等)的解释力。为了解读这一“黑盒”模型的发现,论文开发了一种人机交互流程:通过生成对抗网络(GAN)生成在拘留风险上对立的人脸合成图像对,让外部受试者观察并描述差异,从而提取出可解释的假设。该方法成功识别出两个新颖且可操作的面部特征——“整洁程度”(well-groomed)和“面部丰满度”(heavy-faced),并验证了这些特征与法官实际决策显著相关。 涉及的知识点:神经网络;图片识别;相貌相似性。 代表性论文7:张剑. 论陆游对苏轼诗歌的学习及经验——兼谈人工智能时代的文学研究与写作[J]. 北京大学学报(哲学社会科学版), 2026, 63 (01): 117-128.(CSSCI) 论文的思路:在统计苏轼和陆游诗歌字句相似和韵部相似时,借助人工智能工具,通过difflib.SequenceMatcher模块分析序列相似性,筛选出千余条陆游诗句可能受苏轼影响的实例;韵部相似上,软件系统穷尽式统计出陆游次韵苏诗情况,二韵以上严格的次韵诗足以改变学者之前印象判断。 亦可通过TF-IDF、Word2Vec、余弦相似度以及匹配的方式完成。 代表性论文8:Koffi, Marlène. “Innovative Ideas and Gender (In)equality.”《学术界中的性别偏见:女性学者的论文被忽视》.American Economic Review 《美国经济评论》115 (7) 2025.(SSCI) 论文的思路:基于1991-2019年间发表于TOP16经济学期刊的2.4万余篇论文及其91万余条引用数据,运用机器学习文本分析技术(包括TF-IDF算法和余弦相似度计算)构建了衡量论文关联性的“相似度指数”、识别应引未引现象的“遗漏指数”以及评估研究质量的“创新指数”,系统性地量化验证了经济学领域存在显著的性别引用偏见。 代表性论文9:Yubo Wang, Lüyuan Wang, Fang Xie, Haitao Liu, From roance to reality: lexical and topic evolution in Chinese popular lyrics through digital humanities approaches《从浪漫到现实:运用数字人文方法探究中国流行歌词的词汇和主题演变》“为什么流行歌曲越来越不好听了?”,Digital Scholarship in the Humanities, 2026.(SSCI) 研究聚焦2000年至2025年间中国流行歌曲歌词的词汇与主题演变,借此反映公众情感的变化以及更广泛的社会文化转型。通过构建包含1560首具有代表性流行歌曲的中国流行音乐历时语料库(时间跨度达25年),有效填补了这一研究领域的空白。研究结果显示,高频词汇始终聚焦于情感表达、个人反思和人际互动。其中,类型标记比(TTR)显著提升,表明歌词词汇的多样性不断增强;而文本复杂度则呈现波动变化,反映出歌曲创作风格的动态演变。主题分析共识别出十二个主要主题,涵盖浪漫爱情、未来憧憬和都市生活等方面。这些主题的结构从早期侧重自然与时间的抽象概念,逐渐转变为情感的具体化表达和心理层面的深度内省。值得注意的是,近年来负面情感主题和自指性艺术主题显著增多。 论文涉及知识点:语料库构建(CPMD): 研究构建了包含1,560首中文流行歌曲的“中国流行音乐历时语料库”。样本选自2000年至2025年间的主流音乐排行榜(如百度、网易云、QQ音乐),按五年一个阶段进行分层抽样,确保了数据的代表性和时间上的平衡。 数据预处理:使用Python的Jieba库进行分词和词性标注,并结合自定义停用词表和同义词词典进行清洗 。 词频分析:计算不同时期的归一化词频,生成词频热力图以观察高频词变化。 文本复杂度计算:采用了类符/形符比(TTR)来衡量词汇丰富度,并使用CNText和CRIE工具包计算文本复杂度、难词率和Dale-Chall可读性分数 。 主题建模:采用BERTopic模型进行无监督主题聚类。该模型结合了Transformer嵌入(MiniLM)、UMAP降维和HDBSCAN聚类算法,能有效识别潜在的语义结构。研究最终确定了12个核心主题,并利用层次聚类和时间序列分析追踪其演变。 代表性论文10:Markowitz, David & Mazzuchi, Thomas & Syropoulos, Stylianos & Law, Kyle & Young, Liane.An Exploration of Basic Human Values in 38 Million Obituaries Over 30 Years《3800万篇讣告体现出的人类价值观》.[J].PNAS.《美国科学院院刊》.2025.(SCI) 基于美国近30年3800万份讣告的实证研究发现:传统价值(如宗教关怀)与仁爱价值(如利他行为)是最普遍被铭记的维度。研究通过时间序列分析揭示:性别维度呈现“成就-权力”与“仁慈”的二元强化:男性讣告更突出职业成就与权力影响,女性则强调关怀特质,这种分化与刻板印象内容模型的能力-热情维度及社会角色理论形成理论对话。年龄维度显示,老年人更因传统价值被铭记,年轻人则更多体现仁爱特质。值得关注的是,男性讣告中的价值变异度显著高于女性,可能反映能力维度叙事(如职业成就)随年龄的增长而强化,而温暖维度叙事(如家庭角色)则保持相对稳定。 论文涉及知识点:gender库性别预测,单词计数和词汇占比,通过词汇频次分析揭示不同价值维度在集体记忆中的表达强度。 代表性论文11:陈茁. 社会结构的文本大数据测量——以中国社会职业地位变迁为例(1940—2015) [J]. 社会学研究, 2025, 40 (02): 203-225+230.(CSSCI) 基于文本大数据,运用自然语言处理算法来测量不同时期的话语结构,进而反映社会结构及其变迁规律的方法。以中国社会职业地位的历史变迁(1940—2015)为例,本文基于书籍大数据,从财富、权力、文化、声望四个维度刻画了职业地位和职业地位结构的历史变迁图景。 论文涉及知识点:Word2Vec,文本分析流程等。 代表性论文12:Mingyang Chen, Gaojie Song, Zhipeng Wu, Zhanxue Xu, Boyang Xu, Judges are trained as good explainers but maligned sentencers: a text similarity approach《法官被训练成为优秀的解释者,却是饱受谴责的判决者:一项文本相似度研究》, Law, Probability and Risk《法律、概率与风险》, Volume 25, 2026.(SCI、SSCI). 论文从中国裁判文书网上收集了2018年至2021年期间共计5839起抢劫案以及12243起盗窃案的裁判文书。随后,运用松弛词移动距离(RWMD)算法,对每两起案件在事实阐述和推理逻辑层面的相似度进行了计算;同时,采用欧几里德距离算法,对案件量刑方面的相似度展开计算。经过研究分析,得出以下发现:其一,从整体情况来看,法官在案件处理中,更倾向于进行一致的推理以及量刑操作。其二,法官在案件推理环节的表现较为出色,能够展现出较高的专业水准和逻辑性,然而在量刑结果上却未能达成一致。这种情况引发了一种特殊现象,即部分案件出现了结果不一致的情况,但与之相伴的却是恰当合理、符合法律精神的司法意见。其三,综合来看,在面对复杂案件时,法官在推理层面的表现比处理简单案件时更为一致;但在量刑方面,处理复杂案件时的一致性却不如处理简单案件。 论文涉及知识点:松弛词移动距离(RWMD)算法、欧几里德距离算法和文本相似性。 (四)案例演练:操作、代码及其解读 1.从2014年司法裁判文书上网至今,我国的法官说理变得更专业性化还是人性化了? 2.《法学研究》创刊之今,可分为哪几个变迁阶段?各个阶段的特点是什么? 3.不同法学学者的研究风格有何区别,如何测度?(以我国著名法学学者为例) 4.如何通过神经网络模型预测司法判决?如何对司法裁判文书进行情感分析? 5.《三国演义》中诸葛亮、刘备、张飞和关羽分别出现了多少次?四人之间的相似度如何排序? 6.《红楼梦》前八十回和后四十回各自的特征是什么?能通过尝试性分析二者的相似度和差别来判断作者是不是同一个人吗? 7.《西游记》中和唐僧秉性最为接近的徒弟是谁?美国历届总统最不合群的是谁? 8.《人民的名义》中,祁同伟与高育良的师徒关联,李达康与沙瑞金的上下级关系如何测度表现?他们的社交网络如何可视化?他们的主题建模与角色定位、情感倾向与行为预测如何展开分析? 9.为什么《狂飙》里,高启强更受群众欢迎?安欣的受欢迎程度不如高启强?如何通过机器学习的方式展开分析? 10.如果通过神经网络进行人脸识别? 11.如何结合上述所学模型,设计一个敏感信息监测(身份证号码和手机号码)的简单的小程序? 四、培训方式、时间 授课方式:线上,培训结束后三个月内提供无限制回放。 培训时间:2026年7月25日—7月27日(共三天)。 上午9:00-11:00,下午15:00-17:00。 五、培训对象、辅导答疑和论文指导 (一)针对零基础入门者 课程囊括了目前人工智能基础技术和模型的常用内容,以基本原理、实际操作和法律实证为抓手,由浅入深,通俗易懂,手把手逐词逐句的进行代码解读和操作,零基础也可以学会,尤其适合欲学习人工智能基础技术和模型的本科生、硕士生、博士生以及青年教师和司法实务人员。 (二)一对一答疑和辅导 人工智能基础技术和模型的初学者在起步阶段,往往会遇到诸多难题,例如基础数理知识不足、理解存在困难、程序无法正常运行、外部命令安装不完整、分析结果解读存在疑惑等等。为了系统解决初学者可能面临的诸多难题,我们对每位报名学员提供一对一答疑辅导。 一对一答疑和辅导由拥有博士学位的教师承担,力求系统解决学员在学习中遇到的困惑,提升人工智能基础技术和模型的运用能力,实现个人的成长。一对一答疑和辅导自正式开课之日起算,持续一年时间。 (三)论文指导 为减少学员在运用人工智能基础技术和模型面临的盲目感,课程结束后一年内,指导一篇涉及人工智能基础技术和模型之运用的论文(学术论文、本科毕业论文或者硕士论文)的构思和写作,主要聚焦于选题、逻辑构建、技术实现、论文各部分安排等内容。 六、课程费用和缴费方式 (一)课程费用 教师和实务工作人员:3080元/人。 学生(需提供学生证照片):2980元/人。 均可开发票,并可提供30学时的学时证书或结业证书(加盖四川驰腾力教育咨询有限公司公章)。 (二)缴费方式 银行账户户名:四川驰腾力教育咨询有限公司 银行账户账号:4402055609100213459 开户行:中国工商银行股份有限公司成都金牛交大路支行 亦可微信或支付宝直接转账。 七、咨询和报名信息 自该通知发布之日起开始报名,该通知同时在唯一官方网站(www.ealegal.cn)的“法学实证”板块上公布。 考虑到人工智能基础技术和模型的运用有一定的门槛,为预留充足的学习准备时间,报名前三十位的同学,自报名时,即由一位有博士学位的老师开始指导学习所必须的Python基础知识和理论基础知识,以便做好知识储备。 报名联系人:王老师 微信号:law4u2002 微信二维码(请扫码添加): ![]() |