法学实证 | 如何运用机器学习方法分析宪法的起源?发表时间:2026-03-07 10:49 【机器学习如何运用于法学研究】机器学习是一种让计算机通过分析大量数据来学习规律和模式的技术,而不是依靠明确的编程指令来完成特定任务。在自然语言处理(NLP)中,机器学习被用来让计算机理解和处理人类语言,例如通过统计词语出现的频率、分析句子结构或识别文本之间的语义相似性。![]() 在下面这篇研究宪法的论文中,作者正是利用机器学习算法对数百部宪法文本进行分析,从而量化不同宪法之间的“语义贡献”——也就是通过计算词汇的使用模式,来判断一部新宪法在多大程度上借鉴了历史上的经典宪法文本。【来源】Ramdas, Tejas; Huang, Patrick Chung-Chia; Garoupa, Nuno; Wells, Martin T.; Chang, Yun-chien; and Ginsburg, Tom, "The Genesis of Constitutions: A Natural Language Processing Approach" (宪法的起源:一种自然语言处理方法)(2025). Public Law and Legal Theory Working Papers. 25-43.https://chicagounbound.uchicago.edu/public_law_and_legal_theory/964 【内容提要】论文运用自然语言处理方法,系统研究了1900年至2020年间16部具有代表性的“核心”与“标志性”宪法对全球572部新宪法的语义影响。研究发现,以美国1789年宪法、西班牙1812年宪法、法国1848年宪法为代表的早期核心宪法在整个20世纪持续发挥影响,尽管其影响力在20世纪初至二战期间有所下降,但自1950年代以来趋于稳定,尤其是美国宪法和法国1848年宪法的影响从未完全消失。在方法上,论文提出了一种基于文档-词项矩阵(DTM)的生成式分解方法,能够将每一部目标宪法的语义内容分解为来自多部参考宪法的贡献权重,并估算出其中的“创新成分”。该方法弥补了传统嵌入模型(如BERT、Word2Vec)在多源归因和语义分解方面的不足,确保了分析的可解释性和透明度。研究还通过区分人权条款与非人权条款,进一步验证了结果主要由分权条款驱动。 最后,论文按法律渊源、殖民历史和地理区域对宪法影响进行了细分分析,揭示了不同宪法传统和帝国遗产对宪法传播的塑造作用。研究不仅确认了早期宪法在现代宪法演变中的持久地位,也为宪法扩散研究提供了新的量化工具和分析视角,强调了方法创新在宪法比较研究中的重要性。 一、导论 宪法具有跨国传播的特性,其思想与模式的扩散一直是学界重点研究课题。研究表明,宪法的传播路径由历史积淀、政治博弈、社会变迁及经济基础等多重因素共同塑造。具体而言,宪法理念与实践的传播是一个动态过程,既受国际格局、区域互动、全球化浪潮等外部力量驱动,又需适应本土政治生态、文化传统及制度需求进行适应性调整,最终形成跨语境的宪法实践范式。 随着比较宪法研究领域大型数据集的整合发展,该领域的实证研究正迈向精细化阶段。尽管已有研究揭示了宪法语言传播的部分规律,但学界对“哪些理论模型与实证结论最能被现有数据验证”仍存在分歧。本文创新采用算法分析方法,系统考察了1900-2020年间16部具有里程碑意义的宪法对全球572部新宪法的影响轨迹。研究覆盖更广泛的“源宪法”与“目标宪法”样本,证实如美国1789年宪法、西班牙1812年宪法、法国1848年宪法等经典文本,在长达121年的时间跨度内持续发挥着显著的范式塑造作用,而法国1791年宪法的影响力则相对有限。 二、文献回顾 比较宪法领域长期关注法律理念与模式的跨国传播机制,尤其聚焦于经典宪法文本对全球宪政实践的影响路径。研究表明,宪法的辐射力源于历史积淀、政治稳定性、法律创新性及来源国国际地位等多重因素叠加效应。例如,美国1789年宪法因民主制度创新与全球影响力形成持续示范效应,西班牙1812年宪法则通过殖民历史纽带在拉美地区产生深远影响。Law和Versteeg(2011)的实证研究更揭示了全球宪法文本在意识形态层面既存在趋同现象又保持差异性的复杂特征,印证了宪法传播中“普遍性原则”与“本土化适配”的辩证关系。 法律传统分类是比较法研究的核心维度,近年随着实证方法兴起呈现量化转向趋势。Pargendler(2012)提出的法律家族理论在法律经济学领域得到拓展,Garoupa & Pargendler(2014)通过定量分析验证了普通法系与民法系对金融市场发展的差异化影响。然而传统分类体系面临挑战:La Porta等人(2008)的四分法与Klerman等人(2011)的六分法存在分类标准争议,Ho et al.(2024)运用机器学习方法对1900-2020年宪法数据集的分析更显示,经典普通法-民法二分法在宪法领域解释力有限,需构建更精细的分类维度以捕捉宪法文本的动态演变特征。 新兴研究正突破传统分类范式,探索宪法文本的跨维度关联与时空演变规律。Chang等人(2021)提出多标准国家分类框架,Bradford等人(2021)强调分类有效性取决于具体法律维度。Law(2019)通过615部宪法文本的自动化分析识别出英国、法国、西班牙前殖民地、社会主义四大宪政传统,揭示其流行度变化与帝国兴衰的关联性。Ho et al.(2024)进一步发现宪法“转换者”国家存在关键重分类时点,暗示宪法文本更新存在路径依赖与突变并存的特征。这些发现指向宪政史研究的新方向:需系统考察旧文本的持续影响力、文本更新的动力机制及具体文本的示范效应边界,本文正是对此学术前沿的深化探索。 三、研究方法 本研究采用专家遴选与算法分析相结合的方法论框架。在核心宪法选择层面,基于Law和Versteeg(2012)的研究基础及团队专业知识,精选四部19世纪前宪法作为“核心”模型:美国1791年宪法(早期国家宪法典范)、法国1791年宪法(法国革命价值观载体)、西班牙1812年宪法(拉丁美洲自由宪政主义源头)及法国1848年宪法(欧洲“民族之春”改革样本)。同时遴选十二部20世纪后“标志性”宪法,如墨西哥1917年宪法(制度创新典范)、德国1919年宪法(魏玛宪政里程碑)等,均因其全球影响力或制度突破性被纳入分析体系。选材标准兼顾历史代表性、区域辐射力与学术共识度,排除地域局限或关注度滞后的文本。 方法论核心在于量化参考宪法对目标宪法的语义贡献度。通过构建“混合比例”概率模型,将1900-2020年间572部新宪法分解为预设参考宪法集合的加权语义贡献与残差创新分量。该分解需满足四项关键标准:解析目标文本为多源宪法的加权贡献组合;量化并隔离真正新颖内容;保持单词层面可解释性;确保跨翻译版本与时间维度的稳健性。此过程区别于传统相似度测量,强调语义贡献的溯源性与创新性内容的显性化,为追踪宪法思想的借鉴轨迹提供实证路径。 ![]() 技术实现采用文档词项矩阵(DTM)生成方法。首先对所有宪法文本进行语言检测与谷歌神经机器翻译(英译处理),随后执行文本清洗(移除非字母字符与停用词),构建参考宪法的“词袋”DTM矩阵,行代表参考宪法/残差分量,列对应词汇表唯一词项,单元格为标准化词频。目标宪法则构建单行DTM矩阵,通过假设其词汇由参考宪法贡献与残差共同生成,运用算法求解最优“混合比例”。该过程重复572次,形成每部目标宪法与参考宪法的语义关联图谱,最终实现精确量化每部参考宪法对目标宪法的语义贡献程度,为宪政史研究提供量化分析范式。 四、结论 本研究通过创新方法论重新审视了宪法影响力的时空演变规律。结果显示,美国1791年宪法、西班牙1812年宪法及法国1791/1848年宪法等早期里程碑文本在120余年间的辐射力呈现“先衰后稳”特征:20世纪上半叶影响力逐步减弱,至50-60年代趋于稳定。值得注意的是,美国1791年宪法与法国1848年宪法的影响力从未完全消弭,即便在同期新宪法涌现的背景下仍保持显著地位,印证了经典宪法文本的持久示范效应。 20世纪新诞生的标志性宪法,尤其是二战后制定的文本,在宪政现代化进程中扮演关键角色。奥地利1920年宪法与法国1946年宪法的影响力尤为突出,但早期核心宪法的影响力并未被完全替代。通过分析普通法系、法国民法系、德国民法系三大法律传统,发现各体系内代表性宪法(如美国宪法在英语国家、法国宪法在法语国家)初期占据主导,但随后均面临现代性标志宪法的挑战,形成“传统-创新”的动态平衡。 地域视角揭示宪法影响力的空间异质性:美国宪法在北美、南美及东亚南亚地区持续相关,但在欧洲和非洲影响力有限,这些地区更受新宪法影响;法国1848年宪法在受近期宪法发展影响的区域影响力减弱。研究证实比较宪法学界的经典命题——旧宪法影响力随时间衰减,但揭示四个重要细节:18-19世纪核心宪法衰减速率差异显著(美国宪法更具韧性);20世纪初影响力显著下降后于二战后趋稳;20世纪标志宪法未完全抹去早期文本影响;无明确线性趋势显示经典宪法被新文本全面取代,且该模式在法律传统、殖民遗产、地理区域间存在显著差异。 【总结与扩展】机器学习运用于法学研究的文献还有不少。目前,在国内法学学术界,相关的成果还较为匮乏。例如,《Using NLP to Analyze Constitutional Preambles》(运用自然语言处理分析宪法序言),该文章究通过自然语言处理技术系统分析美国宪法序言对全球各国宪法序言的语言影响力,采用文本预处理、K-Means聚类、余弦相似度计算、时间序列分析及PageRank网络分析等多维度方法,证实美国宪法序言在二战后影响力持续增强而非减弱,其核心地位通过词云可视化、聚类地图及网络节点重要性得到实证支撑,尽管存在算法稳定性与偏倚局限,仍为宪政史研究提供了量化实证新视角,并强调未来需深入探讨因果效应而非仅关注网络位置。以及《Natural language processing in law: Prediction of outcomes in the higher courts of Turkey》(自然语言处理在法律领域的应用:预测土耳其高等法院的判决结果)。该文首先回顾了NLP在法律领域的最新进展,然后利用多种算法,研究了预测不同法院判决结果的问题。与以往的研究相比,本研究涵盖的法院数量和算法种类都更为广泛,因此可为该领域的后续研究提供参考和基准。研究仅使用事实描述,无需查阅实际判决书,便成功预测了土耳其宪法法院和上诉法院的判决结果,并取得了新的成果。本研究采用的方法基于决策树(DT)、随机森林(RF)、支持向量机(SVM)以及最先进的深度学习(DL)方法;具体而言,包括门控循环单元(GRU)、长短期记忆网络(LSTM)和双向长短期记忆网络(BiLSTM),并为每个模型集成了注意力机制。所有算法的预测结果均以对比和详细的方式呈现。研究证明,土耳其法律体系的法院判决结果可以得到高精度的预测,尤其是在使用基于深度学习的方法时。本文结果与文献中针对其他语言和法律体系的先前研究结果具有相似的性能。
文章分类:
实证研究
|