小律所,大数据:诉讼的数据化时代

小律所,大数据:诉讼的数据化时代


诉讼案件会产生大量文档,而这些文档蕴藏的数据对此后同类型案件的代理和审判具有很高的参考价值。法律业大数据的时代已悄然到来。天同律师事务所是一个专注于商事诉讼的小律所,却希望通过实施诉讼大数据的战略,从更广泛的角度来分析、评价案件,为更多诉讼律师提供有价值的信息。

小律所,大数据:诉讼的数据化时代

当前,大数据的概念被各个行业广泛讨论,似乎我们一夜之间就进入了大数据时代,各种大数据的研讨会、讲座、营销方案蜂拥而至,让人眼花缭乱。在这样的语境下,中国的律师事务所也开始谈论大数据,一时间“大数据”概念风靡法律服务行业,见面要是不谈论大数据,就好像没有摸到时代的脉搏。

受IBM、麦肯锡和O’Reilly等公司的影响,关于大数据如何改善法律服务的文章也越来越多,但是很多文章是基于自身营销目的进行宣传,对大数据的核心思想(特别是法律行业如何使用大数据)并不了解,有些观点甚至有些偏颇。新一轮技术浪潮刚刚兴起,全世界的法律行业都期待使用新的工具和方法提升法律服务品质。法律业大数据的时代已悄然到来。

一、大数据是什么?

什么是“大数据”?目前并没有统一的定义。IBM 提供了一个充分的简单易懂的表述:大数据有以下三个特点:大批量(Volume)、高速度(Velocity)和多样化(Variety)。

大批量——大数据体积庞大。企业里到处充斥着数据,信息动不动就达到了TB级,甚至是PB级。

高速度——大数据通常对时间敏感。为了最大限度地发挥其业务价值,大数据必须及时使用起来。

多样化——大数据超越了结构化数据,它包括所有种类的非结构化数据,如文本、音频、视频、点击流、日志文件等等都可以是大数据的组成部分。

MSDN的Brian Smith在IBM的基础上增加了第四点:变异性——数据可以使用不同的定义方式来进行解释,不同的问题需要不同的阐释。法律大数据是大数据的子类,但由于外部环境的动态变化、定义方式的不同,对法律大数据的界定没有明确的内涵和外延,变异性的特点尤为突出。

二、大数据对律所有何用?

新技术观察作家Derrick Harris对律师事务所基于大数据如何进行流程优化提出了三方面的见解:

一是文档检索可能是大数据对法律工作影响最大的领域。律所通常存储海量的非结构化电子文档,包括电子邮件、Office文档、PDF文档等等,从数以TB计的数据中检索案件相关文档简直就是律师的噩梦,费时、费力而且准确性差。通过大数据智能分析软件,律所能够大大提高文档检索效率。例如大数据创业公司Recommind开发的大数据软件能通过机器学习算法进行“预测编码”,大大提高法律文档的检索效率。另外一家值得关注的企业——PureDiscovery的语义分析技术也有大幅提高文档检索效率的功用。

二是诉讼案件中会产生大量文档,而这些文档“蕴藏”的数据对后来的代理和审判具有很高的参考价值。大数据创业公司LexMachina的目标客户是知识产权律师,为他们提供决策支撑数据统计服务。LexMachina将很多过去的较为模糊的定性数据都给量化了,例如“这位法官对被告很不利”、“这种索赔的案件通常都能赢”或“这位律师对此类技术的经验值最高”等。LexMachina数据分析的数据源主要来自公开的PACER(联邦法庭数据库),PACER的数据一直存在,但是LexMachina是第一家通过机器学习和自然语言处理等技术从中“淘宝”的公司。值得注意的是Recommind也在不断开发新的产品Hypergraph(超级图谱),用来帮助律师发现人、话题、时间线、非结构化数据之间关联关系等。

三是律师们需要自己动手,创造性地利用各种现成的大数据工具和数据源。例如律师可以使用类似ScraperWiki这样的工具分析证人的Twitter联系人网络和活动记录。律师还可以使用类似etcML这样的免费工具(对应的付费服务如AlchemyAPI)分析各种文本,包括推文和电子邮件,来发现关键观念或进行倾向性判断。零用import.io这样的工具从网站抽取数据(例如房产价格历史数据),并制作成图表。

在美国,法律行业就大数据的工具和方法已经展开实质性探讨,创业型的IT公司纷纷将目光投向传统的法律服务行业,例如最近创业公司Judicata刚刚宣布获得了来自Khosla Ventures的580万美元融资,这家公司想做的事就是更好地帮助律师进行法律研究,其在线服务预计在今年夏季发布 beta 版。但由于法律体系、司法环境、互联网政策的差异和语言上的障碍,Derrick Harris提到了的这些工具很难在中国的律师事务所直接运用。因此,当中国还没有针对法律行业的大数据分析工具时,天同律师事务所提出大数据分析方法要与自身核心业务结合,向IT服务市场明确提出自身大数据运用需求,待时机成熟时在自身的核心业务中高效运用大数据工具。

三、天同律师事务所的大数据战略

天同诉讼大数据战略,其目的在于建构对法律大数据进行分析、提炼、加工、推荐的大数据分析体系,而非存储庞大数据信息仅仅用于信息检索。换言之,如果把诉讼大数据比作一种投资,那么这笔投资实现盈利的关键,在于提高对各类法律大数据的“加工能力”,通过“加工”实现信息的“增值”。对于天同的核心业务诉讼而言,“增值”服务的主要对象是天同律师,即天同的客户关系管理体系中的内部客户,大数据能够精准预测他们在案件代理过程中的需求,对于提高案件代理质量和服务效率是不言而喻的。

天同律师事务所专注中国高端民商事诉讼,精于二审及再审案件的代理,尤其擅长处理重大、疑难、复杂的商事诉讼,取得了极高的胜诉率。高胜诉率的背后,体现了天同对案件的精细化管理,每个案件通过33道工序整理,展现了天同律师精益求精的工作态度和卓越的知识储备。目前,天同对于高端民商事诉讼的法律信息处理,主要是通过人工来完成,案件卷宗的梳理、案情可视化展示、相关法律法规检索、指导性案例的查询,每一步都有大量的人工处理,效率的提升往往依靠辅庭律师的熟练掌握。通过实施诉讼大数据的战略,希望能从更多的角度来分析、评价案件,提高法律检索的效率和全面性,为出庭律师提供更多有价值信息,形成对案件的全面认知,以便构思最佳的代理策略。天同律师在诉讼过程中运用大数据分析,不仅在案件的办理阶段,而是覆盖整个业务流程,即便天同没有代理但进行过分析论证的案件,也将提供大数据分析的阶段性结论供客户参考。具体来讲,天同律师在业务流程中进行大数据分析的一般过程如下:

前期论证阶段,解决文档电子化和案件难度预判的问题,对案情宏观结构进行解构和初步标签化处理,为下阶段大数据分析进行准备工作。

磋商代理阶段,解决案件胜率判断和律师费用计算问题,案件的胜率取决于外部司法环境、管辖地、对方律师等,还取决于案件内部主要争议证据材料的掌握情况、法律适用、代理经验等因素。例如,将证据材料与待证事实之间的关联关系作为标签,对这种关联关系是否成立进行大数据分析,故我们能够基于大数据分析,对证据与案件事实间的关联关系进行评估(大数据思想:只问关联关系,而不问因果关系),进而结合其他因素对案件胜率进行评估。律师费用的计算,不妨也采用大数据分析,对同类案件的市场平均价格快速获取并统计,结合案件难度为天同的诉讼代理寻求合理报价。

案件办理阶段,随着案件信息的更新,事实争议和法律争议已经逐渐清楚,这一阶段的大数据分析集中在案外相关因素的分析上,为争议的本质提供新的洞见,或者新的证据,例如审理法官的相关观点、纠纷产生时所在行业的数据,最新商事审判的价值判断,以及相关的“天同码”。

结案归档阶段,评估大数据分析的使用效果,并对标签及其逻辑结构的知识进行归档,完善案件标签化体系(元数据方法);将前期的预判结果与最后的裁判结果进行比对,进而对此类案件的标签化方法进行调整。

天同诉讼大数据运行机制,在总体设计上,由一大流程、两大系统组成,即“标签判断流程、大数据检索系统、大数据统计分析系统”每个流程或系统都具备信息输入和输出的功能,是大数据分析中信息处理加工的中间环节,最后形成的成果形式是“为案件提供更多有价值的知识 ”。

小律所,大数据:诉讼的数据化时代

最终目的:天同诉讼大数据战略,最终目的在于为高端诉讼提供更多的理解视角,为诉讼案件提供更多的洞见和理解,在天同的业务流程的每个阶段充分运用大数据分析的方法,使得天同“三大诉讼法宝”——诉讼可视化、模拟法庭、大数据与知识管理能够融会贯通、相互配合,确保“三大诉讼法宝”成为天同诉讼业务的核心竞争力。使得天同的诉讼大数据与知识管理工具被业界广泛知晓,更好地为我们的客户提供诉讼法律服务。


原文发布时间为:2014-04-19


本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

上一篇:使用CSplitterWnd实现拆分窗口(多视图显示)


下一篇:使用note++开发SAP WebClient UI