这个远比安防更难攻下的领域有着自己的「游戏规则」|深度
都知道中国全科医生缺口很大,但是,你知道中国法官的工作量有多可怕吗?
这是北京海淀区法院温泉(金融与清算)人民法庭陈聪慧法官团队 2017 年办理案件的部分卷宗。
去年一年,这个团队收案共计 3012 件。大多都是不太好啃的「硬骨头」,最后审结2700 件案件。这个数字相当于某些地方一个法院全院的工作量。
这并非个案。
过去的五年时间当中,法院的立案量和办案量都有很大程度的攀升。
全国审结案件共计有 8598.4 万件,同时结案的标的额现在达到了 20.2 万亿元,并且这个数字还在以每年 15%-20% 速度在增长。某些法院在年度结案上的增长速度已经达到了 40% 。
而全国法官只有 12 万人。算下来,每位法官要在三天不到的时间里完成一个案件的办理。
在这样的应用场景下,人工智能技术解决的是一个不折不扣的刚需,也是「互联网+」无法解决的问题:提升工作效率。
据报道,陈聪慧团队去年一年出具的 1440 份判决书中,有近 1100 份是通过技术手段制作完成的。
不过和 C 端业务不同,对于电子政务领域的供应商来说,高层释放出明确政策信号才意味着可靠的市场需求。
2016 年,最高人民法院院长周强正式提出要积极推动人工智能在司法领域的应用。随后,「智慧法院」这个提法出现在国务院 2017 年 7 月印发的《新一代人工智能发展规划》中。
在这样一个大的背景下,「法检信息化建设」的头部公司华宇软件于前不久正式发布了国内首个法律 AI 平台, 以及以此为基础的智慧法院产品。
法律人工智能平台可以赋能电子卷宗、证据分析等七个法院行业通用的业务服务,为法院行业智慧立案、智慧审判、智慧法庭、智慧执行、智慧审管、协同办案、电子诉讼、智慧司法等八个重点应用场景提供服务。
法律 AI 平台由睿元、智核和睿核组成。
睿元,其实就是华宇大数据管理平台,负责管理数据,也是过去技术经验的总结。
真正负责人工智能担当的,主要是后面两个部件:
智核,华宇人工智能感知平台。主要负责集成通用 AI 能力,比如,语音识别、人脸识别。
人脸识别可以用于多种业务应用场景,如访客登记、自动终端登录、机器人引导、窗口谈话、业务软件刷脸登录、庭审身份核实等。
而利用图像 OCR、基于深度学习的图像分类和目标检测、实体识别等技术,可针对卷宗文件实现智能识别分析。
睿核,华宇人工智能认知平台。以法律知识图谱为基础,利用自然语言理解和机器学习技术,帮助机器从自然语言描述中,认知具体的法律概念、关系主体等,即让机器能够读懂法律文书,辅助法律人开展工作,比如,实现更加精准的类案推送。
睿核也是华宇过去投资人工智能成果的集中体现。
法律人工智能平台可以赋能电子卷宗、证据分析等七个法院行业通用的业务服务,为法院行业智慧立案、智慧审判、智慧法庭、智慧执行、智慧审管、协同办案、电子诉讼、智慧司法等八个重点应用场景提供服务。
「一系列的产品互相集成的一个庞大的复杂系统,这跟过去不一样。」北京华宇信息技术有限公司副总经理米坤告诉我们。
目前只能实现弱人工智能
正式发布之前,这套智慧法院产品已经中标了一些法院系统的大订单,比如北京高院、甘肃高院。并在一些法院推广使用开来。
其中类案推送,是大家比较关注的一个审判辅助功能。
比如,庭审结束后,人工智能会对案情要素进行进一步提取,根据法官进一步认定的内容,给其推送更为精准的相似案例、裁判尺度、法律法规等服务,最终帮助法官完成裁判文书撰写。
从效果上来看,「可以将案例推荐匹配度从 20% 提升到 90%,实现精准推荐效果。」
不过在学界看来,目前系统所能实现的类案推送还没有真正抓住痛点。
「法官在检索的时候,对两个案件类似的兴趣不大,而且找到之后,还有大量案子裁判结果不一样,找到类似案件,对他而言反而有麻烦。」四川大学法学院王竹教授认为,法院对类似的争议焦点更感兴趣。
但在米坤看来,「俩人打架,不管是道理判断还是法律逻辑,人可以大致做一个判断,谁吃亏了,谁具有优势。但是,机器判断不出来。」
米坤认为,以争议作为痛点,很好,但找到争议点极难,尤其是用机器的方法。
目前,智慧法院的类案推送离不开华宇自研的法律知识图谱技术。
在知识密集型行业(比如法律、医疗、金融、电商等),知识图谱是系统实现一定推理能力不可或缺的步骤。虽然目前法律行业都想做这个方向,但鉴于技术难度,并非所有人都可以做出来。
「知识图谱是构建法律 AI 的基石,构建法律的智库虽然很难,但我们在坚持不懈地走。」米坤说。
不过,专业领域内的知识图谱构建尚处于初级阶段,还要经历非常长时间的发展。
研发过程中,华宇做了很多试错。「最终还是要回归到弱人工智能的标注再加上机器学习。」米坤说,无监督学习的路子走不通,因为需要应用的人员不断地去使用它,但在法律行业,这种可能性基本不存在。
「如果这个案件信息回填不准,他们就不会用。」米坤说,「法官不会当小白鼠。目前来讲,应该没有其他捷径。」
目前的 AI 系统仍然是水平很低的智能化。
「你是专家,基于你的经验做一个系统,然后用了一些新的技术,比如说机器学习,让比它能力低的人,或者跟它能力相当的人也能够快速地得到一样的审判结果。」米坤解释道,
「目前来讲,只能走到这一步,还远远达不到真正基于行为、动机和数据催生人工智能。」
产品设计中的平衡
与会的清华大学法学院教授劳东燕认为,眼下的法律产品的设计和开发,可能还尚处在浅水区。
对于具体法官来说,很多时候,基于当前大量数据的类案推送没有太大意义。它们唯一的意义在于「事后控制」。
比如,法官可以知道全国同类案件中,他的这种判决包括量刑的偏离程度如何。
「深水区要在案件质量上下功夫……在司法处理上,最重要的就是同案同判。」劳东燕坦言。
撇开技术上的实现难度不谈,从产品设计角度来说,这也是一个路径选择问题。
「选择错之后,研发出来的产品没人要,这是现在迫切要解决的问题。」米坤说。而在华宇看来,效率提升可以通过技术解决,判决质量要依赖法官素质。
「在当前案多人少的情况下,我们只能找到有效的技术手段来处理,但不影响裁判质量或者审判质量。」米坤说。
而上述矛盾,只是电子政务产品设计中需要思考的矛盾关系之一。
「过早投入、过度投入都是浪费,这个供应需求什么时候实现,其实达到平衡点很难。」米坤说。
智慧法院的智能化与移动化设计,也尽可能平衡了成熟技术与未来趋势,最大程度将公司至于一个相对主动的竞争位置。
「虽然我们也在说一定要用过去成熟的技术,但是,未来的信息技术里面,一定要有新的要素,要有业务驱动,比如提高效率。」米坤说。
「不同场景下,智能支撑着一些工具和一些应用点,这是与过去系统最大的不同。」
至于移动性,「这是一个体系化思考的结果。」米坤说。
过去的产品部署在 PC 端,但信息是流动的,网络并无墙内和墙外。现在,微信上有 7 亿人群,包含各类人群。而在 5G 时代,现在有线端的应用可能会在移动端成为常态。
「所以我觉得移动是未来很重要的一方面,作为智慧法院来讲,智能化和移动化,是很重要的两个方面。」
在行业发展趋势上,华宇认为,互联可以带动未来 3 年的司法机关信息化需求。
华宇上一代的系统,点点之间可能有协同。「十年之前,技术上(实现协同)一点没有问题,障碍完全在于数据对接不畅。」米坤说。
现在,司法机关系统出现互联趋势。最近,华宇在三个省的政法系统拿到了互联项目以及互联后的大数据分析项目。比如,贵州、浙江、 苏州政法大数据协同办案平台项目等。
这一次,华宇大胆立足于公检法司在刑事案件全流程业务角度,进行产品设计。
「从系统角度已经做好了这样的设计,只要行政命令一下,这个系统就能用。」米坤说,
「用这样的一种方式为未来管理改变做好准备,如果人家真有这个需求了,还要推倒重来,这就很被动了。」
除此之外,平台化也是一家行业头部公司会考虑的问题,平台化不是互联网公司的专利。
「技术角度上,平台化很大的好处是可以把品牌研发和需求定制做进一步的分离。让法院建立一个松而活的体系,能够持续不断根据业务的需求修改某个平台。以前是修改一个模块,对所有的模块都要重新编辑,现在不是。」
华宇也会考虑开放自己的技术平台。「如果第三方开发出好东西,只要它符合规范和审核的标准,都可以集成到华宇平台上来。」
这是个比安防门槛高得多的行业
法院数据比医疗的数据质量好很多。全国的诸多法院在经过 20 年的信息化建设后,流程数据、证据数据、文书数据、档案数据等都非常完整。
因此,一些 AI 公司也进入到这个领域。
2016 年 12 月,科大讯飞与最高人民法院信息中心达成战略合作。科大讯飞牵头用人工智能构建智慧法院超脑系统,推出包括智能语音、便民服务、大数据分析、电子卷宗、辅助办案等多类系列产品在内的智慧法院整体产品方案。
一个传统问题再度被提及:法律 G 端市场的未来格局会有什么变化?
华宇认为,和科大讯飞这样的「 AI + 行业」企业不同,华宇属于「行业 + AI 」。
「在这一行业上深厚的业务基础是与竞争对手最大的差别,对方缺乏行业积累和对业务的理解。」米坤说。
对于行业市场,核心是通过技术解决问题。打造解决方案的时候技术不是最重要,最重要的是对于客户痛点的了解。
比如,一款产品无法满足用户需求,一方面可能是供给侧的问题,比如研发时没有做深度调研和验证。但不少时候,也是政策变化太快的原因,而这种情况更为常见,也是这个行业的特殊之处。
以司法员额制为例。
员额制下的审批方式,人员比例是 1:1:1。但现在并没有不同类型、繁简程度案件下的工作机制、工作职责和工作关系。
「这些东西都没有,怎么做软件?没法做。做软件一定是一定规律、规则要求之下才能做,计算机再人工智能,也代替不了人的思考。」
而法官的文科思维与软件工程师的理工科思维之间的巨大差异,也是这个行业的一个特点。
「不同法律部门之间,隔行如隔山,法律跟技术怎么更好的融合?这是一个非常难的问题。」米坤坦言。「我们也要学习文科人的思维逻辑和方式。」
除此之外,还需要掌握一定的法律专业知识。
「我们要看人大报告,法院和检察院的报告都要看。司法解释、法律法规、政策要求、规章制度文件,我们全要看,毕竟我们能看懂。有了这些积累,我们才能把自己划为法院行业的信息化。」
截止目前,华宇业务覆盖全国 31 个省超过 3000 多家法院客户。公司派驻在法院驻地的人员有 1000 多人。
「客户有那么多需求,不管是被动的,还是主动找我们做什么事,第一时间会到我这来,我就能判断出来这个方向在哪里,在我们这经过分析加工,找到一个合适的方向去研发,去满足这样的市场需求。」米坤说。
而另一方面,我们也必须承认一个客观事实:B 端客户更换服务的决策成本很大,现实操作成本也很大。这也是无形的行业门槛。
一位高等法院的朋友曾告诉笔者,由于两套系统的关键词都不一样,在更换系统时,他曾与同事一点点手动更改输入的。「工作量非常大,换套系统的成本太高。」
「过去的 22 年,是把一个年轻人变成了满头白发的过程。」米坤感叹说,「法院业务的门槛,比安防还要高。」
除了行业积累,华宇也有自有技术。除了法律知识图谱技术,还有司法大数据融合技术。
「案件信息太多:主体信息、文书信息、证据信息,又分人证、物证。它们本来就是一个结构化、半结构化等非常复杂的数据集,又加上很多的法律法规和司法解释,司法解释又分为不同年代。怎么把这些复杂的数据以案件为中心,以诉讼主体为中心建立起关系,这本来就是一个极难的过程。」米坤说,
「它跟知识图谱有关系,如果没有这样的一个模型,就不能建立关系,两个之间是相互的过程。这块是我们很独有的技术,这是我们 20 年的积累才会做这样的模型,因为在法律方面,除我们之外,还没有人做。」
目前,华宇分布在各个分子公司中从事法律人工智能、大数据研究的研发人员大约有 500 多人。研发预算每年 2 亿左右,一半与大数据、AI 相关。
虽然相比 C 端客户,获得 B 端客户相对容易些,但是华宇也有布局律师、公司法务产品市场。旗下华宇元典的律师平台正承载越来越多功能和智能服务。
「百姓市场呢?」我问道。
「中国老百姓去打官司,更愿意找个律师、找个人,而不是找个机器律师。」米坤说,
「这是个文化问题。中国人的文化根子第一是不愿打官司,第二是打官司要见到人,所以中国人基于规则这方面的社会治理生态来讲,还需要走很远,不太容易。」