基于数据挖掘的管道高后果区智能识别分析系统|信息数据管理研究|管道保护网

基于数据挖掘的管道高后果区智能识别分析系统

来源：《管道保护》杂志作者：肖丽；钱济人；范文峰；李园时间：2019-11-26 阅读：

肖丽钱济人范文峰李园

浙江浙能天然气运行有限公司

摘要：随着管网和城市化的快速发展，天然气管道穿越人口密集区的情况日益突出，沿线各级政府要求管道企业全面开展人员密集型高后果区识别和风险评价工作。传统的人工识别方法存在数据采集困难、准确度不高、效率低等缺点，无法满足企业实际需求。浙江浙能天然气运行有限公司充分利用现有的遥感影像（DOM）和线划图（DLG），采用数据挖掘方法实现了高后果区的有效识别。

关键词：高后果区识别；建筑数据矢量化； DBSCAN聚类算法

浙江省经济发达，土地资源紧张，天然气管道周围人口密集，形成了大量高后果区，一旦发生泄漏爆炸事故，将会给人民生命和财产带来巨大损失。

输气管道高后果区分级的前提是统计管道中心线两侧至少200米范围内的所有建筑数据，传统人工现场识别方法识别时间长、成本高、质量低，耗费大量人力、物力、财力，已无法与企业提质增效的目标相适应，如何准确高效识别管道高后果区成为必须思考与解决的问题。

基于数据挖掘的天然气管道高后果区识别系统（以下简称识别系统）依托于智慧油气管网建设，通过将天然气管道与大数据分析相结合，采取建筑数据矢量化的创新方式进行数据采集，基于密度的DBSCAN聚类算法高效智能准确地完成高后果区识别工作，实现天然气管道管理信息化、数字化，取得了很好的效果。

1 数据采集

1.1 数据库搭建

数据库以开源PostgreSQL数据库为核心，通过扩展PostGIS组件，建立PostgreSQL数据库到ArcGIS通道，实现空间地理数据存储与管理；通过扩展TimescaleDB组件，建立PostgreSQL数据库关联，实现时间序列数据存储和管理；通过扩展MinIO组件，建立对象数据与PostgreSQL数据库的关联，实现照片、文档等数据存储与管理。从而实现了一专多能的时空全栈数据库，满足数据挖掘所需的各种类型数据存储和检索全息信息。

1.2 数据分层

识别系统所依赖的第一层（最底层）数据是正射遥感影像（DOM），该数据来源于最新卫星遥感和航测影像数据，直观反映了管道周边的环境，但其仅为影像数据，无法直接用于高后果区的识别。第二层数据为数字线划图（DLG），将影像数据中的建筑转换为矢量，将建筑标记后作为一个多边形保存在空间数据库里。第三层数据为建筑属性数据，如建筑类型、联系人及电话等。

1.3 数据处理

首先通过归纳分析，对空间数据库的数据预处理。

（1）针对管道周围大量农村住宅，其线划图长宽比有一定的范围，高度一般不超过4层，利用激光雷达点云数据获得的建筑物顶层高度，就可以将农村住宅分类，农村住宅定义为一幢一户。

（2）小区住宅，归纳小区住宅的长宽比，考虑线划图的面积和住宅小区每户面积在70～130平方米，建立数学模型可推导每层户数。小区住宅一般高度均超过7层，利用线划图高度属性，可推导出层数，由此可计算出一幢住宅的住户数。

（3）工厂、商场等特定场所和住宅形状、长宽比、高度均有差异，通过计算，将工厂商场等特定场所分类标注。

（4）由于线划图均有精确的GPS坐标，通过与百度、 BIGMAP等地图数据的位置匹配，能够取得特定场所的属性，如单位名称、联系人及电话、详细地址等信息。建筑标注绿色为农民住宅，蓝色为小区住宅，黄色为一般特定场所，红色为易燃易爆场所。

1.4 数据完善

针对PC端无法确认的部分建筑数据，利用手机端高后果区采集APP核实现场数据，可直接导航至该建筑位置，大大节省了现场数据采集时间。

对存储在数据库中的管道两侧200米的所有建筑数据自动预处理并现场核实完善后，不仅可快速确定各类住宅所包含的户数，而且对特定场所进行标注。建筑数据的矢量化为高后果区智能识别分析打好基础（图 1）。

2 智能识别

2.1 识别准则量化

依据GB 32167―2015《油气输送管道完整性管理规范》，结合公司管道周边建筑实际分布情况，公司量化了管道高后果区识别准则。

（1）Ⅲ级高后果区：四级地区，某地区连续出现10幢4层及以上建筑（不包括农村住宅，一般指小区住宅）。

（2）Ⅱ级高后果区分为以下三种情况：

①三级地区，户数100户以上。

②连续有10个工厂，两个工厂之间间隔不超过30米。

③其他存在易燃易爆场所的地区。

（3）Ⅰ级高后果区：其他存在特定场所的地区,如学校、幼儿园、医院等。

2.2 核心算法

2.2.1 算法原理

完成数据预处理后，这些建筑可以看成是一个带有户数属性的点。这些点在管道周围的分布没有特定形状，形成一定的散布，沿管线计算确定建筑（户数）密集区域即可实现高后果区分级。

常用的聚类算法有k-means算法，试用后发现k-means算法基于平均距离决定同类聚集，适用于球形聚集，不适合民房空间分布。通过比较研究，选择了具有噪声的基于密度的DBSCAN（Density-BasedSpatial Clustering of Applications with Noise)聚类算法，该算法是以密度、而不是距离来计算簇和簇边界。其基本思路（图 2）是以建筑密集区域的某一建筑为圆心，选择合适半径画圆，即规定了圆的半径及圆内最少包含的建筑密度。若圆内建筑密度大于等于预先指定的值，那么这个圆圈的圆心就转移至该圆圈内的其他建筑，继续画圆去计算，直至圆内所包含的建筑密度少于预先指定的值，聚类终止。基于密度的DBSCAN聚类算法适用于在管线周围建筑分布区域中，去寻找高密度分布的区域，并与建筑分布形状无关。

2.2.2 算法应用

根据量化后的管道高后果区识别准则，将基于密度的DBSCAN聚类算法应用到高后果区识别中。以管线为基本单位，首先调用空间数据库中的小区住宅，半径设置成100米，数量设置为10，计算出小区住宅簇的区域，满足识别标准时将该区域划分为Ⅲ级高后果区。

去除小区住宅簇后，调用空间数据库中标有工厂、商业建筑等建筑，半径设置成100米，数量设置为10，计算出工厂、商业建筑簇的区域，满足识别标准时将该区域划分为Ⅱ级高后果区。

去除以上两个簇后，调用空间数据库中标有农村住宅的建筑，半径设置为50米，数量为100，计算出民居簇的区域，满足识别标准时将该区域划分为Ⅱ级高后果区。

去除以上三个簇后，根据数据预处理后特定场所标注的属性，易燃易爆场所划为Ⅱ级高后果区，其他场所划为Ⅰ级高后果区。

3 自动统计分析

识别系统对1 766公里（经统计管道周边建筑8万多个）天然气管网进行了高后果区自动识别。基于复合图文一体化智能报告生成技术，按报告模板自动统计分析数据并以图表格式展示（图 3）， 1小时内即可出具全省共55份报告。

4 功能实现

基于数据挖掘的管道高后果区智能识别系统的开发应用成功，一是实现了管道高后果区的精准识别，达到管道高后果区的数据化、可视化管理目标，为政府及管道企业管理提供有力依据。二是有效降本提质增效，满足企业越来越高的精细化及经营管理的要求。三是可与其他管道保护业务系统关联（如与应急管理系统关联），实现数据共享，进一步加强管道安全运行管理。四是实现了基于管道高后果区的大数据管理与维护，从数据采集、数据展示、数据应用到数据更新，实现数据的高效采集、直观展示、统计分析及更新的全过程管理，增强数据的实用性（图 4）。

5 结论

管道高后果区智能识别系统识别质量高，高后果区等级划分均有数据可追溯，并有多种统计维度，如按照全省各地市行政区划统计、公司管道管理单元统计、识别时间统计、高后果区及其变化情况统计等，取得了手工识别无法做到的识别结果，奠定了管道完整性管理基础，也夯实了应急预案落地基点，将有效提高管道风险消减效果。

作者：肖丽，女， 1992年生，助理工程师， 2015年毕业于中国石油大学（华东）油气储运专业，现主要从事管道保护工作。钱济人， 1963年生，高级工程师，科创中心主任，现主要从事管道先进科技技术研究工作。

上篇：

下篇：

管道研究

基于数据挖掘的管道高后果区智能识别分析系统