关于土地信息系统建立过程中的数据质量问题的探讨
四、数据处理质量
土地信息系统的数据库建立后,其中已经包含了数据源和数据库建库所引入的误差。数据库中的多源数据,经过系统的各种分析处理后,在形成新的数据和最后产品的过程中还会产生新的数据质量问题。这些问题包括:几何改正,坐标变换和比例变换,几何数据的编辑、属性数据的编辑、空间分析,数据格式的转换等。
1、空间分析
空间分析是对分析空间数据的技术的通称。从客观上区分,可归纳为:空间的图形数据的拓扑运算;非空间属性数据的运算;空间和非空间属性的联合运算等[9]。空间分析赖以进行的基础是空间数据库,土地信息系统的空间数据分析,是实现土地资源信息系统的实际运用的重点途径。
空间分析中的叠加分析是土地信息系统中十分常用的一种分析方法,是用户经常用以提取数据的手段之一。通过同一地区不同内容的多幅地图的叠加组合,产生新的图形和属性信息。在这个过程中往往产生拓扑匹配、位置和属性方面的数据质量问题。由于叠加时多边形的边界可能不完全重合,从而产生若干无意义多边形。对这些无意义多边形进行处理的结果往往会改变界线的位置,叠加后形成的新的多边形的属性值也可能存在由于属性组合带来的误差。
2、坐标变换
土地信息系统数据来源较多,各种数据输入信息系统应便于系统对数据进行图形显示,叠加查询,统计分析处理。LIS要实现这些功能,一个首要和基本的前提就是各种不同来源的数据在系统内必须在一致的地形图坐标系下。但是,在实际的数据采集过程中,大量的数据坐标并不一定属于系统用户所要求的坐标系,原始数据为一种坐标系,系统要求的数据为另一种地图坐标系,有的数据坐标根本没有地理意义,对此情况,必须提供从一种地图坐标系到另一中坐标系的坐标变换。
在具体的操作过程中,有可能产生新的误差。在不同比例尺下对坐标数据的重新设立产生误差,进行投影变换和/或基准面变换时产生的误差。生产实践中为提高数据质量,确保系统的数据精度和可靠性,通常用仿射变换和相似变换等模型来进行数据处理,以减小或消除误差。
坐标变换的实质是建立两个平面点之间的一一对应关系,现有一般GIS(LIS是GIS的专题)软件大都提供了以下两种模型实现坐标变换。
一是仿射变换:仿射变换也称六参数变换,其变换公式为:[10]
x´=Ax+By+C (Ⅰ)
y´=Dx+Ey+F (Ⅱ)
其中,x´、y´为地图输出坐标系中的坐标点对;x、y为输入坐标中的坐标点时;A,B,C,D,E,F为方程参数。参数在坐标系空间上的几何意义为:A和A分别确定点(x,y)在输出坐标中x方面和y方向上的缩放尺度。B和D确定旋转角度,C和F分别确定在x方向和y方向上的水平移尺寸。
二是相似变换:当式(Ⅰ)、(Ⅱ)中的参数满足条件A=E=Scos@,B=-D=Ssin@时,则得到四参数的相似变换公式:
x´=Ax+By+B (Ⅲ)
y´=-Bx+Ay+D (Ⅳ)
式中,x´、y´为输出地图坐标系中的坐标点对;x、y为输入地图坐标中的坐标点对;A、B、C、D为方程参数,相似变换实质上也是坐标系间的平移,旋转和缩放尺度的变换,式中C和D分别为坐标在x轴和y轴上的平移大小, 为缩放比例,@=arctg(B/A)为旋转角度。
为了求出以上公式中的参数,建立两种坐标之间的仿射(或相似)转换关系,至少需要三个(或两个)已知的控制点坐标。而实际上,应选择多于三个(或两个)控制点,方能按照最小二乘法原理进行平差,得出系数值,代入上述方程即建立输入和输出坐标系之间的仿射(或相似)变换数学模型。
可以看出,仿射变换和相似变换都为线性函数变换模型,可实现对原图形的平移、旋转和缩放,相比较而言,相似变换不能进行x轴、y轴不均匀缩放的变换,而仿射变换能保证更高的数据精度。
3、数据变换
(1)CAD向GIS的转换
目前我国土地管理中存在一个较为普遍的问题是土地信息系统的构建与图形数据采集较少作用一个整体来通盘考虑,地籍测绘大大超前于信息管理系统构建。中小城市这种问题表现得更为突出。为满足土地确权发证,土地定级估价等需要,1995年前测绘的地籍图等图件因受技术条件的限制绝大部分是采用传统白纸测图方法完成的。随着计算机技术的发展和在测绘工作中的普及应用,1995年之后数字地图逐渐取代传统测绘。但一个不容忽视的事实是,绝大多数测绘图软件是在AUTOCAD上进行二次开发完成的。有些甚至是采用低版本的CAD,有些测绘图软件虽然测的是数字图,但只有非编码的图形文件,不保留信息,或者图形编辑以后,返不成信息。这种数字图说到底仅仅是从传统的白纸图过渡到计算机驱动绘制的白纸图。本质上与传统测绘没有什么区别。有些虽然采用了较高版本的CAD基础软件二次开发成数字测图软件并采用了数字编码技术,但由于较少考虑CAD与GIS的数据共享问题(土地信息系统属于专题GIS)。在着手考虑构建土地信息系统时,遇到的突出问题则是如何充分,有效利用已有数字信息资料,并确保数据转换质量。
对于传统模拟图或难以返成信息的所谓数字图只能采用原图数字化,形成数字信息后方可加以利用,但其精度丢失是不可避免的。
对于采用了编码技术,也能返成信息的数字图,其数字信息可以通过数据转换来实现数据共享,但由于 CAD与GIS图形数据之间其数据格式,数据内容甚至数据概念都有很大差异,数据转换时应注意以下三个方面:[11]①数据格式转换。不同的软件有不同的数据格式,有些可以通过通用数据格式如DXF实现转换,但转换过程中的数据丢失也的确令人烦恼。②数据元素转换。CAD与GIS两者之间的图形元素不是一一对应关系,CAD图形中的图形元素种类要比GIS图形文件中的图形元素种类多,GIS中只有点、线、面三类基本图形元素,而CAD中包括有点、线、面、注记、矩形等多种图形元素,在具体转换中,CAD的图形元素哪些转换成GIS的点,哪些元素转换面面,什么元素需要转换成GIS的属性数据,什么元素则不需要转换到GIS中去等。CAD与GIS图形元素之间的对应关系,都需要认真细致地加以技术处理,使空间数据和属性数据在输入系统后正确地连接起来。③拓扑关系的形成。因为CAD的图形元素之间没有拓扑关系,实现CAD向GIS数据转换的一个重要内容就是要将转换后的图形数据按照一定的技术要求经过编辑,在GIS环境下建立几何元素的拓扑关系。
在实际转换中,还会出现许多意想不到的技术问题,会影响数据转换质量,有待进一步解决。
(2)矢量数据结构向栅格数据结构的转换
土地信息系统的建设中,许多数据如行政边界,交通干线,土地利用类型、土壤类型等都是用矢量数字化的方法输入计算机或以矢量的方式存在计算机中,表现为点、线、多边形数据。然而,矢量数据直接用于多种数据的复合分析等处理将比较复杂,特别是不同数据要在位置上一一配准,寻找交点并进行分析。相比之下利用栅格数据模式进行处理则容易得多。加之土地覆盖的叠置复合分析更需要把其从矢量数据的形式转变为栅格数据的形式。
矢量数据的基本坐标是直角坐标(x,y),其坐标原点一般取图的左下角。网格数据的基本坐标是行和列(i,j),其坐标原点一般取图的左上角。两种数据变换时,令直角坐标x和y分别与行与列平行。由于矢量数据的基本要素是点、线、面,因而只要实现点、线、面的转换,各种线划图形的变换问题基本上都可以解决[12]。
矢量数据变成栅格数据的原理与方法并不困难,但由于矢量数据的记录方式各不相同,也会产生一些问题。如多边形之间公共边原来只有一条交界线,转变成网格后成为有一定宽度的界线,产生了一定的近似性。特别是几条线交叉处,一个网格元素中包括了相邻的几种类别,转换时只能用其中的一种类别作为交叉点所在的元素的类别,这种误差应在允许的范围以内。而减小网格尺寸,虽提高了精度,但大大提高了数据的冗余量。
栅格数据结构需要大量的计算机内存来存贮和处理数据,才能达到与矢量数据结构相同的空间分辨率,而矢量结构在某些特定形式的处理中,如象多边形叠置,空间均值处理等尚有大量的技术问题来解决。值得注意的是,无论采用哪种转换方法,转换的结果都会不同程度地引起原始信息的损失。
4、空间数据的编辑
通过矢量数字化或扫描数字化所获取的原始空间数据,都不能避免地存在错误或误差。属性数据在建库时,也难免会存在错误。诸如:空间数据的不完整或重复,空间点、线、面数据的丢失或重复,区域中心点的遗漏,栅格数据矢量化时引起的断线等,空间数据位置的不准确、线段过长或过短,线段的断裂、相邻多边形结点的不重合及空间数据的变形等。因此,必须对图形数据和属性数据进行一定的编辑。
土地信息系统数据编辑是消耗时间的交互处理工作,对空间数据不完整或位置的误差,主要是利用LIS图形编辑功能,如删除(目标、属性、坐标),修改(平移、拷贝、连接、分裂、合并、装饰)、插入等进行处理。对空间数据比例尺的不准确和变形,可以通过比例尺变换和纠正来处理。
在数据的编辑过程中,由可能产生一些新的问题。如:线段的相关与延伸出现的问题,图形的平移与旋转出现的问题,删除“细部多边形”时产生的误差,数值计算与变化的误差;文件的合并以及形成新文件的问题;属性数据的重新定义和更新的问题。有的问题时可能避免的,有的问题则无法避免。因此,必须进行检核。通过耐心细致的检查,主要误差都能从数据中寻找出来,并有效消除误差。一般采用叠合比较法,目视检查法和逻辑法。
叠合比较法是空间数字化正确与否的最佳检核方法,按与原图相同的比例尺把数字化的内容绘在透明材料上,此后与原图叠合在一起,在透光桌上仔细的观察和比较。一般。对于空间数据的比例尺不准确和空间数据的变形马上就可以观察出来,对于空间数据的位置不完整和不准确则须把遗漏、位置错误的地方明显地标注出来。目视检查指在屏幕上用目视检查的方法,检查一些明显的数字化误差与错误,包括线段过长或过短,多边形的重叠和裂口、线段的断裂等。
5、由计算机引起的问题
在计算机中,数据是由一定字长的编辑数码表示的,由计算机字长可能引起一种误差。这种误差出现在各种数值运算和模型分析中,由这种误差引起的问题很多[13],例如LIS空间数据库中整数编码对面积和周长计算的影响,比例尺变换和旋转变换对拓扑关系的影响等。削弱误差影响的主要方法有:改变数据在计算机中的表示方式,采用合适的算法等。
除了数据处理精度外,数据存储精度也与计算机字长有关。16位的计算机在存储低分辨率的栅格图像时不会出现问题,但存储高精度的控制点坐标或点位精度要求高的地理数据时,则不能胜任。
五、数据应用质量
土地信息数据在使用过程中往往出现一些质量问题,这些问题包括数据的完备程度,时间的有效性,拓扑关系的正确等。
1、数据的完备程度
数据的完备程度指地理数据在范围、内容、及结构方面满足所有要求的完整程度。包括数据范围、空间实体类型、空间关系分类、属性特征分类等方面的完整性。
一般来说,空间范围越大,数据的完整性就越差。在土地信息系统的建库过程中,数据不完整最简单的例子是缺少数据。如计算机从GPS接收机传输位置数据时,由于软件受干扰或其它因素的缘故,只记录下经度而丢失纬度,以至造成数据不完整。另外由于GPS接收机无法收到四颗或更多的卫星信号而无法计算高程数据也会造成数据的不完整。又如某个应用项目需要1:5000的基础底图,但现在的地图数据只覆盖项目区的一部分,底图数据便不完整。
在土地信息系统底建库中,涉及大量的地籍档案。地籍档案来源于土管机关的地籍部门,数量大、形式多、浩繁、零乱,随着时间地推移,以及人为和自然的各种因素地影响,有可能遭到损坏。如档案老化,书写材料低劣、地籍档案变到污染,变色、虫蛀等现象,进而影响到整个系统的质量。
2、数据的现势性
数据的现势指数据反映客观现象目前状况的程度。数据的现势差,反映的客观现象就可能不准确。不同现象的变化频率是不同的。如地形的变化一般来说比人类建设要缓慢,地形可能会由于山崩、雪崩、泥石流、人工挖掘及填海等原因而在局部区域改变。但由于地图制作周期较长,局部的变化往往不能及时地反映在地形图上,对那些变化较快的地区,地形图就失去了现势性。城市地区土地覆盖变化较快,这类地区土地覆盖图的现势性就比发展较慢的农村地区会差些。地形图上记录着所用航空像片获得的年代。若又用其他数据进行过修改(一般是较新的航空像片),也应记录于上。
在土地信息系统建库中,要求地籍信息和地籍图必须具有现势性。地籍信息变更比较频繁,如土地利用类型,权属或宗地的重划,合并等。由于受自然因素和人为作用的影响,土地资源的数量、质量、分布和使用情况都处在经常变化之中。基于这一特点,土地管理部门提供的数据很难保证现势性,这也是影响数据质量的一个重要方面。
3、拓扑关系
在LIS中,为了真实地反映地理实体,不仅要包括实体的位置、形状、大小和属性,还包括必须反映实体之间的相互关系,这些关系就是指它们之间的邻接关系,关联关系和包含关系,拓扑关系。拓扑关系的核心是建立点、线、面的关联关系。通常有以下几种空间关系:点-点关系、点-线关系、点-面关系、线-线关系、线-面关系、面-面关系。空间数据的拓扑关系,对数据处理和空间分析具有非常重要的意义[14]。
利用拓扑关系,可以确定一种空间实体相对于另一种空间实体的位置关系。利用拓扑关系,可以确定某县有多少耕地,分析土地利用类型及对土地适宜性做出评价等。
在拓扑关系的建立中,拓扑过程中伴随有数据所表达的空间特征的位置坐标的变化,拓扑关系的不正确等情况,导致空间分析的结果错误,给土地管理决策带来一定的影响。
六、结论
数据是LIS最基本和最重要的组成部分,同时也是一个LIS项目中投资比重最大的一个部分。数据质量的好坏,会直接影响到LIS的系统功能和应用质量问题的三个方面(数据源的质量问题、数据处理质量问题、数据应用质量问题)着手,对LIS的数据质量问题进行了一定的归纳总结和初步的探讨。众所周知,LIS的数据质量是影响LIS的一个瓶颈环节,LIS数据量大、数据种类多、数据结构复杂。因此,在LIS的建设过程中,如何在数据采集与建库中实施质量控制,保证数据质量对土地信息系统建设来说显得尤为关键。
七、总结与体会
毕业论文的撰写是一次再学习和锻炼的机会,是对所学知识的一个融会贯通的过程。通过毕业论文的撰写,我对所学的知识有了更深层次领悟和掌握,对自己所学的土地管理专业有了一个整体认识。毕业论文不仅是对所学知识的总结,也是运用所学知识探求新知的方法、手段。既是一次再学习的过程,也是一次深入学习的机会。同时,毕业论文写作,为今后的学习工作奠定了一定的基础。通过毕业论文的写作,我真正懂得理论联系实际的重要性。在撰写毕业论文中,我运用所掌握的基本知识、方法和技能,研究探讨了土地信息系统建立过程中数据质量的有关问题。通过毕业论文的撰写,我进一步完善了自己的知识结构,学习了更多的知识。不仅如此,我对土地信息系统数据质量控制措施与方法方面有了更进一步的认识。
通过毕业论文的写作,不仅强化了我的学习素质、研究素质和创业素质,而且培养了我的创新意识,激发了我探求新知的欲望。认真写作毕业论文,不仅能进一步巩固所学的理论知识,而且还能进一步提高自己的各项基本技能,实践能力和解决问题的能力。
八、谢辞
在论文的写作过程中,玉文龙老师给予了很大的支持和帮助,为论文的写作提出了许多宝贵性的意见和建议;在他的指导下,这篇论文得以顺利完成。在资料的搜集过程中,图书馆工作人员为我们提供了很大帮助,本组同学也给予了很多支持,在此表示衷心感谢。
参考文献
[1] 钱乐祥,余明全.土地信息系统的几个基本问题.测绘通报,1999(10).
[2] 张 超等.地理信息系统.北京:高等教育出版社,1995.
[3] 阎 正等.城市地理信息系统标准化指南.北京:科学出版社,1998.
[4] 范爱民,景海涛.地图数字化质量问题.测绘通报,2000(4).
[5] 严 星,林增杰.地籍管理.北京:中国人民大学出版社,1999
[6]-[7]郝向阳等. 地图扫描数字化点位精度分析.测绘学报,1995,25(1).
[8] 毛 锋等.地理信息系统建库技术及应用.北京:科学出版社,1999.
[9] 汤国安,赵牡丹.地理信息系统. 北京:科学出版社,2000.
[10] 徐建刚.城市规划信息技术开发及应用.南京:南京大学出版社,2000.
[11] 司少先.地籍信息系统源数据质量问题探讨.测绘通报,1999(4).
[12] 边馥苓主编.GIS原理与方法.北京:测绘出版社,1996.
[13] 郭达志.地理信息系统基础与应用.北京:煤炭工业出版社,1997.
[14] 朱 光等.地理信息系统基本原理及应用. 北京:测绘出版社,1997.