中网首页-资讯中心-商业-内幕-商评-财经-股市-精英-科技-互联网-创业-汽车-企业-房产-娱乐-社会-图片-财经圈

主页>商业报道>深度报道>

信号奔命:软件存致命错误早晚必然要出事

来源:《新世纪》周刊 时间:2011-08-30 09:47:29

  

《新世纪》周刊 2011年第34期封面图片。

  《新世纪(17.23,0.47,2.80%)》周刊 2011年第34期封面图片。

  “7·23”事故怎样祸起信号?高铁信号系统寡头供货者为何疲于奔命?决策者现在何以进退两难?

  财新《新世纪》

  记者 于宁 谷永强 曹海丽

  马骋死得很突然。

  中国铁路通信信号集团公司(下称通号集团)的总经理、业内视为中国高铁信号技术的带头人,死在了“7·23”甬台温动车追尾事故一月祭的前一天——8月22日。

  当天上午,马骋正在深圳,与前来检查广深港客运专线的国务院高速铁路安全大检查组成员一起开会。据多位知情人士称,刚讲完话,他就倒在桌上。

  马骋没有心脏病史,却突发心脏病去世。熟悉的同业为之唏嘘:“压力过大,责任也过大。”在他死之前,通号集团正面临前所未有的信任危机。下辖的北京全路通信信号研究设计院(下称通号院)正是甬台温信号系统的设计者,通号集团则是集成商。

  在7月23日晚,一个致命的简单软件设计错误,导致甬台温的列车控制中心(下称列控中心)不能实时采集外部数据,并向调度集中系统(下称CTC)传输了错误信息。D301次动车的车载自动控制设备因此接到错误信号,仍按正常速度行驶,与前车D3115次动车追尾,终酿成一场40人死亡的特大事故。

  事故发生以来一个月,通号集团成为众矢之的。作为通号集团领导的马骋不堪重负,病发身故。昔日的信号精英如此收场,令人感喟。但致命的设计错误究竟为何发生?还有多少隐患没有暴露?无人敢下断言。谁又该为高铁大跃进承担责任?

  短短七年,通号集团与中国高铁为不断攀向更高速度的努力同步冲刺,表面上不断攻克一个又一个技术难关,但光荣背后,技术人员疲于奔命,力有未逮,终致惨剧。“7·23”事故暴露的不仅是通号院的软件设计缺陷,也是整个高铁发展不顾科学规律和常识、盲目追求速度下的险象环生。

  这种封闭运行的发展模式,也使决策者现在进退两难。“现在全国的高铁信号集成多半是他们的,一棍子打死,高铁的运营和技术支持怎么办?总不能全停了重新搞吧!(这种模式)已经绑架了铁路!”一位接近事故调查组的人士表示。

  从9月1日起,铁路调整运行图,高铁普遍降速,武广、郑西等高铁线路也不再以时速300公里运行,对高铁安全的担忧笼罩了一切。国务院牵头的高铁安全大检查在继续。但通信信号行业乃至整个铁路行业的垄断问题及招投标灰幕,则非补漏这般简单。对整个铁路系统而言,已经暴露的各种问题不仅是跃进之祸,也是垄断之祸,积弊丛生,新规待立。

  致命错误

  一个低级的软件设计错误,因为没有经过破坏性试验而被忽略

  这原本是一场可以避免的灾难。

  “7·23”事故调查组预计在9月间正式披露详细调查结果,但财新《新世纪》记者从接近调查组的人士处获悉了事故发生的过程。

  软件设计的逻辑错误,偏离了故障导向安全原则,使信号彻底失灵。

  7月23日19时44分,上海甬台温调度台的调度接温州南站报告:车站联锁显示下行三接近红光带,车站调度集中系统(CTC)界面无显示。

  在铁路控制系统中,以线路钢轨为导体,构成轨道电路,两条轨道被列车的轮对短接,在控制系统中就会显示为红色,从而指示车辆的位置。但在绝缘损坏、雷电等情况下,可能造成无车路段的路轨短接,或者信号设备系统本身有故障,显示异常红光带或“闪红”。出现红光带的原因很多,或为前方路段有车,或为故障所致,调度往往难以判断。在这种情况下,调度应该采取保守做法,将其当做前面有车来处理。

  所谓“三接近”,则是指还有接近三个闭塞分区的距离。在列车的行车调度上,站与站之间被分成若干段,叫闭塞分区。每个分区的开头结尾都有信号装置,以红绿灯显示。每段分区一次只允许一趟列车通行。温州南站通信车间工作人员称,在永嘉站至温州南站这个路段上,每个闭塞分区的长度为1.4公里。有列车运行的闭塞分区,禁止其他列车进入,所以它后面的灯是一个红灯。紧接着的一个闭塞分区是黄灯,其次是黄绿灯,再后面才能是绿灯。

  车站联锁设备反映的是温州南站站内信息,车站值班员可以看到,而上海的调度看不到。上海调度中心只能看到CTC,它的信息来自各个站的车站CTC,而车站CTC分别从车站联锁和列控中心(反映站与站之间的区间信息,包括列车占用信息)获取信息。

  当时两者搜集的信息显然不一致——联锁显示的是红光带,而列控中心反映的是正常,虽然它们都从轨道电路获取信息,但从同一个继电器的不同节点获取信息。

  联锁显示的信息一直是正确的(显示异常红光带),但CTC主要从列控中心获取闭塞区间的信息,从前述调度信息看,“车站CTC无显示”即意味着联锁和列控中心有一个已经出了问题,但调度当时或许还没有意识到问题在于列控中心的信息采集已经不是实时更新。

  这是非常少见的情况。上海与温州的值班员看到这点后,19时53分转入非常站控状态,即在非正常情况下改由车站人工办理出发列车和进站列车作业。

  直到事故发生之后复盘,才确认列控中心设在温州南站的信息采集板保险丝被雷电击坏,导致信息采集出问题。

  问题不止于此。采集板的采集电源坏了,但逻辑电源还在传输信息。

  据前述消息人士介绍,数据包传上来,通常有特殊的标志位来显示数据正常、非正常,能否采用。但是,温州南站的列控中心在采集这些数据包时未能识别出来。

  “如果识别出来,按照故障导向安全原则,就要把数据清零,即老数据清除, 显示红光带,后车D301应以20公里时速目视运行。问题是它没有识别出来,老数据没有清零,还显示正常,结果后车以ATP(车载)模式运行,高速行驶,最终追尾。”

  如果这个解释成立,雷击只是外部诱因,真正的原因是软件设计出了大问题。按安全设计,后车距离前车还有三个闭塞分区时,前方会显示为红灯。由于软件的逻辑错误,导致了主控软件得到并传给CTC的不是实时外部数据。

作者:  责任编辑:刘辉
要了解更多,可继续查阅相关资讯:

关于我们 | 保护隐私权 | 网站声明 | 投稿办法 | 广告服务 | 联系我们 | 网站导航 | 友情链接 | 不良信息举报:(将#换成@即可)
京ICP备号-1