发布信息

很多药企商业化生产线不是败在工艺,而是败在自控进场太晚

作者:本站编辑      2026-05-15 12:55:40     0
很多药企商业化生产线不是败在工艺,而是败在自控进场太晚
我们总说一个商业化项目失败,是工艺不成熟、设备选型有问题、或者管理跟不上。
但我这些年看到的,有相当数量的项目,问题根本不在于工艺本身,而在于自控介入的时机太晚了。
等厂房土建已经封顶、工艺管道开始安装、设备都已经采购完,自控才被叫进来“把系统对接一下”
结果进去一看,网络没有预留、阀门选型不对、程序架构没考虑GMP合规、跨系统接口完全没有定义。
这不是自控能不能搞定的事。是到了那个节点上,很多事已经不是技术能解决的问题了,要么花大代价返工,要么带着硬伤投产,后面运维阶段慢慢还债。
今天这篇文章,我想从一个自控负责人的视角,把“自控应该在什么时候、以什么方式介入”这件事系统地讲清楚。

一、先讲三个故事:那些“自控来晚了”的真实现场

1.1 第一个现场:备份跑不起来,时钟对不上,域控加不进去

那是一个CDMO企业商业化生产基地。某天晚上,自控系统的一台服务器硬盘故障,系统自动切到备用机,看似一切正常。

但当我们试图恢复故障服务器的配置时,却发现自动备份策略没有成功运行。

排查下来发现的问题是:备份服务器和几台核心操作站不在同一个网段,中间隔着三层路由。

当初分配IP地址时,项目组为了省事,给DCS服务器、操作站、工程师站、备份服务器各分配了不同网段的IP,没有规划统一的VLAN。

更麻烦的是时钟同步。因为同样的跨网段问题,几台核心服务器无法同时访问同一台NTP时钟源。

DCS服务器的时间来自GPS时钟,几台操作站的时间各自为政,有的跟域控同步,有的还在用本地时钟。

GMP审计时,这种跨系统的时间偏差一旦被检查官发现,整个电子批记录的时间戳可信度就会被质疑。

我们被迫在一个周末紧急重新规划IP地址、划分VLAN、调整路由策略,重新验证所有同步链路。

紧接着,公司IT推行全厂域控策略,要求所有服务器和操作站必须加入公司域以统一管理安全策略。这本身是合理的IT治理需求。

但DCS的操作站当初安装时用的是本地工作组模式,加入域后部分自控软件的服务账户权限出错,导致控制器通信中断。

我们不得不在域控策略和自控系统隔离之间寻找平衡点,最终耗费了近两个月才完成平稳过渡。

这三件事备份、时钟同步、域控,每一件单独拎出来都不是什么技术难题。任何有经验的网络工程师都能在半天内给出解决方案。

真正的问题是,网络规划阶段自控根本没有参与。

等到自控接手时,网络已经上架、线已经放完、设备已经投产,任何一次大规模调整都可能影响生产。

直接原因: 备份服务器与目标主机不在同一广播域,备份软件的广播发现机制失效。NTP客户端无法稳定访问时钟源。域策略与自控软件的服务账户权限冲突。

根本原因: 项目初期网络规划由IT部门独立完成,自控团队未参与。

URS中未写入“工业控制网络的设计应由自控与IT联合评审”这一硬性要求。表面上是IP地址和VLAN的事,本质上是OT(运营技术)与IT(信息技术)在项目架构层面缺乏协同机制。

补救措施: 紧急重新规划IP地址和VLAN,将备份服务器与目标主机纳入同一广播域。部署独立的GPS/NTP时钟源,所有GMP相关系统强制同步。

在域控策略中为工控系统建立独立的组织单元,单独制定适用于工控环境的组策略。

后期如何避免: 在项目概念设计阶段,自控负责人与IT负责人共同制定工控网络规划。

IP地址表、VLAN划分方案、时钟同步架构、域控策略,全部锁死在设计文件里,任何后期变更必须走正式审批。URS中明确写入“工业控制网络的设计应由自控与IT联合评审并签字确认”。

1.2 第二个现场:洁净区走廊压差每到下午就晃

这是一个无菌制剂车间,B级走廊与C级背景区之间的压差设计值是15帕。投产后发现,每天下午两点到四点,压差就会出现周期性波动,最低能跌到接近警戒限。

操作员不得不每天下午手动微调BMS的送风阀门,维持压差稳定。这种手动干预本身又产生了额外的操作记录,增加了QA审核的负担。

自控团队花了将近一个月排查。首先排除了风机频率波动,风机运行曲线平稳。然后排除了排风设备干扰,排风机运行状态正常。

也排除了传感器漂移,用标准仪表对比校准,压差传感器读数准确。最终锁定了B级区一台关键送风调节阀。

在做阶跃测试时发现,信号已经发出了,阀门要过好几秒钟才真正动作,而且实际开度与指令值的对应关系不稳定。

进一步拆解发现,阀门执行机构的膜片在使用不到一年后已经出现老化迹象,定位器的反馈信号也存在抖动。这意味着DCS发出的每一个控制指令,到了阀门这一层都被打了折扣。

翻出采购记录,这台阀门不是主流品牌,而是由空调总包通过其长期合作的贴牌厂商提供的。

URS里只写了“应配置调节型风阀”,没有指定品牌范围,没有规定执行机构的响应时间要求,没有对膜片材质和寿命提出量化标准。

空调总包从自己的供应商库中选择了成本更有优势的产品,在常规商业项目中也许够用,但在对洁净环境压差有苛刻要求的药厂并不适合。

最后我们把这批贴牌阀门全部替换为指定的进口品牌产品。更换后做了完整的阶跃测试和压差控制回路整定,波动问题彻底解决。

但这笔额外的改造费用:阀门采购、安装、调试、验证以及更换期间的停产损失,如果在URS阶段自控就介入审核阀门选型,完全可以避免。

直接原因: 调节阀执行机构存在机械迟滞和膜片老化,定位器反馈信号抖动,导致阀门响应速度与精度不满足洁净室压差控制的实时性要求。

根本原因: URS未对关键调节阀的品牌范围、响应时间、执行器材质和预期寿命提出量化标准。空调总包在分包采购中优先选择了低成本的贴牌产品。

自控团队在设计选型阶段没有参与设备技术参数的审核。表面上是阀门质量问题,实际上是前期系统集成缺乏整体的技术把关机制。

补救措施: 全部更换为指定进口品牌的调节阀,重新进行回路整定和验证。

后期如何避免: 所有接入DCS或BMS的关键调节阀和仪表,URS中必须有自控负责人签字确认的技术条款。

供应商报价的技术标评审,自控团队必须逐项核查偏差。合同中明确约定关键设备品牌范围,不允许用贴牌或低端替代品。

1.3 第三个现场:两条产线,一套共用模块,参数互相干扰

这是最让人后怕的一次。

一个新建的抗体生产基地,两条原液产线A和B共用了一套缓冲液配制模块。共用模块的设计初衷是为了节省设备投资和占地空间,在工艺设计层面有合理考量。

但DCS程序设计时,工程团队为了加快进度,将公用模块的代码复制了一份,两条线各用各的,没有做独立的实例化封装。

早期调试阶段,两条线分时使用共用模块,问题没有暴露。两条线的调试团队各调各的,都以为自己调的是独立的模块。直到两条线首次并行生产,问题爆发了。

A线正在用缓冲液配制模块配一批pH 7.0的缓冲液,B线同时启动了一个配液任务。

操作员在B线操作界面上设定了不同的搅拌转速和搅拌时间,这个参数变更竟然通过共用模块的代码路径,影响了A线的配液过程。

A线的pH调节出现了预期外的波动,超出正常控制范围,触发偏差调查。

偏差调查的结论触目惊心:共用模块在程序架构上没有做到真正的逻辑隔离。两条产线共用了同一套控制功能块的底层实例,彼此参数相互影响。这不是一个变量设置的问题,是整个程序架构的逻辑缺陷。

最后这条产线被迫暂停并行生产,对整个共用模块的DCS程序进行了彻底的架构重构。

将共用模块拆分为独立的实例化单元,每条产线调用独立的实例,拥有独立的参数集和独立的控制逻辑空间。这次改造耗时数周,直接影响了生产计划。

直接原因: 两条产线共用模块的控制程序采用了复制粘贴的方式,未做独立的逻辑实例化封装,导致参数在并行运行时相互干扰。

根本原因: 项目初期没有对“共用资源的隔离策略”进行专门的设计评审。自控团队没有在程序架构阶段介入,工程团队在开发时为了赶进度,牺牲了架构的严谨性。这种顶层架构缺陷在后期几乎无法修复,只能全面重构。

补救措施: 暂停并行生产,对整个共用模块的DCS程序进行架构重构,实现独立的实例化封装。完成后重新进行集成测试和验证。

后期如何避免: 任何被多条产线共用的设备模块,在程序架构设计阶段就必须做实例化封装。设计评审时,共用模块的隔离策略作为专项议题进行评审。程序代码走查时,重点检查共用资源的逻辑隔离是否到位。

二、自控应该什么时候进场?一个被反复问错的问题

这三个故事,看起来讲的是备份、时钟、阀门和程序架构,但它们有一个共同的根系:自控介入的时机。

很多人问过我同一个问题:“你觉得自控应该在项目哪个阶段进来比较合适?”

我后来意识到,这个问题本身就有问题。它隐含了一个假设:自控是项目的“下游工序”,等着前面的人把事做完,然后进来收尾。

如果带着这个假设去做项目,自控进场那一刻,很多事已经决定了,你能做的只是在一个已经固化的框架里做有限的优化。

正确的问法应该是:自控应该在项目的哪些关键节点,以什么角色参与决策?

我的答案是:自控不是项目的一个阶段,而是贯穿项目全生命周期的技术主线。从概念设计到运维退役,每一个关键决策节点,都应该有自控的声音。

在概念设计和可行性分析阶段, 自控应该参与工艺自动化深度的评估。哪些操作适合全自动,哪些适合半自动,哪些保留人工?这个决定会影响后续设备选型、厂房布局和投资预算。

比如细胞复苏环节,水浴锅温控可以做全自动精确控制和记录,但复苏后的活率检测存在较大人工判断成分,强行自动化带来的不确定性反而高于人工操作。这种自动化深度的判断,必须由自控和工艺联合做出。

在基础设计阶段, 自控应该主导自动化系统架构设计。DCS、BMS、EMS的界限怎么划?控制器和网络怎么冗余?

与MES、LIMS的接口怎么定义?关键设备的控制要求怎么转化成URS条款?这个阶段自控的深度参与,决定了后面所有技术决策的质量。

在详细设计和采购阶段, 自控应该参与关键设备的技术评审。阀门、仪表、控制器的选型是否符合控制精度和GMP合规要求?

供应商的报价里有没有偷换品牌或降低规格?这些细节如果不在采购阶段堵住,到了调试阶段就是一个个定时炸弹。

在施工和调试阶段, 自控应该主导系统集成和联调。网络设备是否按设计施工?I/O打点是否全部完成?

第三方设备通信是否在FAT阶段就跑通?这个阶段自控是现场的技术核心,所有跨专业的接口都需要自控来统筹。

在验证和运维阶段, 自控应该建立标准化的运维体系和持续改进机制。备份恢复、时钟同步、变更控制、审计追踪审核,这些不是一次性工作,而是需要长期坚持的制度。

如果自控在概念设计阶段就介入,备份和时钟的问题在网络规划时就能避免。

如果自控在详细设计阶段参与设备评审,贴牌阀门根本不会出现在采购清单上。

如果自控在程序设计阶段主导架构评审,共用模块的隔离策略从一开始就会被做对。

三、自控负责人的五个核心战场

上面的分析,是站在项目视角看“自控应该什么时候介入”。接下来,我想站在自控负责人的日常管理视角,把“自控工作到底在管什么”系统地讲清楚。

项目管理:从立项到验收,全程兜底

自控负责人在项目管理上的首要职责,不是写代码,而是“翻译”。

把生产工艺的需求翻译成自控系统能执行的功能规范。工艺人员说“这个温度要控稳”,自控要把它翻译成PID参数、死区设定、报警限值、控制回路类型。

把GMP合规的要求翻译成审计追踪、电子签名、配方版本控制的技术实现。QA说“所有修改必须留痕”

自控要把它翻译成审计追踪字段定义、电子签名触发条件、数据归档策略。把管理层对效率和质量的要求翻译成可量化、可追踪的KPI。

立项阶段: 主导技术分析,评估项目范围、投资预算和关键技术路线。回答几个核心问题:用什么平台?覆盖哪些工艺单元?

与哪些系统集成?是否需要预留扩展?这个阶段的技术判断,决定了整个项目的投资规模和实施路径。

实施阶段: 管理项目进度和质量。设备FAT、软件组态、集成测试、现场SAT、验证支持,每个阶段都要有明确的质量标准和验收准则。进度延误会直接影响投产时间,质量缺陷会埋下运维隐患。

验收阶段: 确保URS的每一条需求都能在测试报告中找到对应的验证证据。这不是走过场,是项目交付的法律依据。

系统运维与合规:稳定运行是底线,数据完整是红线

商业化生产,系统可用率是硬指标。非计划停机就是产能损失和偏差事件。

标准化运维体系: 建立从日常巡检、定期维护、故障处理到备件管理的完整制度。

巡检清单覆盖硬件状态(控制器状态灯、风扇运转、模块温度)、软件报警(报警堆栈、磁盘空间、历史数据采集状态)、审计追踪异常(未授权访问尝试、异常操作记录)等关键项。

合规管理: 审计追踪必须始终开启且不可关闭。任何对数据的修改都必须留下完整记录。

备份恢复必须定期演练,每季度至少做一次完整恢复测试并出具演练报告。变更控制必须刚性执行,任何修改都有评估、审批、测试和记录。

工业网络安全: OT网络的安全策略与IT安全有很大不同,不能直接套用办公网的安全策略。

工控系统不能随意安装杀毒软件和系统补丁,需要通过工业防火墙、访问控制列表和远程访问安全通道来实现纵深防御。

跨系统对接:自控不是孤岛

现代药厂至少有几个关键系统在同时运行:DCS负责设备控制,MES负责生产执行和批记录,SCADA负责数据采集,LIMS负责QC检测,WMS负责物料管理,ERP负责资源和计划。

自控负责人要做的是,确保各系统之间的数据接口不仅是通的,而且是合规的、高效的、可扩展的。

双方的数据格式、接口协议、采集频率、异常处理方式,都需要在接口规范文件中明确约定。每一方的责任边界要清晰,出了问题能快速定位。

团队与供应商管理:人是最大的变量

在事业部层面,需要驱动各子公司的自控团队,拉通技术标准,共享经验教训。不能让每个基地都重复踩一遍同样的坑。

定期组织跨基地的技术交流和案例复盘,把个别基地的经验变成整个组织的财富。

供应商管理同样关键。筛选有制药行业经验的合格供应商,在合同中锁定核心技术人员,要求所有组态源文件和开发文档完整交付。

供应商的投标团队和实际交付团队经常不是同一拨人,必须在合同中约定核心人员的名单和替换审批流程。

技术创新:不只盯着眼前的一亩三分地

OPC UA的推广应用、工业物联网的数据采集、机器人在洁净区的部署、AI在多变量预警中的应用,这些不是“未来的事”,而是正在进入车间的事。

自控负责人需要跟踪这些前沿技术,结合企业实际需求,找到最合适的应用场景。不是为了上新技术而上新技术,而是为了解决实际痛点。

四、几个最容易被忽视的技术决策

结合上面五大战场的管理实践,这一部分我想聚焦几个特别容易在项目早期被忽视、但后期影响极为深远的技术决策点。每一个都是从真实项目中提炼出来的教训。

4.1 网络资源规划:IP地址、VLAN与工业网络架构

工业控制网络和办公网有本质区别。办公网追求灵活性和移动性,设备经常变动,DHCP自动分配地址很方便。

但工控网追求的是确定性和稳定性,控制器、操作站、服务器的IP地址一旦确定,几年甚至十几年都不会变,也不应该变。

在工控网络中,静态IP是标准做法。每一台设备上架前就应该分配好固定的IP地址,记录在地址分配表里。

DHCP在工控网中只适用于少数非关键设备。IP地址规划要预留足够的扩展空间,避免后期新增设备时地址不够用。

VLAN划分策略是另一个核心问题。工控网络内部也需要逻辑分层:实时控制数据一个VLAN,历史归档数据一个VLAN,备份数据一个VLAN,远程访问一个VLAN。各自走各自的逻辑通道,互不抢占带宽。

备份服务器必须与其目标主机在同一VLAN内,或通过稳定的路由通道保证广播可达。如果备份依赖广播协议,跨VLAN就意味着备份永远无法自动发现目标。

时钟同步同样需要确保所有GMP相关系统能够稳定访问同一台NTP时钟源。NTP流量的网络路径必须短、必须稳定、不能有间歇性中断。

上域这件事对自控系统来说需要格外谨慎。域控策略可能会强制要求定期更换密码、开启防火墙、自动安装安全补丁,这些在工控环境中都可能是风险源。

自动安装安全补丁可能引入与自控软件不兼容的更新。合理的做法是将工控网络作为一个独立的域或域内一个受控的组织单元,单独制定适用于工控环境的组策略。

4.2 关键阀门与仪表选型:贴牌阀门的技术风险

调节阀不是一个简单的水龙头。它的响应时间、死区、迟滞、线性度,直接影响控制回路的品质。

洁净区压差控制对调节阀的要求尤其苛刻,因为被控对象本身惯性小、干扰多、对超调容忍度极低。

URS里写“应配置调节阀”是不够的,必须写清楚:执行器响应时间(全行程时间小于多少秒)、定位器精度(小于全量程的百分之多少)、阀体材质(不锈钢等级和表面处理要求)、膜片预期寿命和更换周期、是否支持在线维护。

这些参数的缺失,等于给了供应商用低端产品替代的合法空间。

供应商的报价里经常藏着一种策略:主设备用进口品牌,附属的阀门、传感器用贴牌或低端替代品。

总包在汇总报价时,如果只看总价不看明细,很容易被这种“主高附低”的策略钻空子。这种策略必须通过技术评审把每一项单独拎出来核查。

4.3 DCS程序架构设计:共用模块的隔离策略

这是自控团队的核心技术工作,也是在后期最难修改的部分。公用模块的隔离策略是头等大事。

任何被多条产线共用的设备模块,无论是缓冲液配制、CIP站还是纯蒸汽供应,都必须在DCS程序层面做严格的实例化封装。

每条产线调用独立的实例,拥有独立的参数集和独立的控制逻辑空间。

同时,程序架构应该建立分层结构。底层是标准化的设备模块和控制模块,中层是单元程序,上层是主配方。

分层清晰了,修改下层不影响上层,增加新产线只要实例化新的对象即可。程序开发从第一天起就启用正式的版本控制工具,每一次修改都有变更记录。

4.4 跨系统接口的提前定义

MES、DCS、LIMS、EAM,WMS、SCADA各系统直接数据如何交互,通信接口如何定义?这些问题都需要重点关注。

通信接口的数据内容、通信协议、触发条件、异常处理方式,必须在详细设计阶段就以接口规范文件的形式明确下来。

时间同步要求所有接口数据的时间戳基于同一个GPS/NTP时钟源,确保跨系统事件的毫秒级对齐。

异常处理机制也必须明确:通信中断后如何恢复?数据补偿机制如何工作?中断期间的数据丢失如何处理?

五、新项目启动时,五个重点关注的环节

每个新项目启动时,我不会等到开工令下了才进场。以下五个节点,是从概念到投产最需要自控深度介入的关键时刻,错过了哪个,后面都得还债。

节点一:概念设计阶段。 拉上工艺负责人,一个单元一个单元地过自动化深度建议矩阵。每个单元操作,全自动、半自动、还是保留人工?给出明确的决策依据,形成正式文件。花一周时间把这件事做透,后续几个月都能受益。

节点二:基础设计阶段。 和IT负责人一起,把工控网络的物理拓扑和逻辑拓扑画出来。IP地址规划表、VLAN划分方案、冗余架构、备份服务器位置、时钟同步方案,全部锁死在设计文件里,任何后期变更必须走正式审批。

所有的共用资源:公用工程、共用设备模块,在架构层面做隔离设计,不给并行干扰留缝隙。

节点三:设备采购阶段。 所有接入DCS或BMS的关键仪表和阀门,URS里必须有自控负责人签字确认的技术条款。供应商报价回来,技术标评审逐项对照URS核查偏差,不接受“甲方未注明所以乙方选用经济方案”这类说辞。

节点四:FAT阶段。 带着团队在工厂把所有能在出厂前测完的项目全部测完。通信协议在FAT阶段跑通,带真实设备的集成测试在FAT阶段完成。FAT不放水,现场少流泪,这是铁律。

节点五:SAT与联调阶段。 坚持先单点后联动,每一个I/O点、每一个阀门、每一个传感器都必须逐个打点确认。

全网络时钟同步做专项测试。所有联锁逻辑逐项触发,确认在真实工况下动作准确。共用模块的并行压力测试做足,不留隐患。

六、写给不同角色的同行

这篇文章发出来,可能会有不同岗位的同行看到。我想分别说几句话。

如果你是自控工程师, 不要把自己定位成“等需求来了再执行的实施者”。你越早介入项目,你的技术判断就越有影响力。

主动去了解工艺、主动去对接设计、主动去参与选型。专业深度,需要用主动参与来兑现价值。

如果你是工艺负责人, 自控不是你的“下游工序”,而是你的技术伙伴。在你规划工艺路线和参数范围的时候:

自控可以帮你评估哪些控制策略可行、哪些仪表选型能支撑你的工艺要求。早一点让自控加入讨论,技术转移过程中的信息丢失就能少很多。

如果你是生产负责人, 你关心的系统好不好用、操作效率高不高,在很大程度上取决于自控在设计阶段有没有站在操作员的视角去做人机界面和流程设计。

让自控在设计阶段就走进车间、了解实际生产场景,比你投产后反复提改造需求要有效得多。

如果你是质量负责人, 审计追踪的质量、数据完整性的根基,不是在验证阶段才建立的,而是在系统设计阶段就已经决定了。

自控在设计阶段多投入一分精力,你在审计时就能少面对十分风险。让自控在设计阶段就把合规要求落地,比事后补漏洞要靠谱得多。

如果你是验证负责人, 你手中的验证方案能不能顺畅执行,很大程度上取决于URS和功能规范有没有写到“可被测试”的颗粒度。

自控在设计阶段把功能写清楚了,你在写测试脚本时就不需要反复猜测设计意图。URS里多一行具体的功能描述,你的验证追溯矩阵就可能少一个缺口。

如果你是企业管理者, 请你算一笔账。自控在项目早期多投入一个人月,可能省掉的是投产后几十个人月的抢修

几周甚至几个月的停产损失,以及一次GMP检查中被开出严重缺陷的风险。这笔账的答案,非常清楚。

七、写在最后

我越来越相信一个判断:商业化生产线的成败,很多时候在你还没有意识到的时候就已经决定了。

决定它的不是某个单一的技术突破,而是在项目早期,关键的技术角色有没有参与到关键的技术决策中。

自控不是生产线的“最后一道工序”。它是贯穿始终的技术主线,是把工艺、设备、质量和管理串在一起的那根线。

这根线如果一开始没穿好,生产阶段会暴露出各种问题。

所以,如果你正在规划一条新的产线,或者正在经历一个项目的前期阶段,希望你能把这句话带给你的团队:

自控进场的最佳时机,不是土建封顶之后,不是设备采购之后,甚至不是基础设计之后。

自控进场的最佳时机,是在项目最早期,就已经有人反复追问那几个关键问题:控制回路怎么设计、跨系统数据怎么对齐、GMP合规怎么落地?

这个人就是你的自控负责人。如果他还不在,赶紧让他进来。

相关内容 查看全部