当前,人工智能正加速重构产业格局,海量、多维、高质量的数据信息可视作战略性资产,迭代创新、优化运营、构筑核心竞争力均不可或缺。我国市场监管总局发布数据,截至今年5月底,全国实有民营经济组织1.85亿户,同比增长2.3%。其工商、税务、司法、招投标、环保、招聘、经营等全维度信息,为AI应用提供了广阔前景。如何运用人工智能(AI)和数字技术赋能高质量发展,成为迈向转型进程中的“必修课”。
中国中小企业协会信服委举办“AI时代下的企业大数据发展”主题交流活动中,中国中小企业协会副会长、复旦大学计算机科学系博士杨茂江向记者阐述了就企业全维度信息数据集对AI应用的战略价值。他创立的凭安征信是央行备案的企业征信机构、中国中小企业协会副会长单位、国家中小企业公共服务示范平台。杨茂江从“数据生产力”视角,深度剖析数据治理的挑战与路径。
中国中小企业协会副会长、复旦大学计算机科学系博士、凭安征信总经理 杨茂江
杨茂江:传统软件(如ERP、CRM) 和主流的软件即服务(SaaS)模式,其核心是基于预设规则和流程的自动化。它们遵循“If(如果)”“Then(那么)”的精确逻辑,而SaaS虽然通过订阅模式创新了软件的交付和成本结构,但其应用逻辑大多仍未脱离”流程自动化”的范畴。AI应用是通过学习海量数据中的复杂模式与关联,以概率为基础,持续优化以达成一个预设的“目标结果”。从”过程导向”到”结果导向”的转变是两者最核心的区别。
杨茂江:AI应用的性能、准确性和可靠性,几乎完全取决于其所“学习”的数据质量。数据广度(维度是否全面)、深度(历史是否长久)、准确性(信息是否真实)和时效性(信息是否最新),直接决定了AI模型能否洞察真实世界的规律,从而做出精准的预测和决策。没有高质量、大规模的数据集,AI应用就如同无源之水、无本之木,其“智能”便无从谈起。
北京市《人工智能赋能新型工业化行动方案》明确,将对企业数据首登记、首入表给予奖励,并建设数据治理服务平台。若将全国数以亿计市场主体的多源、异构、动态数据,整合成一个高质量、标准化的数据集,堪比“数字时代三峡工程”,要知道面临计算和成本的瓶颈,对AI开发者的数据处理架构和算法设计都要求极高。
杨茂江:我认为,主要挑战集中在三个方面。一是多源异构数据采集,信息分散、数据格式、更新频率、访问协议各不相同,需应对反爬虫和接口变更;二是数据清洗与标准化,需处理企业名称不一致、地址格式混乱、关键字段缺失等问题,去重和对齐耗时耗力;三是非结构化数据处理,如法律文书的判决理由、招股书的风险提示、环保处罚的具体事由、招聘启事的岗位描述等,需借助自然语言处理(NLP)技术进行实体识别和关系抽取,技术门槛和计算成本非常高。
杨茂江:比如说,人力成本包含数据工程师、算法工程师、数据科学家、乃至法律合规专家的跨学科团队,持续的数据采集、治理和建模工作,占总成本比例较大。计算与存储成本中TB/PB级别的原始数据存储、大规模分布式计算集群(用于数据清洗和模型训练)、高性能GPU资源(用于NLP和深度学习模型)等硬件和云服务开销巨大。时间与维护成本涉及数据集实时更新和质量监控,这是一项长期、持续的运营投入。
还有确保数据的准确、完整与时效的工作是艰巨的。准确性是如何交叉验证不同来源的数据,确保信息的真实无误,建立一套完善的数据质量检核与评估体系至关重要;完整性是通过多源数据融合,构建最全面的企业画像,这需要强大的数据融合与治理技术来保障;时效性是针对企业的经营状况瞬息万变,真实数据的价值成为保障数据平台的核心关卡。
杨茂江:从凭安征信取得一些成果和积攒的实践经验中,目前构建的高质量AI数据集,涵盖工商主体、知识产权、招投标、企业招聘、裁判文书、企业洞察等多类型全文子库,正在政府机构、金融银行、高校科研院所、互联网公司等多个领域落地应用,突破传统分析局限带来提质增效的有益助攻。我认为,AI分析在多个关键场景能为各行业创造突破性价值。
比如说,金融科技中构建动态精准的企业风险画像,实现从“事后补救”到“事前预警”;供应链管理中评估供应商稳定性与合作风险,优化库存物流,提升韧性;市场营销中识别客户意图信号,实现B2B精准触达与个性化营销;科技创新中绘制产业创新图谱,识别技术趋势、产业规划和潜在合作机会;监管科技中助力监管机构提升管理效率、防范系统性风险,实现“被动响应”到“主动预警”的智慧监管。
AI时代下,决策层应打破数据孤岛,将数据建设提升至与业务同等高度;技术团队则需攻克数据融合、清洗、NLP等难题,成为推动智能化转型的关键动能。正如杨茂江所述,“数据不是石油,而是AI时代的核燃料,唯有构建安全、动态、高维的数据体系,方能点燃智能革命的引擎。”(光明网记者 王一涵)