2026年6月,数创弧光(DataArc)完成新一轮融资。
这家成立仅一年多的AI数据公司,此前已连续完成种子轮和种子+轮融资。

投资方阵容里,有英诺天使基金、东方富海、华为哈勃、君联资本、数字未来、启迪之星等知名机构。
创始团队
江旭晖,中科院计算所博士,IDEA研究院研究科学家。

顶会论文20多篇,拿过CCF科技进步一等奖,还有个特殊身份:《流浪地球2》AI科学顾问。

2025年1月,江旭晖和联合创始人徐铖晋在深圳成立数创弧光。
徐铖晋是浙大竺可桢学院本硕、德国波恩大学博士,IDEA研究院研究科学家,顶会论文50多篇。
团队融汇中科院、浙大、清华、德国波恩大学等海内外高校学术成果,加上阿里、腾讯、AI独角兽的商业化经验。
项目顾问是沈向洋院士,美国、英国工程院双院士。
做什么的?合成数据
数创弧光做的是合成数据(Synthetic Data)。
什么是合成数据?用算法生成的"模拟数据",而不是从真实世界采集。
为什么要做这个?因为真实数据快不够用了。

Epoch AI估算,互联网上可用的高质量人类文本数据,可能会在2028年底前耗尽。AI训练就像考试,真题做完了,只能靠模拟题。
但合成数据不是简单的"编数据"。数创弧光的技术路径叫SoG(Synthesize-on-Graph),知识驱动的数据合成。通俗点说,让AI"像人类思考一样生成数据",而不是随机拼凑。

效果怎么样?多跳问答任务上,准确率提升25.4%,成本降低85.7%。阿拉伯语基准测试中,仅用1000条合成数据微调,准确率提升6%。
数创弧光不只做数据生成,还有企业知识库管理(Living KB)、RAG方案(RAG-ARC)。这些都是企业级AI应用的刚需。
更重要的是,合成数据加密训练:基于同态加密技术,大模型可以"理解"加密数据而无需解密。这对金融、医疗等强合规行业来说,是硬需求。
打法:国内打磨,海外复制
数创弧光的打法,国内和海外两条线。
国内聚焦金融和高端制造,和头部银行、硬件厂商合作,打磨产品可靠性、隐私合规性。
海外是规模复制地,重点是中东和东南亚。阿拉伯语的互联网文本语料只有4.5个T,英文语料有400多个T,差了快100倍。中东国家想训练自己的大模型,数据根本不够。
数创弧光的合成数据技术,恰好解决"低资源语言"的数据稀缺问题。
2025年,数创弧光亮相迪拜GITEX-ENS,和中东国家级政府数字部门、头部云厂商、运营商建立了合作。
