纵观历史,人类社会每一次巨大的飞跃都得益于技术创新。在工业时代,全球GDP年均增长率约为1%-2%;信息时代,增长率为3%-4%。那么,在人工智能时代,这一数字会是多少?
在2024 IDEA 大会上,IDEO 研究院创院理事长、美国国家工程院外籍院士沈向洋提出了上述观点。他强调,随着人工智能各项能力逼近甚至超越人类,人工智能治理已成为全球亟需共同应对的议题。
当天,粤港澳大湾区数字经济研究院(IDEA研究院)发布了DINO-X目标检测视觉大模型。该模型作为GroundingDINO系列的升级之作,在多项能力上得到提升。它无需用户提示即可检测万物,无论是常见物体还是罕见的长尾物体(出现频率低但种类繁多的物体),都能精准识别并给出类别。
得益于超1亿高质量样本的大规模数据集多样化训练,DINO-X对未知场景和新物体适应性强,泛化能力出色,在实际应用场景中更具灵活性。
沈向洋在探讨人工智能发展脉络时,提到了算力、算法和数据层面的变化。
摩尔定律指出,每18个月算力需求增长一倍。而当下大模型对算力需求每年增长四倍以上。过去十年英伟达市值大幅攀升300倍,与算力需求剧增紧密相关。十年间,算力需求增长约100万倍。
2017年Transformer架构面世后,人工智能、深度学习、大模型多沿此路线发展。OpenAI的O1系列带来算法突破思路,改变了过去单纯预训练预测下一个token的模式,融入类似人思考、推理的后训练、后推理过程。
数据缺失已成为大模型行业内的共识之一。随着GPT系列发展,数据需求激增。沈向洋透露,距离GPT3面世已经过去三年,当时OpenAI使用了2T数据,1万亿Token。GPT4用了12T数据,训练用了20T数据。事实上,互联网上洗干净的数据约为20万亿。沈向洋认为,GPT5预计需要200T数据规模。合成数据可以给大模型提供更为丰富的训练材料,还有望催生未来百亿美金级别的创业机遇。
互联网上已经找不到那么多的数据,未来需要更多高质量的合成数据来训练未来的模型。1万亿的数据约等于500万本书,20万张高清照片,或500万篇本文。人类历史上的书籍约为21亿Tokens,微博有38亿Tokens,Facebook大概拥有140TTokens的数据。当下互联网数据存量告急,社交媒体数据质量欠佳。因此,合成数据受到重视,但私域数据利用存在安全孤岛问题。
为此,IDEA研究院通过IDEADataMaker用加密方式利用私域数据生成新语料、语境图谱。
人工智能时代即将到来,技术创新将继续推动人类社会变革。DINO-X模型的发布,以及合成数据在AI训练中的重要性,为我们提供了一次重新思考人工智能发展并抓住新机遇的机会。
本文地址:http://www.sosite.cn/zuixinwz/1121.html
上一篇:2024年中国电商销量预计飙升超700%至10万副...
下一篇:开启10万个应用大门未来半年到一年内华为鸿...