格隆汇6月26日丨虹软科技(688088.SH)近期接受特定对象调研时表示, AIGC持续火热,由文生图开始延续到图生图、图生视频等阶段,公司在AIGC技术与各大模型的差异主要分为以下三大方面:
1、可控"Control+Net"
"Control+Net"是一个比较广义的概念,如:卷积神经网络、小模型网络等等,统称 "Control+Net",其精细可控的结果可以用于指导各种各样的大模型生成控制。公司目前在"Control+Net"的规划布局上大体分为五大类:
第一类:分割。分割的终极目的是"分割万物",但大模型通常没有办法给出非常精细的结果,边缘通常有些粗糙。虹软精耕分割领域多年,可以分割出非常精确的边缘,甚至发丝及镂空区域,这是非常核心的技术。
第二类:Pose。人体Pose主要分为三个部分,面部、手和身体,除了相关成熟且已应用到项目中多年的2D技术,目前虹软还可以做到单目恢复人体3D模型的程度,为人体的局部细节控制和生成打下坚实的基础。
第三类:深度恢复。目前虹软有成熟的单摄和多摄深度恢复技术,一张照片就可以准确恢复图像的深度信息,此技术已经在手机背景虚化功能上稳定使用多年,对公司的产品竞争力提升极大,相信将来也会成为 AIGC 产品的强力助手。
第四类:抽象化的边缘检测。美是抽象的,更是有艺术创造性的,虹软在人像美化和美型方面有十余年的经验积累,对人体边缘检测的抽象化和美的处理可以驱动产生更符合大众审美的模特生成结果。
第五类:全图分析。公司目前很多技术都需要分析图片中的对象,包括整幅图中的出现的光照、人物、场景等等,然后做画质或人像相关的特殊化处理,而这也将会使我们对大模型的生成有着更好的控制力。
2、优化模型和优化输入
公司没有自己的大模型,除自主研发外,还会结合具体的业务,通过对样本和开源大模型的优化,并结合相关领域的多个精细可控小模型,联合起来相互作用,最终取得更好的产品效果。
3、解决图片中的小错误
即使AIGC生成的图片中有各种各样"Control+Net"类型的控制,但是仍然避免不了会有一些小错误。解决的方法大体有两种,①把图片中多余、不合逻辑的地方去掉。②加强图片中想要的东西,而且把不想要的对象去掉。所以,公司在AIGC技术上,能与大模型结合来创新引擎,从而与深度学习引擎、计算机视觉引擎、浅层网络引擎以及3D图形引擎等联合起来,产生想要的、可控的结果,而且大大减少错误,这是一个自适应的过程。公司做视觉移动终端多年,积累了大量计算机视觉和人工智能的引擎,且许多引擎在手机上都已经落地,已经具有速度快、省电、稳定、错误少、成功率高等特点,处理效果与产生的结果都较好。