x

哈工大深圳团队入局多模态大模型,自研「若愚-九天」荣登OpenCompass榜首

发布时间: 2023-08-09

转载自36氪,作者:Ben@36KR

若愚-九天实现了文本、图像、音频和视频的多模态融合

36氪获悉,哈尔滨工业大学(深圳)计算与智能研究院团队,依托学校的哈深资产经营有限公司进行成果转化,成立了多模态大模型研发企业——深圳若愚科技有限公司(以下简称“若愚科技”)。若愚科技旗下首款多模态大模型“若愚-九天”首次参评即登顶OpenCompass多模态大模型榜单。

640.webp.jpg

多模态大模型MMBench test榜单

01 “若愚-九天”

“123亿参数”、“1亿2千万图文对”、“550万条中英双语种语料样本”、“120万微调数据样本”、“50万条强化数据样本”……核心参数的提升带来的是模型能力的质变。若愚-九天多模态大模型在逻辑推理、关系推理和感知能力等方面均取得令人瞩目的表现。凭借超百亿参数,若愚-九天实现了文本、图像、音频和视频的多模态融合。其智能理解和响应能力,不仅涵盖了自然语言处理、计算机视觉和语音识别等领域,更有效地打破了各模态间的信息壁垒,使它们在“九天”中融为一体。

640.webp (1).jpg

多模态大模型MMBench dev榜单

“九天寓意着中国古代神话中的最高天界,象征着我们对技术进步的无限追求和对智能未来的向往。这款模型以其强大的理解和响应能力,跨越了文本、图像、音频和视频等多种模式的界限,实现了真正的多模态融合。”若愚科技CEO孙腾博士表示。

02 组建大模型顶尖团队

哈工大深圳校区成立了资产股份有限公司,鼓励教职员工成果转化与落地。哈工大(深圳)在产学研落地有政策支持,若愚科技成立之初学校就作为初创股东参与进来,为公司的发展提供坚强的支撑。

近期,人工智能领域著名杂志IEEE Intelligent Systems公布了2022年度“人工智能十大新星”(AI's 10 to Watch)名单,聂礼强教授因在多模态领域的贡献位列其中。聂教授是达摩院青橙奖获得者,TR35中国获得者。他表示,哈工大(深圳)在人工智能领域的成果不能仅存在于实验室中,要成果转化,服务国防航天,服务社会。

若愚科技另一位人工智能技术大牛是联合创始人张民教授。张教授是哈工大(深圳)特聘校长助理,国内NLP方向首位杰青,国家“百千万人才”,国家有突出贡献中青年专家,享受国务院特殊津贴。哈工大在计算机科学权威榜单CSRankings(2022-2023)NLP方向中国研究机构中排名第一,张老师是哈工大在此方向贡献度最大的人员。


640.webp (2).jpg

CSRankings NLP方向 中国大陆地区机构中哈工大排名第一


640.webp (3).jpg

张民老师学术贡献榜单中排名第一


若愚科技联合创始人兼CEO孙腾博士也是公司研发团队的核心专家,孙博士的研究方向一直聚焦多媒体计算,相关成果发表在CCF A类会议和IEEE/ACM Trans。孙博士此前有成功的创业经验,针对人工智能技术在垂直领域落地应用具有全流程经验和公司管理经验。若愚科技另一位联合创始人耿琛担任公司的战略顾问,其多次获评新财富最佳科技分析师,并在多年的研究生涯中积累了丰富的产业资源,负责公司投融资和产业资源对接落地。

03 若愚科技的核心能力

“若愚科技在这个时间点成立,是有其历史使命和理想的。作为前沿研发人员,我们能深刻感受到人工智能对未来社会的变革,生成式人工智能带来的生产力爆发将重新定义各行各业的生产关系,有机会参与其中是我们的荣幸和使命。”

算力、数据和人才,是大模型入局的三大门槛,若愚科技在创立之处就集齐了这些核心要素。领军人才培养的内生研发团队已形成自主迭代能力,未来“若愚-九天”将在技术大牛的带领下持续迭代。

凭借顶级创业团队、自研多模态大模型的核心能力,以及成功的落地经验,若愚科技表示将为“百模大战”带来一抹异彩。

04 打造通用AI大模型基座

以大模型能力为基座,重塑每个赛道,已经成为行业共识。根据OpenAI的发展道路,模型大到一定程度时,会涌现新的能力,尤其是会迸发出一些从未见到过的能力。

若愚-九天未来也将不断迭代。孙腾博士表示:“‘若愚-九天’还在向更大和更小两个相反的方向迭代,一方面在加大参数量级,探索支持通用多模态大模型涌现的节点;另一方面为满足行业用户的应用需求,用最小的算力实现最大的效果,势必要做的就是大模型的轻量化压缩,最后和边缘计算设备相结合。”

基于“若愚-九天”的多模态大模型基座,若愚的商业模式与AI 1.0时代有本质区别。过去的商业模型要针对每一个需求重新研发算法,是完全的项目制。“若愚-九天”作为统一的多模态大模型基础,不需要重新设计基座,只需要根据行业的不同数据进行微调,就可以得到对应行业模型,客户甚至可以根据细分领域的需求,自己用数据做二次微调。

多模态大模型的难点在于多模态信息融合。常见的融合方法包括线性叠加、级联等相对粗暴的手段,但最终的效果往往还不如单一模态表现出色。这是因为一些技术团队缺乏对多模态数据调教、多模态特征融合与对齐的经验和能力。若愚-九天具有自主研发的多模态特征提取、对齐、融合、推理的全链条模型训练框架与全面细致的多模态数据收集清洗流程。该模型登顶多模态大模型榜单证明了此团队在多模态大模型方面领先的实力。

机器人是工业领域系统级应用产品,是“若愚-九天”多模态大模型基座赋能的重点落地方向。哈工大目前在机器人领域有着深厚的产学研积累,未来具身机器人更需要语音、视觉、决策、控制等多模态信息融合形成闭环。“若愚-九天”多模态大模型基座将在哈工大机器人研究积累上进行进一步的研究融合,目前已和多家大型消费电子/汽车领域上市公司展开深度合作。

以“若愚-九天”多模态大模型基座,若愚科技有能力通过现有多模态大模型基座进行微调,为不同领域的用户提供个性化、定制化服务,提供语言预训练大模型、多模态预训练大模型、垂直领域预训练大模型等能力,着手于建设未来AI通用型平台和基础设施。


联系我们

business@ruoyutech.com

地址:广东省深圳市南山区众冠时代广场A座903

版权所有@ 若愚科技   粤ICP备2023060245号-2  粤公网安备44030902003927号