百度AI再升级 视觉语义化让百度大脑从看清升级到看懂[多图]
除了在算法上,百度视觉语义化技术与智能手机等硬件设备的结合,也有多项最新发展。据介绍,百度视觉语义化支持百度AR、百度OCR、场景识别、智能相册分类、拍照识图等解决方案,通过硬件+OS+算法的联动优化,为华为、VIVO、小米、三星、魅族等智能手机合作伙伴提供率先的技术服务。他还展示了华为P20手机上的AR(增强现实)萌宠功能。
事实上,要实现诸如智能零售、视频媒体分析这样的场景,背后依靠于强大算法和技术能力。值得一提的是,百度视觉技术在此领域首创Pyramidbox算法、Ubiquitous Reweighting Network算法以及Action Proposal Network、StNet和 Attention Clusters算法,在WIDER FACE人脸、WebVision大规模图像识别、ActivityNet视频理解等全球视觉比赛中取得多项世界第一的好成绩,在识别人、识别物、捕捉关系三个技术领域均有业界最率先的技术积存。
7月4日,“Baidu Create 2018”(百度AI开拓者大会)上,百度高级副总裁、AI技术平台体系(AIG)总负责人王海峰播放了一段无人超市中的视频。视频中,购物可以实现即拿即走,轻松便捷;购物车既可以为你指路,也可以乖乖尾随身后,服务十分到位。
吴中勤进一步介绍了视觉语义化技术与机器人结合实现物理行动能力的发展。百度研发的基于深度增强学习的无地图避障算法,老娘驾到,应用于机器人中,可以实现机器人在密集人流环境下的快速、动态地避障。而在当天的百度AI开拓者大会会场,参会者均看到了搭载此项技术的机器人,在人群中灵便穿梭的身影。
百度视觉语义化技术是百度AI全新的视觉感知和理解能力,是一次质的飞跃。它以数据采集、光学传感器、嵌入式芯片、云端计算服务为底层依靠,通过人脸、物体检测、文字识别、场景分析的识别算法,以及动作监测、视频跟踪、事件分析的语义分析,输出智能分析与推理、可视化展现、检索查询系统等解决方案,能够被广泛应用在零售、视频媒体、金融、医疗、交通运输和营销等众多领域。
例如在超市场景,当顾客进入超市时,基于百度视觉语义化可以首先通过人体识别和ReID确认顾客身份(会员/首次光顾),然后通过捕捉用户的扫瞄区域、停留时光以及选购商品等,分析用户偏好,进而实现顾客行为语义化分析。
百度视觉语义化技术实现“看懂”需要4个步骤,从识别人、物和场景,到捕捉行为和关系,然后形成时序化、数字化、结构化的语义知识,可举行智慧推理并在场景降地应用。
“视觉语义化技术的应用范围非常广泛,通过在越来越多场景中的应用降地,和持续更新迭代,将真正实现机器设备从看清到看懂的跨越,”吴中勤表示,将来,百度视觉语义化将持续创新,携手开拓者和合作伙伴推动AI技术的降地,通过助力开拓者,实现开放共赢,共建更强大的AI生态,用科技让复杂的世界更简单。
在软硬结合方面,吴中勤还重点介绍了基于百度视觉语义化还与新型传感器、AI芯片举行结合的发展,并公布了两款自主研发的智能视觉AI硬件底层模组:红外3D结构光模组BoteyeR及视觉智能AI相机模组Xeye。据介绍,BoteyeR模组通过业界率先的红外3D结构光和人脸算法,实现人脸活体识别的解决方案,可以有效解决在暗光和袭击等复杂场景下人脸认证艰难的技术问题。Xeye AI相机模组打造了一个低成本、小型化、端上计算的智能物体识别跟踪相机,集成了众多终端计算的视觉感知能力,如人脸识别、物体识别、手势识别等,有效解决新零售、安防、智能家具等场景视觉技术应用的隐私、成本、计算开销等问题。
吴中勤以正在如火如荼举行的世界杯赛事为例,展示了视觉语义化技术在视频分析领域的应用。有了这个技术,AI能够通过竞赛对球场各种元素的识别,包括球员、脚球、赛场区域等元素,以及行为动作的捕捉,如球员的射门、角球等动作,从而举行智能推理与应用,为用户提供精彩射门集锦、球员和球队表现分析、视频中事件智能检索甚至智能问答等功能,能大幅提升视频媒体分析的表现。