精密电阻
NEWS

Facebook研究人员使用视听技术探索人工智能技术

平面图对于可视化空间,规划路线和传达建筑设计非常有用。例如,进入新建筑物的机器人可以使用平面图快速感知整体布局。
创建平面图通常需要完整的布局,以便3D传感器和摄像机可以捕获整个空间。据国外媒体报道,1月11日消息,最近,来自Facebook,德克萨斯大学奥斯汀分校和卡内基梅隆大学的研究人员正在探索一种人工智能技术,该技术将利用短视频中的视觉和音频来重建剪辑中的平面图。
。研究人员断言,音频提供了空间和语义信号,并补充了图像的映射功能。
他们说这是因为声音自然是由物体的几何形状驱动的。声音从表面反射出来,显示出房间的形状,远远超出了摄像机的视野。
从远处听到的声音,甚至在多个房间之外的声音,都可以揭示出自由空间的存在以及声音对象的可能存在。此外,从不同方向听到的声音会根据这些声音所代表的活动或事物来显示布局。
例如,淋浴的声音可以指示浴室的方向,而微波炉的声音可以指示厨房的方向。研究人员的方法称为AV-Map,旨在将带有多通道音频的短视频转换为2D平面图。
机器学习模型使用音频和视频数据序列来推断平面图的结构和语义,最后使用解码组件来融合音频和视频信息。 AV-Map生成的平面图大大超出了视频中直接可见的区域,显示了被分成离散的语义房间标签(例如家庭房和厨房)的自由空间和占用区域。
该团队在Matternet3D和SoundSpaces数据集的数字环境中对主动和被动两种设置进行了实验。在第一个实验中,当在样板房的房间中移动时,使用虚拟摄像机发出已知的声音。
在第二种情况下,仅依靠家中物体或人的自然声音。研究人员说,在未来的工作中,他们计划扩展多层平面图,并将绘图思想与机器人联系起来,以主动控制摄像机。

欢迎您的咨询