复旦大学自然语言处理实验室张琪教授团队研发的多模态大模型“复旦谋斯”,基于AI技术赋能视障群体,推出听见世界APP语音导航功能,旨在解决视障群体生活局限。该应用通过手机后置摄像头实时捕捉环境信息,结合自然语言理解能力生成语音提示,帮助盲人识别障碍物、路径及公共设施,提升盲人无障碍出行辅助的独立性。
在测试阶段,用户反馈显示该技术显著增强了视障人士的出行信心。例如,一位老年视障用户借助APP在小区内自主活动,减少了依赖盲杖的不便。然而,团队指出当前挑战包括模型响应速度优化和关键场景下的盲人出行安全责任问题,例如红绿灯识别的误差可能导致安全隐患,需进一步探索技术可靠性与责任划分。
未来研发方向聚焦提升多模态模型的精准度与实用性,暂未扩展至就业或教育领域。张琪教授强调,社会力量助残协作至关重要,希望更多团体关注视障群体需求,推动技术产品化落地。项目的终极愿景是让AI成为盲人的“眼睛”,通过多模态预训练数据和持续优化,实现更平等的技术赋能与社会包容。