本发明公开了一种多模态意图融合方法,通过传感器获取用户的声音信息和视觉信息;利用意图感知算法将获取的声音信息转化为若干语音意图,将视觉信息转化为操作意图;通过语音意图竞争确定用户真实语音意图;将操作意图作用于样本图像,并在屏幕上呈现操作结果;判断用户真实操作意图;构建系统反馈规则库,根据用户的真实操作意图和真实语音意图,查询并输出相应的系统反馈,指导用户操作。本发明还公开了一种虚拟显微镜,利用上述多模态意图融合方法,包括输入模块、控制模块和输出模块,使设备能够感知用户的真正意图,给出相应的反馈指导,有效的减少了用户误操作次数,方便用户更好的完成显微镜操作实验。