本公开提供了一种虚拟装配中融合眼动跟踪和手势识别的人机交互方法和装置,根据获取到眼动数据,进行注视点跟踪;根据获取的手势信息,进行手势的识别,对得到的手势识别数据和眼动数据进行标注,构成训练集,构建多流卷积神经网络‑长短期记忆网络模型,所述网络模型利用训练集进行自我学习;将训练得到的最优网络模型应用在虚拟装配过程,获取虚拟装配过程的眼动数据和手势信息,提取眼动与手势特征,根据特征信息分析得出操作人员的行为类别进而完成装配任务。解决了单一模态下对相似行为的误判问题,并利用深度学习算法的优势,以较高的准确率识别视频中操作人员的行为,完成虚拟装配任务,实现人机交互。