本公开提出了一种基于非结构化电子病历的文本挖掘方法及系统,包括:将医院数据库中导出的多个某一现病史记录,作为原始实验数据,并将每条样本以时间序列展开,首先识别出描述时间含义的词语,然后以时间节点为界,将长文本切分为若干个短文本,即将现病史切分为每一次的住院记录;确定某一现病史特征以及抽取规则并将其保存成xml文件;基于规则库的病史信息提取与结构化存储,对已定义的规则进行重写后形成正则表达式来实现非结构化文本的特征抽取;特征的量化表示:通过分析提取后的特征值的数据类型,对特征值进行数值量化。将量化后的特征值统一为一次住院期间的特征表示X=(x1, x2, x3, ..., x57),然后将其作为无监督聚类算法的文本特征输入实现文本聚类。