随着网络数据的爆炸性增长,搜索引擎已经成为信息化社会不可或缺的基础互联网应用系统之一。正如2014年图灵奖获得者Vinton Cerf指出,搜索引擎已经成为人类记忆的延伸,这充分说明了搜索已经在人类的认知过程中发挥了重要的作用。尽管搜索引擎在应用层面已经取得了很大的成功,但搜索技术发展中仍然面临着巨大的技术挑战:一方面,网络空间数据资源的规模庞大而内容繁杂,目前中文网页的规模已经达到数千亿的规模,但其中的低质量、垃圾乃至非法内容却为数众多;另一方面,搜索用户信息需求的内容复杂而表述模糊,搜索引擎每日需要处理数以亿计的用户查询,但这些查询的平均长度仅有6个字左右。
从本质上讲,这两方面的技术挑战反映了用户个体相对有限的认知能力与网络空间近乎无限的资源容量之间的矛盾。基于此,计算机科学提出采用群体智能(Wisdom of Crowds)方法来应对这类技术挑战。在2015年度北京市科学技术奖评选中,清华大学计算机系作为第一完成单位与搜狗公司合作完成的项目“群体智能支撑的互联网搜索技术及其应用”获得一等奖(技术发明类),计算机系主要完成人包括刘奕群、张敏、马少平、王超和金奕江。
群体智能方法,就是利用用户群体决策,协助解决在认知与信息处理方面用传统计算方法难以直接完成的任务。计算方法在处理问题时具有存储、处理效率较高的优势,但是其应对认知、推理任务的能力有限;人类个体具有较强的认知、推理能力,但是反馈效率较低、质量也不甚稳定。群体智能很大程度上结合了两者之间的优势,借助搜索引擎记录的规模庞大的匿名用户群体行为信息,就可以从中挖掘提炼出群体智能,协助其解决面临的各种挑战性问题。
具体来讲,该项目开展了基于用户行为结构图的信息需求理解、基于行为模式挖掘的网络资源质量评估、基于点击模型构建的搜索结果排序三方面的研究工作。其中,信息需求理解是资源质量评估与结果排序工作开展的基础,资源的质量水平与排序效果的优劣归根到底由用户的需求加以定义和度量,而信息需求理解涉及的用户行为结构图模型也构成了用户群体交互行为分析的基本要素。资源质量评估是搜索结果排序的主要依据之一,也是从繁杂的网络资源环境中去伪存真、去粗取精的基础。结果排序是搜索引擎技术研究的重中之重,直接关系到用户信息需求的满足和信息获取效率的提升,而排序的结果又对于用户行为反馈信息的收集产生反作用。该项目的主要创新点在于对用户群体行为中规律性知识的提取,以及针对用户个体认知行为中决策依据的分析。
上述研究成果在学术研究及产业应用方面都取得了良好的效果:理论成果方面共申请发明专利18项,获得软件著作权2项,并发表了数十篇高质量的学术论文,得到众多国际权威学者引用,例如微软研究院的学者在其论文中称之为“据我们所知最为有效的方法”;西班牙Ovideo大学的学者评价这是“最优性能的方法”。实际应用方面,该项目通过清华—搜狗搜索技术联合实验室平台进行产学研转化,取得良好效果。相关技术在搜狗公司、人民网搜索引擎等技术平台,北京市工商局、北京市食品与药品监督局等公共管理平台,以及7万余家各类企业的推广运营中取得了良好的应用。