东北大学信息检索实验室 Northeastern University Information Retrieval Group

课题组简介

东北大学信息检索实验室隶属东北大学计算机科学与工程学院计算机科学系,由于戈教授、谷峪教授和刘正皓副教授共同指导。课题组在 ICLR、ACL、EMNLP、NAACL、SIGIR、WebConf 等国际、国内顶级会议或期刊上发表 30 余篇论文。课题组致力于信息检索与大语言模型相关研究,承担国家级、省部级项目多项。曾在美国官方标准局面向新冠肺炎的文档级检索比赛 TREC-COVID 的第二轮无人工干预组的25只队伍中取得了第一名的成绩,被微软应用至其线上商业检索系统中;与清华大学和面壁智能合作研发端侧大语言模型 MiniCPM 检索增强生成组件,发布时在 MTEB 榜单上中文检索效果排名第一,相关模型在 Hugginface 平台累计下载量超 32 万次。开发的 UltraRAG 开源工具自 2025 年 1 月份开源至今累计获得了超过 500 个星标;与阿里巴巴公司合作构建了一种用户视图流建模方法,应用至阿里巴巴技术协会(ATA)线上网站中。与清华大学孙茂松教授、刘洋教授和刘知远副教授课题组,启元实验室以及面壁智能进行长期紧密联系的科研合作,形成以产学研主导的科研团体,在国家战略的引导下力求在信息检索与大语言模型知识工程方面做出创新性成果与工程转化落地。

亮点工作

RAG-DDR: Optimizing Retrieval-Augmented Generation Using Differentiable Data Rewards
RAG-DDR: Optimizing Retrieval-Augmented Generation Using Differentiable Data Rewards
Xinze Li, Sen Mei, Zhenghao Liu, Yukun Yan, Shuo Wang, Shi Yu, Zheni Zeng, Hao Chen, Ge Yu, Zhiyuan Liu, Maosong Sun, Chenyan Xiong
Proceedings of ICLR  ·  2025  ·  CCF-Expanded
MARVEL: Unlocking the Multi-Modal Capability of Dense Retrieval via Visual Module Plugin
MARVEL: Unlocking the Multi-Modal Capability of Dense Retrieval via Visual Module Plugin
Tianshuo Zhou, Sen Mei, Xinze Li, Zhenghao Liu, Chenyan Xiong, Zhiyuan Liu, Yu Gu, Ge Yu
Proceedings of ACL  ·  2024  ·  CCF-A
Cleaner Pretraining Corpus Curation with Neural Web Scraping
Cleaner Pretraining Corpus Curation with Neural Web Scraping
Zhipeng Xu, Zhenghao Liu, Yukun Yan, Zhiyuan Liu, Chenyan Xiong, Ge Yu
Proceedings of ACL  ·  2024  ·  CCF-A

最新动态

We have five papers accepted by ACL 2024

We have five papers accepted by ACL 2024: The 62nd Annual Meeting of the Association for Computational Linguistics

We have one paper accepted by WWW 2024

We have one paper accepted by WWW 2024: The Web Conference (formerly known as International World Wide Web Conference, abbreviated as WWW)

合作课程

OpenBMB × Hugging Face × THUNLP,联袂献上经典大模型课

这个夏天,THUNLP 携手 Hugging Face 和 OpenBMB,推出大模型公开课第二季。