Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Appearance settings

MoonOutCloudBack/DBLP-mining

Open more actions menu

Repository files navigation

使用 FP-growth 挖掘 DBLP 学者关系

基本思路

  • 解析 DBLP 的 xml 文件,以 attention 和 transformer 为关键词,只取 2017 年以后的文章。
  • 把人名编码成数字。
  • 一年一年来处理,认为有效的学者关系满足两点:
    • 一年内发表论文数量大于 5【支持率】。
    • 关系内任意一人记为 a,除他之外其他人记为 A,要满足 A → A+a 的【置信率】大于 0.5;注意是任意一人。
  • 定义 人数=2 的关系为【合著者】,人数>2 的关系为【团队】。
  • 定义学者关系的【活跃程度】:α * 这一堆人发表文章数量 + β / 人数 * 求和{一堆人发表文章数量 / 每个人发表文章数量}。取 α=1,β=10。注意发表数量都是一年内的。

主要结论

  • 研究 attention transformer 的人越来越多。
  • 貌似没人能一直研究 attention transformer 超过一年,大家的研究方向变得很快。
  • 好多活跃的人都是重复的,比如出现 “一个固定导师+一个可变学生” “两个固定导师+一个可变学生” “AB BC AC 都活跃” 这种 pattern,三五好友 / 整个实验室一起研究 transformer。
  • 合著者发文数量上,2018年有一个激增;团队发文数量上,2019年和2021年都有激增。

文件列表

  • py:
    • getAuthors.py:从 DBLP 的 xml 文件,解析得到 authors.txt
    • encodeAuthors.py:把 authors.txt 编码成 authors_encode.txt + author_index.txt
    • fpgrowth.py:调用 mlxtend 的关联规则挖掘,以及学者关系分析。
  • txt:
    • authors.txt:年份 + title + 学者名字。
    • authors_encode.txt:年份 + title + 学者编码(数字)。
    • author_index.txt:学者编码 + 学者名字 + 这个人(一年内)总共发表数量。
  • csv:
    • result_co_authors_5_0.5.csv:合著者的分析结果,年份 + 学者名字(tuple)+ 学者一年内发文数量 + 活跃程度。
    • result_teams_5_0.5.csv:团队的分析结果,格式同上。
  • pdf:
    • 课程报告。

致谢

感谢这些带给我帮助的 repo:

About

东南大学数据挖掘作业,使用 FP-growth 挖掘 DBLP 学者关系

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages

Morty Proxy This is a proxified and sanitized view of the page, visit original site.