Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Appearance settings

Latest commit

 

History

History
History
28 lines (19 loc) · 1.24 KB

File metadata and controls

28 lines (19 loc) · 1.24 KB
Copy raw file
Download raw file
Outline
Edit and raw actions

1.3 数据收集

1.3.1 发现或观察数据

互联网是最明显的数据源。

  • 从维基百科、IMDb、Million Song Dataset等网站批量下载。
  • 通过API(纽约时报、推特、脸书、Foursquare)访问数据
  • 网页抓取:从网页上抓取公开、非敏感、匿名数据是可行的。抓取之前,请认真阅读版权条款与完整的引用信息。

从各种传感器收集测量数据

  • 移动设备中的惯性和位置传感器
  • 环境传感器
  • 软件代理关键性能监控指示器等

1.3.2 生成数据

  • 自己生成数据 :调查问卷
  • 通过模拟收集数据
    • 领域专家在微观水平上指定用户行为模型。
      • 群体规模(crowd simulation)需要指定不同类型的用户在群体中如何行动,比如是随大流还是伺机逃离等。
      • 在不同的条件下进行模拟,观察不同条件下会发生什么。
    • 模拟适用于研究宏观现象与突现行为(emergent behavior),然而这些模拟往往很难在实际生活中进行验证。
  • 设计实验彻底覆盖所有可能的结果:让所有变量保持不变,一次只操作一个变量。使用这种方法的代价很高,但通常能得到质量最好的数据。

1.3.3 采样陷阱

Morty Proxy This is a proxified and sanitized view of the page, visit original site.