互联网是最明显的数据源。
- 从维基百科、IMDb、Million Song Dataset等网站批量下载。
- 通过API(纽约时报、推特、脸书、Foursquare)访问数据
- 网页抓取:从网页上抓取公开、非敏感、匿名数据是可行的。抓取之前,请认真阅读版权条款与完整的引用信息。
从各种传感器收集测量数据
- 移动设备中的惯性和位置传感器
- 环境传感器
- 软件代理关键性能监控指示器等
- 自己生成数据 :调查问卷
- 通过模拟收集数据
- 领域专家在微观水平上指定用户行为模型。
- 群体规模(crowd simulation)需要指定不同类型的用户在群体中如何行动,比如是随大流还是伺机逃离等。
- 在不同的条件下进行模拟,观察不同条件下会发生什么。
- 模拟适用于研究宏观现象与突现行为(emergent behavior),然而这些模拟往往很难在实际生活中进行验证。
- 领域专家在微观水平上指定用户行为模型。
- 设计实验彻底覆盖所有可能的结果:让所有变量保持不变,一次只操作一个变量。使用这种方法的代价很高,但通常能得到质量最好的数据。