学习笔记

1、数字取证下的隐私保护

数字取证和隐私保护看起来有不可调和的矛盾,因为隐私保护很多人认为是反取证,隐私保护就是通过加密、混淆、匿名通信等途径保护数据,而数字取证则是通过解密、逆向等技术恢复数据本来的面目作为证据。对于隐私保护来说,每一种设备和媒体都要有对应的保密方式;对于数字取证来说,各种反取证技术不断发展,对于每一种反取证技术又要有对应的解决办法。

云计算

云计算中的加密关键字查询:

  1. 云上我们不信任其他的机器,所以采用公钥/私钥方式来保密通信
  2. 云服务器仅能看到加密的数据和关键字查询
  3. 但是用户和授权第三方可能有查询数据的需要

云取证难点:

  1. 关键词查询无法满足数字取证的要求,因为要取证的数据非常复杂,可能是结构化数据,例如图结构数据,对这些数据并不是简简单单关键字的查询
  2. 线上加密计算复杂性高
  3. 不能线下预先为取证预先作加密处理
  4. 前提是云服务器能访问原始数据,如果云服务器已经加密,那就无法依靠云服务器作关键词查询

IoT

IoT系统的取证和隐私保护

  1. 这些设备通常包含很多敏感信息,而且通常进行交互,所以一个安全事件通常涉及多个个人独立控制的设备
  2. 个人设备成为数字目击者(digital witness)
  3. 取证需要从这些数字目击者提取相关证据,与这些个人设备进行合作,才能提取出数据
  4. 取证过程中需要对数据目击者隐私进行保护

合作模式下的隐私保护

  • 可信计算技术,作为可信第三方来调解用户数据隐私与取证方的关系
  • 数据分层技术和数据的逐步访问
  • 基于程序和环境的访问控制
  • 数据匿名技术和加密查询技术,将目前不必要的数据隐藏起来,只要当与调查相关的时候再揭示出来,同时通过加密保证只访问相关的数据,禁止访问不相关的数据。

2、文件雕刻技术

现实生活中罪犯往往通过删除文件来掩盖自己的痕迹,所以数字恢复变成了一项重要的取证技术。

方法论

  • 在我们删除文件时,文件内容很可能并没有被删除
  • 大多数硬盘中的文件是被连续存储的
  • Simson研究发现大多数分片文件其实是被分成了两片
  • 少数分片多于两片的文件目前仍是一个难点

实践

  1. 关于文件的metadata information很有可能还在。例如fat文件系统,被删除文件的第一个数据块地址文件大小其实被完好的保存着,绝,这样很容易恢复一个文件。
  2. 有些情况下,metadata information全被清除了,此时恢复文件只能通过文件内容来恢复文件,文件系统中有各式各样的文件,通常这些文件有自己特殊的文件头、文件尾或文件长度。例如我们可以在硬盘中找到文件头和文件尾,基于大多数文件被连续存储的事实,将中间的数据全部提取出来,此时就恢复了一个文件,这种技术叫文件头尾雕刻技术,一些常用的工具如ForemostScalpel
  3. 对于分片成两片的文件,仅采用文件头尾雕刻技术就无法完成文件恢复了,此时我们仍使用文件头尾识别出文件将中间的数据提取出来,一般后半段在前半段的后面,提取出之后一般文件本身有一个crc校验,当校验通不过时,文件则被分片了。此时问题转化成了找出文件两个分片中间那个gap的长度和起始点,由于磁盘是按块或簇分配的,所以只需遍历所有gap的可能性,使用crc校验通过作为遍历结束的条件,当crc校验通过时,文件就被恢复了。这就是Simson提出的Bifragment Gap Carving算法。

未来

  1. 恢复加密文件
  2. 恢复云存储下的数据
  3. 恢复ssd上的数据
  4. 恢复部分损坏或存储介质损坏的数据
  5. 应对重复数据删除(De-duplication)技术等新文件技术的发展

3、区块链流向

难度

  1. 全球性:各个地区对数字货币的态度不一
  2. 匿名性:数字货币交易在链上被多次混淆、转移
  3. 即时性:一次交易在链上很快完成,取证成本却很高
  4. 复杂性:数字货币可以进行跨链、混币

独立思考

1. 云服务器能看到关键字查询是什么意思?

随着数据服务的规模增加,数据拥有者在本地提供数据服务的成本逐渐增高,所以越来越多的人想把数据放到云计算平台,降低本地资源的开销,但是直接将数据服务放到云计算平台会有严重的隐私问题,数据可能会被恶意攻击者或云计算平台提供商获取并牟利。

为了保证数据安全和用户隐私,存储到云服务器上的数据一般是密文的形式,保证数据的安全性和隐私,同时需要设计一些特殊的方法使得某些功能可以实现来最大程度上利用云计算。

我们把每个用户的数据看成一个文档,每个文档有许多关键词,我们要找到和某些关键词匹配的文档,检索便通过预先设置好的关键字查找。但是用户将会遇到在密文上搜索困难的问题,传统的密文搜索方法仅支持精确的关键字搜索,任何微小的误差都会造成不能精确匹配预先设置的关键字。现在有许多关键字模糊查询的论文,鉴于目前不太偏重云计算暂不深入。

2. 为什么云计算不能线下预先为取证预先作加密处理?

一开始提到了隐私保护和数字取证有不可调和的矛盾,隐私保护是为了保护数据,而云取证是要获取真实数据,取证的概率较小,对于小概率事件进行预先处理会产生极大的工作压力。

其实有这个问题,还是对云计算的概念不熟悉,对于取证的流程和任务不深入,对于数据在云上的存储布局不了解。

3. 什么是De-deplication技术?

重复数据删除技术,当数据中有很多重复的数据,去除重复的部分,仅保留一份,消除冗余数据,可以有效利用存储空间,节省存储和管理成本。

4. 什么是跨链?什么叫混币?

一个公链相当于一家银行,在这家银行的各个分行可以进行转账交易。而跨链是指跨公链进行信息交互,例如从某家银行向另一家银行跨行转账,如果不允许跨行,则只能取出来再跑到另外一家银行去存。目前各种公链问世,如果之间不能信息交互,则都是一大片孤岛,币值也较不稳定。

混币是一个去中心化的隐私功能,多人参与,一个交易中包括大量输入输出,割裂输入与输出之间的联系,很难在输入输出中找出每个人的对应对。

产生过的疑问

  1. 云服务器能看到关键字查询是什么意思?
  2. 为什么云计算不能线下预先为取证预先作加密处理?
  3. 什么是De-deplication技术?
  4. 什么是跨链?什么叫混币?