注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

碳基体

http://weibo.com/tanjiti

 
 
 
 
 

日志

 
 

大数据之安全漫谈2  

2015-04-18 18:23:31|  分类: data science |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
前言
写这篇文章有三个原因,一是在工作中一直艰难地摸索着这块也曾写过一篇很粗略的

大数据之安全漫谈 (想继续吐槽)二是看到了阿里的招聘广告-一起来聊聊这个新职位:大数据安全分析师

三是整个2015的RSA会议 Intelligence Data-Driven 出境率太高了 ,于是想谈谈。


大数据安全,顾名思义,用大数据技术解决安全问题。核心——解决安全问题,手段——大数据技术

我们从核心出发,安全问题抽象来说就是攻击与防御,接下来明确防御对象是什么?攻击目的是什么?攻击手段是怎样的?攻击者的特征?一句话——搞清楚谁为了什么目的通过什么手段攻击了谁。

比如说防御对象有企业内部安全,有对外发布产品安全,同时防御对象又决定了不同的攻击目的与攻击手段,有企业入侵,有对产品本身的攻击(比如说软件破解,游戏外挂,订单欺诈),有对产品用户的攻击(比如利用支付漏洞窃取用户财产),同样发起攻击的攻击者们特征又是迥异的,有无特定目的批量散弹攻击,有靠接单挣钱的赏金黑客,有外挂作坊等等。

在明确了的问题后,接下来就是确定解决问题的方法,传统方法的缺陷是什么?大数据技术解决问题的优势又是什么?比如说WAF系统中,传统的检测机制——基于签名库(黑名单),缺陷是对未知漏洞(0day) 不可感知。解决方案——基于异常(白名单),如何鉴定异常——机器学习(学习正常的行为模式),如何对大量数据鉴定异常——大数据技术支撑下的机器学习。

在这一过程,我们需要具备领域知识(安全知识),数据科学知识(数据分析知识,机器学习,文本分析,可视化),大数据知识(数据收集,数据存储,数据传输,数据分布式计算),编程知识。
路漫漫其修远兮,吾将死磕到底...
大数据安全漫谈-机器学习 - 碳基体 - 碳基体
 
本文就以企业入侵检测日志分析为场景来谈谈大数据安全

一、安全领域
大数据安全分析最容易走偏的就是过度强调数据计算平台(大数据),算法(机器学习),而失去了本心,忽略了我们使用这一技术的目的,以入侵检测为例,我们希望日志分析达到以下目的
大数据安全漫谈-机器学习 - 碳基体 - 碳基体
 
如何感知威胁,我们可以先对攻击者进行画像,攻击手段进行建模

1. 攻击者画像
大数据安全漫谈-机器学习 - 碳基体 - 碳基体
 这里是非常粗略的分类,实际上我们可以用关系图(社交网挖掘)的方式将攻击者关联起来,对取证抓坏人也是有效果的。

2. 攻击手段建模
相信喜欢撸paper、ppt的人对Attack Models、 Attack Trees、 Kill Chain这三个术语特别熟悉,特别是看过2013年后的各大安全会议文档后,其实说的都是攻击行为建模。

(1) 渗透模型

大数据安全漫谈-机器学习 - 碳基体 - 碳基体
 


(2)普通攻击模型

大数据安全漫谈-机器学习 - 碳基体 - 碳基体
 
(3)攻击模型(升级版)
大数据安全漫谈-机器学习 - 碳基体 - 碳基体
 
注意以上攻击手段只是高度精炼的攻击环节,实际的攻击检测中,我们需要尽可能精确的还原入侵场景(包括对应的正常场景是怎样的),从入侵场景中提炼关键环节,从而检测出异常的攻击行为。

在熟悉了杀生链(kill chain)后,接下来要做的就是在构成链的每个环节进行狙击,注意越往后成本越高。而每个阶段的操作必然会雁过留痕,这些痕迹,就是我们进行数据分析的数据源,知道对什么数据进行分析是最最重要的(数据量要恰到好处,要多到足够支撑数据分析与取证,要少到筛选掉噪音数据)。

二、数据科学
在明确了我们要解决的问题,接下来我们来普及一下数据分析的基本流程

大数据安全漫谈-机器学习 - 碳基体 - 碳基体
 
从上图可以看出,传统的数据分析在模型选择上都仅仅用了0——规则,1——统计分析,设置基线,依靠阈值的方法。

数据分析与领域知识是紧密耦合的,千万不要误入套用算法的误区,要进行基于行为建模(攻击行为,正常行为)的数据分析,可以从单点分析(单条数据的深度分析,例如分析单条HTTP请求是否是攻击请求),简单的关联分析(例如分析一个session下,多条HTTP请求的关联关系,是否为扫描器行为,是否有尝试绕过WAF的操作,是否符合攻击链的关键步骤),复杂的关联分析(例如Web日志,数据库日志,操作系统日志的联动分析,例如SQL注入写马攻击中HTTP请求对应的数据库操作,主机操作)来逐步深入分析,当攻击场景很复杂的时候,我们可以考虑从结果出发的方式来回溯,这些技巧都取决于领域知识。


下面列举一些传统的关联技巧
1. 规则关联
If the system sees an EVENT E1 where E1.eventType=portscan
followed by
an event E2 where E2.srcip=E1.srcip and E2.dstip = E1.dstip and
E2.eventType = fw.reject then
doSomething
2. 漏洞关联:将漏洞扫描数据和实时事件数据结合起来,以便帮助减少假阳性 false positive
e.g. 如果IDS检测到了端口扫描,可以对网络进行例行的漏洞扫描,来验证问题中的主机是否真的打开了个端口,是否容易遭到攻击
3. 指纹关联
4. 反端口关联
if (event E1.dstport != (Known_Open_Ports on event E1.dstip))
then
doSomething
5.关联列表关联: 外部情报列表,例如攻击者列表
6. 环境关联 e.g.如何知道公司的假期安排,可以使用这一信息,在每个人都不上班的时候发现内部资源的访问
休假时间表
业务时间
假日计划
内部资源访问权限
重复的网络“事件”例如漏洞扫描
计划的系统、数据存储备份等
维护安排,例如操作系统补丁等

常见的关联搜索模式
x次登录失败后有一次登录成功
创建非管理员账户之后进行权限提升
VPN用户在工作时间内/外登录,并向网络之外传输更多的数据
网络上的一台主机开始攻击或者探查网络上的其他主机
在很接近的时间内X次尝试访问用户没有权限的共享/文件/目录等
从同一个工作站以多个用户名登录
在多个系统上有多个防病毒软件失效
攻击DMZ系统,随后有出站连接
攻击DMZ系统,随后在同一个系统上更改配置
在几分钟内有许多Web 404,401 500和其他web错误码


以上都是单靠领域知识感知威胁,领域知识的缺陷是太依赖于专家知识了,而专家知识是有限的,这个时候机器学习就可以发挥长度了,例如理工渣眼中的HMM及安全应用

即使是使用机器学习也仍离不开安全领域知识,有安全领域背景的人在数据预处理阶段、feature选择阶段会事半功倍,比如对访问日志进行白名单建模时,从访问日志中筛选出异常日志(攻击日志、不存在的日志、服务器错误日志),需要安全领域知识(知道什么是攻击)、web服务器知识(知道什么是异常,url重写)进行数据清理;比如HMM web安全检测 feature的选择,我们知道攻击注入点在哪里,就不需要进行运气流的feature选择、降维处理。

机器学习虽然能弥补单靠领域知识分析的缺陷,但由于其存在准确率的问题而不能直接在线上应用,只存在于运维离线的环境下。或许是算法需要优化,但个人认为能解决当前方法不能解决的问题就是很大的进步了,比如说能发现一个0 day。我想当电灯刚发明出来的时候,也是绝对没有蜡烛好用,也希望架构师们不要单一的靠准确率这个唯一的标准来评价机器学习的结果。

在知道了如何进行数据分析后,接下来的就是如何在数据量巨大的情况下进行分析。玩单机脚本的年代要一去不返了,分布式需要搞起。

三、大数据技术
我们要使用的大数据技术的核心其实就是是分布式存储与分布式计算,当然能利用已有的数据预处理接口,算法接口也是很有帮助的。

以下是一个完整的大数据分析架构图

大数据之安全漫谈2 - 碳基体 - 碳基体
  
得出这个架构,也走了不少弯路,最开始由于不了解ElasticSearch的特性,采用的是直接使用ElasticSearch对数据源进行分析与结果存储,ElasticSearch全文索引的设计决定了ta不适合频繁写操作并且会很夸张的扩大数据量,所以最后引入了更适合及时读写操作的HBase数据库来做持久化存储,同时增加了算法层这块,只在ElasticSearch离存储最终结果。

大数据有着庞大的生态圈,较之机器学习(人工智能,深度学习)的发展,数据存储、数据计算方面简直是突飞猛进,为算法的发展提供了良好的支撑,当然学习的成本也非常高。以下是入门的一些文章

大数据之hadoop伪集群搭建与MapReduce编程入门

大数据之hive安装及分析web日志实例



万事具备,就差第四个能力——编程,这是将想法落实的能力,否则都是镜花水月。不是有一句老话吗?“Talk is cheap, show me the code”。

四、编程
对于战斗力负5的渣,编程方面的心得是在太多了,每天都有新发现,这里就说说经验之谈吧。

1. 语言选择

先使用Python或者R去做小数据量(样本数据)的分析,然后使用Java实现分布式算法(在大数据的生态圈中,为了避免不必要的麻烦还是用原生语言Java好)。

2. 日志格式问题

日志处理中,输入日志的格式会直接影响模型运行时间,特别是采用正则的方式对文本格式的输入进行解析会极度消耗时间,所以在模型运算时需要先对日志进行序列化处理,Protocol Buffer就是很好的选择,但千万注意jar包的版本哦。

结语

大数据安全涉及的内容非常深入,每个方面都是几本厚厚的书,这里只是非常浅显的漫谈,给大家一幅平面的框架图,期待更多的数据科学(数据分析,机器学习,大数据处理)领域的人进入这个行业,或者安全行业的人开拓自己在数据分析方面的深度,大数据安全将发展的更好,不仅仅是叫好不叫座了。

(我写理工渣眼中的HMM及安全应用那篇文章时,有读者留言,为啥你也搞大数据,希望这篇文章能答疑)



实践出真知,开练吧,深入后或许会再来一轮大数据之安全漫谈3,到时候肯定会有不一样的感想。

其他:

补充:
文章po出后,如我所愿听到了一些建议,这也是我孜孜不倦抛砖的原因
1. 来自策划LG的建议
“看到这一段的时候,完全就想往后跳了” —— 他说的是第二部分的关联规则示例
“而且讲关联的时候要讲下这是什么关联,为啥要这么关联,有啥用处”
“每种关联还要再解释一下用处和场景呀,最好是讲故事”

关联分析的目的:为了跟踪一个人一系列的行为,故事嘛,可以单独讲给你听

“就是太长了呀,你的第一、二点可以独立成文章,三和四可以合并为一篇”

我喜欢一篇搞定一个话题,这是考试小抄后遗症。

2. 来自楚安的建议
最近一直在redesign一些东西 对于kill chain 讲讲一些看法吧 本质上这是一个证据链发现的model 这里就涉及到几个问题 什么是证据?怎么定义一个证据?目前的普遍做法都是基于field knowledge来做 说到这里 有没有发现 是不是可以结合一下ds证据理论?

从杀生链出发本身就是依赖领域知识,领域知识对未知不可感知的缺陷也会继承,但这样做的好处是,起码利用了机器学习的第一个好处:模拟专家来做专家可以做的事情。比如说误报分析,如果一条条的人工来看,的确能马上分析,但工作量巨大,让机器来做就弥补了人力的成本。

3. 来自宫一鸣cn的建议
“国内的关联分析是为了关联而关联”

关联有意思的地方是是从一点能挖出很多点,我一直觉得安全数据分析有两点:
从已知发现未知 —— 比如说按规则拦截了一个奇怪的payload,我们可以看这个payload的发送者是谁,覆盖了多少个站点,在同一个时间段是否又干了其他的事情等等
Connect IPs to IDs —— 所有的攻击都是来自人的攻击,能够在各个阶段定位一个人的特征,取证就容易了

4. 来自终极修炼师的建议
”简单来说,大数据安全分析为了什么?还不是为了抓坏人,怎么抓坏人,这部分需要安全领域的知识和大数据的知识,大数据只是辅助工具,在多个范围对入侵行为分析跟踪,给攻击者画个图来结合5w2h,让安全人员能够看到全局,知易行难。”

是呀是呀,talk is easy, 做起来,你懂的,但这才是挑战嘛

参考:
《日志管理与分析权威指南》
《大数据日知录架构与算法》
http://security.tencent.com/index.php/blog/msg/21
  评论这张
 
阅读(2381)| 评论(4)
推荐

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017