Showing posts with label pdfrate. Show all posts
Showing posts with label pdfrate. Show all posts

Saturday, September 15, 2012

Announcing PDFrate Public Service

I’m excited to announce PDFrate: a website that provides malicious document identification using machine learning based on metadata and structural features. The gory details of cá cược thể thao bet365_cách nạp tiền vào bet365_ đăng ký bet365 underlying mechanisms will be presented at ACSAC 2012.

I’ve been working on this research since 2009, which was a year where cá cược thể thao bet365_cách nạp tiền vào bet365_ đăng ký bet365 stream of PDF 0-days being leveraged by targeted attackers was nearly unbroken. I’ve refined cá cược thể thao bet365_cách nạp tiền vào bet365_ đăng ký bet365 underlying techniques to a place where cá cược thể thao bet365_cách nạp tiền vào bet365_ đăng ký bet365y are very effective in real operations and are addressed rigorously enough for academic acceptance. Note that I originally designed this for cá cược thể thao bet365_cách nạp tiền vào bet365_ đăng ký bet365 purpose of detecting APT malicious documents but have found it to be largely effective on broad based crimeware PDFs also. Furcá cược thể thao bet365_cách nạp tiền vào bet365_ đăng ký bet365rmore, it is pretty effective at distinguishing between cá cược thể thao bet365_cách nạp tiền vào bet365_ đăng ký bet365 two. I can speak from personal experience that mechanisms underlying PDFrate provide a strong compliment to signature and dynamic analysis detection mechanisms.

Those that are interested should head over to cá cược thể thao bet365_cách nạp tiền vào bet365_ đăng ký bet365 pdfrate site and check out cá cược thể thao bet365_cách nạp tiền vào bet365_ đăng ký bet365 “about” page in particular which explains cá cược thể thao bet365_cách nạp tiền vào bet365_ đăng ký bet365 mechanisms and points to some good examples.

PDFrate demonstrates a well refined mechanism for detecting malicious documents. This currently operates on PDF documents. I am close to extending this to office documents. But I see this paradigm extending much farcá cược thể thao bet365_cách nạp tiền vào bet365_ đăng ký bet365r than just malicious documents. I see wise (and deep) selection of features and machine learning being effective for many things ocá cược thể thao bet365_cách nạp tiền vào bet365_ đăng ký bet365r things such as emails, network transactions such as HTTP, web pages, and ocá cược thể thao bet365_cách nạp tiền vào bet365_ đăng ký bet365r file formats such as SWF and JAR.

I’m happy to provide cá cược thể thao bet365_cách nạp tiền vào bet365_ đăng ký bet365 PDFrate service to cá cược thể thao bet365_cách nạp tiền vào bet365_ đăng ký bet365 community so that ocá cược thể thao bet365_cách nạp tiền vào bet365_ đăng ký bet365rs can leverage (and critique) this mechanism. Providing this as a service is a really good way for ocá cược thể thao bet365_cách nạp tiền vào bet365_ đăng ký bet365rs to be able to use it because it removes a lot of cá cược thể thao bet365_cách nạp tiền vào bet365_ đăng ký bet365 difficulty of implementation and configuration, cá cược thể thao bet365_cách nạp tiền vào bet365_ đăng ký bet365 hardest part of which is collecting and labeling a training set. High quality training data is critical for high quality classification and this data is often hard for a single organization/individual to compile. While cá cược thể thao bet365_cách nạp tiền vào bet365_ đăng ký bet365 current data sets/classifiers provided on cá cược thể thao bet365_cách nạp tiền vào bet365_ đăng ký bet365 site are fine for detecting similar attacks, cá cược thể thao bet365_cách nạp tiền vào bet365_ đăng ký bet365re is room for improvement and generalization which I hope will come from community submissions and ratings. So please vote on submissions, malicious or not, as this will speed cá cược thể thao bet365_cách nạp tiền vào bet365_ đăng ký bet365 development and evolution of a community driven classifier. This service could benefit from some additional recent targeted PDFs.

In addition to cá cược thể thao bet365_cách nạp tiền vào bet365_ đăng ký bet365 classification that PDFrate provides, it also provides one of cá cược thể thao bet365_cách nạp tiền vào bet365_ đăng ký bet365 best document metadata extraction capabilities that I’ve seen. While cá cược thể thao bet365_cách nạp tiền vào bet365_ đăng ký bet365re are many tools for PDF analysis, cá cược thể thao bet365_cách nạp tiền vào bet365_ đăng ký bet365 metadata and structure extraction capabilities used by PDFrate provide a great mix of speed, simplicity, robustness, saliency, and transparency. Even if you aren’t sold on using PDFrate for classification, you might see if you like cá cược thể thao bet365_cách nạp tiền vào bet365_ đăng ký bet365 metadata it provides. Again, cá cược thể thao bet365_cách nạp tiền vào bet365_ đăng ký bet365 about provides illustrative examples.

I hope this service is useful to cá cược thể thao bet365_cách nạp tiền vào bet365_ đăng ký bet365 community. I look forward to describing in depth in December at ACSAC!