Javascript抽取网页正文

标签： Javascript | 发表时间：2012-07-25 08:00 | 作者：Administrator

出处：http://www.scriptlover.com

最近在开发http://www.sokers.com的时候需要抽取网页正文，在网上也看了很多算法，但效果感觉都不好，有的根本打不开无法看到效果，于是自己就试着写了一个，效果还不错，支持图片和Flash，不仅仅能抽取文字。

方法就是适用打分机制，把正文文字和标签的比例、标点符号、换行等因素累加起来，打分最高的就是正文，当然肯定有识别不出来的，这个是任何算法都无法避免的。

感兴趣的同学可以看看，代码很短：

  
/**  
*@Extract Content  
*/  
var extractor = {iframe: null, iDoc: null};  
extractor.markExp = /[\,\.\?\:\;\-\&#39;\!\"\(\)\[\]\{\}\，\。\‘\！\“\”\？\：\、]/g;  
extractor.footExp = /(&amp;copy;?)|(All Rights Reserved)|(Powered By)|(备[0-9]{5,}号)/ig;  
  
extractor.extract = function(html)  
{  
&nbsp;&nbsp; &nbsp;if(!extractor.iDoc)  
&nbsp;&nbsp; &nbsp;{  
&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;return "";  
&nbsp;&nbsp; &nbsp;}  
&nbsp;&nbsp; &nbsp;  
&nbsp;&nbsp; &nbsp;var arr = html.replace(/\r|\n/g, "").match(/&lt;body(.*)&lt;\/body&gt;/i);  
&nbsp;&nbsp; &nbsp;if(!arr || !arr.length)  
&nbsp;&nbsp; &nbsp;{  
&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;return "";  
&nbsp;&nbsp; &nbsp;}  
  
&nbsp;&nbsp; &nbsp;html = arr[0].replace(/&lt;iframe.*?&lt;\/iframe&gt;/ig, "");  
&nbsp;&nbsp; &nbsp;html = html.replace(/&lt;link.*?\/?&gt;/ig, "");  
&nbsp;&nbsp; &nbsp;html = html.replace(/&lt;!--.*?--&gt;/g, "");  
&nbsp;&nbsp; &nbsp;html = html.replace(/&lt;style.*?&lt;\/style&gt;/ig, "");  
&nbsp;&nbsp; &nbsp;html = html.replace(/&lt;script.*?&lt;\/script&gt;/ig, "");  
  
&nbsp;&nbsp; &nbsp;html = html.replace(/&lt;embed.*?\/?&gt;/ig, function(data){  
&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;return data.replace("&lt;", "$1$").replace("&gt;", "$2$");  
&nbsp;&nbsp; &nbsp;});  
&nbsp;&nbsp; &nbsp;html = html.replace(/&lt;img.*?\/?&gt;/ig, function(data){  
&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;return data.replace("&lt;", "$1$").replace("&gt;", "$2$");  
&nbsp;&nbsp; &nbsp;});  
&nbsp;&nbsp; &nbsp;html = html.replace(/&lt;object.*?&lt;\/object&gt;/ig, function(data){  
&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;return data.replace("&lt;", "$1$").replace("&gt;", "$2$");&nbsp;&nbsp; &nbsp;  
&nbsp;&nbsp; &nbsp;});  
  
&nbsp;&nbsp; &nbsp;extractor.iDoc.body.innerHTML = html;  
&nbsp;&nbsp; &nbsp;return extractor.process(extractor.iDoc.body);  
};  
  
extractor.getWordRatio = function(itemStr)  
{  
&nbsp;&nbsp; &nbsp;var tagsCount = 0;  
&nbsp;&nbsp; &nbsp;var tags = itemStr.match(/&lt;[^&gt;]+&gt;/g);  
&nbsp;&nbsp; &nbsp;if(tags &amp;&amp; tags.length &gt; 0)  
&nbsp;&nbsp; &nbsp;{  
&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;tagsCount = tags.length;  
&nbsp;&nbsp; &nbsp;}  
&nbsp;&nbsp; &nbsp;  
&nbsp;&nbsp; &nbsp;var ratio = 0;  
&nbsp;&nbsp; &nbsp;var words = itemStr.replace(/&lt;a.*?&lt;\/a&gt;/ig, "");  
&nbsp;&nbsp; &nbsp;words = words.replace(/&lt;[^&gt;]+&gt;/g, "");  
&nbsp;&nbsp; &nbsp;if(tagsCount == 0 &amp;&amp; words.length &gt; 6)  
&nbsp;&nbsp; &nbsp;{  
&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;ratio = 6;  
&nbsp;&nbsp; &nbsp;}  
&nbsp;&nbsp; &nbsp;else  
&nbsp;&nbsp; &nbsp;{  
&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;var t = words.length/tagsCount;  
&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;ratio = t &gt; 6 ? 6 : t;  
&nbsp;&nbsp; &nbsp;}  
  
&nbsp;&nbsp; &nbsp;words = words.match(/\S/g);  
&nbsp;&nbsp; &nbsp;return [ratio, (words ? words.length : 0)];  
};  
  
extractor.getMarkRatio = function(itemStr)  
{  
&nbsp;&nbsp; &nbsp;var items = itemStr.match(extractor.markExp);  
&nbsp;&nbsp; &nbsp;var length = items ? items.length : 0;  
&nbsp;&nbsp; &nbsp;if(length == 0)  
&nbsp;&nbsp; &nbsp;{  
&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;return 0;  
&nbsp;&nbsp; &nbsp;}  
&nbsp;&nbsp; &nbsp;return length &gt; 5 ? 3 : 1.5;  
};  
  
extractor.getLineRatio = function(itemStr)  
{  
&nbsp;&nbsp; &nbsp;var items = (/&lt;br ?\/?&gt;/ig).test(itemStr);  
&nbsp;&nbsp; &nbsp;var length = items ? items.length : 0;  
&nbsp;&nbsp; &nbsp;if(length == 0)  
&nbsp;&nbsp; &nbsp;{  
&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;return 0;  
&nbsp;&nbsp; &nbsp;}  
&nbsp;&nbsp; &nbsp;return length &gt; 5 ? 2 : 1;  
};  
  
extractor.isFooter = function(itemStr)  
{  
&nbsp;&nbsp; &nbsp;return extractor.footExp.test(itemStr);  
};  
  
extractor.process = function(body)  
{  
&nbsp;&nbsp; &nbsp;var items = body.getElementsByTagName("div");  
&nbsp;&nbsp; &nbsp;if(!items)  
&nbsp;&nbsp; &nbsp;{  
&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;items = body.getElementsByTagName("table");  
&nbsp;&nbsp; &nbsp;}  
  
&nbsp;&nbsp; &nbsp;if(!items)  
&nbsp;&nbsp; &nbsp;{  
&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;items = body.getElementsByTagName("p");  
&nbsp;&nbsp; &nbsp;}  
  
&nbsp;&nbsp; &nbsp;if(!items)  
&nbsp;&nbsp; &nbsp;{  
&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;return "";  
&nbsp;&nbsp; &nbsp;}  
&nbsp;&nbsp; &nbsp;  
&nbsp;&nbsp; &nbsp;var mostItemStr = null, mostRatio = 0, mostLength = 0;  
&nbsp;&nbsp; &nbsp;for(var i=0;i&lt;items.length;i++)  
&nbsp;&nbsp; &nbsp;{  
&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;var item = items[i];  
&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;var itemStr = item.innerHTML;  
&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;if(itemStr.length &lt; 16)  
&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;{  
&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;continue;  
&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;}  
  
&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;var div = item.getElementsByTagName("div");  
&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;if(div &amp;&amp; div.length &gt; 8)  
&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;{  
&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;continue;  
&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;}  
  
&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;var input = item.getElementsByTagName("input");  
&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;if(input &amp;&amp; input.length &gt; 2)  
&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;{  
&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;continue;  
&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;}  
&nbsp;&nbsp; &nbsp;  
&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;var wordRatio = extractor.getWordRatio(itemStr);  
&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;var lineRatio = extractor.getLineRatio(itemStr);  
&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;var markRatio = extractor.getMarkRatio(itemStr);  
&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;var isFooter = extractor.isFooter(itemStr);  
&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;if(isFooter)  
&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;{  
&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;continue;  
&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;}  
&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;  
&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;var ratio = wordRatio[0] + lineRatio + markRatio;  
&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;var length = wordRatio[1];  
&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;if(ratio &gt;= mostRatio &amp;&amp; length &gt; mostLength)  
&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;{  
&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;//alert(wordRatio[0] +","+ length +","+ markRatio +","+ itemStr);  
&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;mostRatio = ratio;  
&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;mostLength = length;  
&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;mostItemStr = itemStr;  
&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;}  
&nbsp;&nbsp; &nbsp;}  
&nbsp;&nbsp; &nbsp;  
&nbsp;&nbsp; &nbsp;if(mostItemStr)  
&nbsp;&nbsp; &nbsp;{  
&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;return mostItemStr.replace(/\$1\$/g, "&lt;").replace(/\$2\$/g, "&gt;");  
&nbsp;&nbsp; &nbsp;}  
  
&nbsp;&nbsp; &nbsp;return "";  
};  
  
extractor.init = function()  
{  
&nbsp;&nbsp; &nbsp;if(extractor.iframe)  
&nbsp;&nbsp; &nbsp;{  
&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;return;  
&nbsp;&nbsp; &nbsp;}  
  
&nbsp;&nbsp; &nbsp;extractor.iframe = document.createElement("iframe");  
&nbsp;&nbsp; &nbsp;extractor.iframe.src = "about:blank";  
&nbsp;&nbsp; &nbsp;extractor.iframe.style.display = "none";  
&nbsp;&nbsp; &nbsp;document.body.appendChild(extractor.iframe);  
  
&nbsp;&nbsp; &nbsp;extractor.iDoc = extractor.iframe.document;  
&nbsp;&nbsp; &nbsp;if(!extractor.iDoc)  
&nbsp;&nbsp; &nbsp;{  
&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;extractor.iDoc = extractor.iframe.contentDocument;  
&nbsp;&nbsp; &nbsp;}  
};  
  
(function(){  
&nbsp;&nbsp; &nbsp;if(!document.body)  
&nbsp;&nbsp; &nbsp;{  
&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;return;  
&nbsp;&nbsp; &nbsp;}  
&nbsp;&nbsp; &nbsp;extractor.init();  
})();

Javascript抽取网页正文

相关 [javascript 网页] 推荐：

Javascript抽取网页正文

Javascript网页截屏的方法

Parse将推出Javascript SDK支持移动网页应用

JavaScript解析：让搜索引擎看到更真实的网页

iOS中UIWebView与其中网页的javascript的交互

Javascript诞生记

JavaScript，你懂的

Javascript 里跑Linux

高效 JavaScript

你得学JavaScript

相关文章

订阅