详谈如何实现PHP HTML截取代码

开发 后端
PHP HTML截取代码的方法并不是很难,只要我们了解了其中的含义,就能灵活运用这一方法在其他地方。希望本文涉及的内容对又需要的朋友有所帮助。

我们今天将为大家带来的是关于PHP HTML截取代码的主要实现方式,希望初学者能通过本文介绍的内容对这方面有一个深刻的认识。

#t#需求:将一段文字截取一定的物理长度显示,注意,要截取的不是字符串的字节数,UFT-8 的编码中文字符是3个字节或者4个字节的,而显示的时候中文会占两个字符的长度,英文字符只占一个,全角的时候又有不同。

而且给的数据是HTML代码串,比如这样:

  1. < div class=”aaa”>
  2. < a href=”/aaa.php?id=1>
  3. 张三
  4. < /a> 
  5. 评论了 
  6. < a href=”/aaa.php?id=444>
  7. 李四
  8. < /a> 
  9. 分享的 
  10. < a href=”bbb.html”>
  11. 一篇文章文章一长串的东西
  12. < /a>
  13. < /div> 

PHP HTML截取代码的时候是要截取 div 标签内部的东西,而且要保留HTML标签,只是对其中的文字做处理。比如我可能只是截取到“李四”的“李”字,但是如果就这样放到前端的话,“李四”前面的 a 标签是没有闭合的,所以截取之后要保证HTML的语法正确。
这个问题确实不太好搞,让我郁闷了两天。请注意,这只是一个字符串,只不过内容是HTML代码,是没有什么DOM的。如果是在前端处理就好办了,直接DOM获取,然后对里面的节点进行处理,***把innerHTML 之类的东西输出就搞定了。现在可不行了,得换个思路。同事的思路是这样的:

遍历字符串的每一个字符。设置一个标记,碰到标签开始的标记< 就置为1,接下来的字符都不记数,然后碰到>之后再开始计数。对标签内部的字符串处理的时候,还要先判断当前字符的编码是不是可能是中文,一般来说PHP中 UTF-8 编码的中文字符的长度都是3,所以如果碰到是中文字符编码,就要跳过两个不记数……说到这里我自己头已经开始大了。个人认为这种方法很不爽,首先这种精致的逻辑不太容易控制,而且 UFT-8 编码下中文产生的长度有可能是3个或4个 所以代码的严密性值得怀疑。

我个人的思路是,用 Tidy 来搞(具体用法请看PHP手册吧)。昨天研究了一下那个 Tidy ,发现这个东西还是挺好用的。首先,把这个字符串转换成 Tidy 对象,这样:

  1. $tidy = tidy_parse_string
    ($str, array(), ‘utf8′);   
  2. // ***一个是设置编码的,注意,
    这里是utf8 ,不是utf-8,没有中间那个连线。 

然后获取$tidy中的 body(因为转换之后$tidy会自动加上<head><body>等标签):
$body = tidy_get_body($tidy);
这个时候你可以用 var_dump 看一些 $body 的结构,会发现它把每个标签都变成了一个对应的对象,里面有相应的属性。举例来说,比如 <a href=”#”>sdf</a> ,这么一条语句对应的一些属性有:

name=>”a”
value => “<a href=”#”>sdf</a>”
child=> array{[0]=>一个文本节点对象,value是 sdf}
attribute=array{”href”=>”#”}
…..其他属性

可以看到,我们其实是可以单独去处理 a 标签对应节点下面的文字节点的值的,那样PHP HTML截取代码就不会破坏任何HTML完整性。原来我以为改变 a 标签中文字节点的值之后, a 标签的value也会跟着改变,那样我直接返回a标签对应节点的value就OK了,没想到不是那个样子,哎,所以处理过其中的文字之后还是要自己拼出新的HTML。
知道了Tidy对象的结构之后,一切就好办了,只要遍历所有的节点,对于本需求来说,就是找到那个 div 标签,然后开始处理里面的节点。代码如下:

  1. if(mb_strwidth($subchild->value, 
    ‘utf-8′) 
    >= $len)   
  2. {   
  3. $subchild->value = mb_strimwidth
    ($subchild->value, 0, $len, ‘…', ‘utf-8′);   
  4. $trimed_str .= $subchild->value;   
  5. break;   
  6. }   
  7. else   
  8. {   
  9. $trimed_str .= $subchild->value;   
  10. $len = $len - mb_strwidth($subchild->
    value, ‘utf-8′);   
  11. }  


里面的$subchild 就是一个子节点。注意,这里使用了 mb_strwidth 来获取字符串长度。严重推荐一下这个 mb_strwidth,很好用,它会把中文当作两个字符长度处理,正好符合这里的需求!而且PHP HTML截取代码的时候用到了 mb_strimwidth,这个函数也会把中文当作两个字符长度处理,mb_ 开头的函数真是好用啊。

具体的PHP HTML截取代码代码我就不写出来了,因为是针对一个需求写的,没做成通用的形式。哪天我有时间做成通用的再发布一下。
另外,可惜FireFox不支持 text-overflow 属性,不然也不用后台那么辛苦地去截断了。如果大家有更好的方法,欢迎提出!不胜感激。

责任编辑:曹凯 来源: jb51.net
相关推荐

2009-11-17 15:13:28

PHP数组

2009-11-18 14:11:10

PHP数组变量

2009-11-26 16:43:11

PHP截取中文字符串

2009-05-26 08:51:38

HTML 5FlashOpera

2009-11-16 17:07:58

PHP二维数组

2009-11-18 11:10:16

PHP WEB服务器

2010-07-27 15:09:31

2009-11-16 16:17:45

PHP数组排序

2010-04-06 09:44:40

CentOS系统

2023-03-13 09:22:28

WEB 集群共享静态资源

2009-11-16 10:40:02

PHP上传文件代码

2010-08-04 11:37:44

PHP NFS

2009-12-01 14:33:06

PHP生成html文件

2017-08-16 16:00:05

PHPcontainer依赖注入

2009-02-23 09:11:21

2009-12-02 19:08:19

PHP跳转代码

2009-11-30 18:59:52

PHP数组排序

2009-11-23 10:31:25

PHP使用JSON

2015-09-21 15:31:05

php实现验证码

2012-05-09 14:49:23

HTML5
点赞
收藏

51CTO技术栈公众号