pattern = re.compile('
现在正则表达式在这⾥稍作说明
1).*? 是⼀个固定的搭配,.和*代表可以匹配任意⽆限多个字符,加上?表⽰使⽤⾮贪婪模式进⾏匹配,也就是我们会尽可能短地做匹配,以后我们还会⼤量⽤到 .*? 的搭配。
2)(.*?)代表⼀个分组,在这个正则表达式中我们匹配了五个分组,在后⾯的遍历item中,item[0]就代表第⼀个(.*?)所指代的内容,item[1]就代表第⼆个(.*?)所指代的内容,以此类推。
3)re.S 标志代表在匹配时为点任意匹配模式,点 . 也可以代表换⾏符。这样我们就获取了发布⼈,发布时间,发布内容,附加图⽚以及点赞数。
在这⾥注意⼀下,我们要获取的内容如果是带有图⽚,直接输出出来⽐较繁琐,所以这⾥我们只获取不带图⽚的段⼦就好了。所以,在这⾥我们就需要对带图⽚的段⼦进⾏过滤。
因篇幅问题不能全部显示,请点此查看更多更全内容