https://twitter.com/search?q=%22Green%20Book%22%20(%23Oscars)%20lang%3Aen%20until%3A2019-02-27%20since%3A2019-02-24&src=typed_query

在twitter搜索后,会用加粗的字体标记搜索关键字。但是在网页结构里,文本会被加粗部分分割:
示例1:这段文字被加粗的“GREEN BOOK”分割成三段

这是对应的网页结构,后面两个#text的内容是空的


这是示例2,他的内容被分成了6个部分


这是对应的网页结构,有6各个#text,其中一个为空


对于这样的结构(相同的div下 #text的数量并不固定,空白#text的出现没有规律),如何通过案例映射采集全部评论内容?



共 3 个关于本帖的回复 最后回复于 3?天前

沙发
Fuller 管理员 发表于 3?天前 | 只看该作者
div下的多个text就不要用样例复制挨个采集了,而是把div作为一个整体,做内容映射给一个抓取内容,把整个文字内容采集下来
板凳
carloszone 初级会员 发表于 3?天前 | 只看该作者
Fuller 发表于 2019-9-29 12:23
div下的多个text就不要用样例复制挨个采集了,而是把div作为一个整体,做内容映射给一个抓取内容,把整个文 ...

不太明白。

一个div是一个账号转发或者发布的评论,我要采集多个账号的内容,所以应该还需要样例复制吧。

把div做整体的话,如果采集div结构相同的内容呢
地板
carloszone 初级会员 发表于 3?天前 | 只看该作者
Fuller 发表于 2019-9-29 12:23
div下的多个text就不要用样例复制挨个采集了,而是把div作为一个整体,做内容映射给一个抓取内容,把整个文 ...

搞定了? ?谢谢
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 关于鸿蒙操作系统的知乎讨论热点分析
  • 采集知乎上关于华为鸿蒙的问题和回答
  • 分词和分类检索平台使用手册
  • 用365体育官方中文版 ios_体育比分365为什么不能注册_365 体育投注推荐佣金采集机场出租车进场出场数据的公告
  • 摘取泉港区政府工作报告中的数字遇到的问题

热门用户

GMT+8, 2019-10-2 14:54