新闻网页正文通用抽取器 Beta 版.
新闻列表页自动提取功能测试版已经上线,用法如下:
>>> from gne import ListPageExtractor
>>> html = '''经过渲染的网页 HTML 代码'''
>>> list_extractor = ListPageExtractor()
>>> result = list_extractor.extract(html,
feature='列表中任意元素的 XPath")
>>> print(result)
body_xpath
参数,精确定义正文所在的位置,强力避免干扰。例如对于澎湃新闻,在不设置body_xpath
参数时:
result = extractor.extract(html,
host='https://www.xxx.com',
noise_node_list=['//div[@class="comment-list"]',
'//*[@style="display:none"]',
'//div[@class="statement"]'
])
提取效果如下:
设置了body_xpath
以后:
result = extractor.extract(html,
host='https://www.xxx.com',
body_xpath='//div[@class="news_txt"]', # 缩小正文提取范围
noise_node_list=['//div[@class="comment-list"]',
'//*[@style="display:none"]',
'//div[@class="statement"]'
])
结果如下: