Pi-code: Краулер своими руками. Часть 8

Извлечение текста из HTML

В пятой части этой серии заметок HTML-парсер BeautifulSoup был заменен на html5lib. Справится ли новая библиотека с извлечением текста из HTML так же хорошо, как с извлечением сcылок? Ответ на этот вопрос будет критическим для всего проекта. Потому что от краулера, который умеет двигаться, но не умеет говорить, проку мало.

Поскольку парсер возвращает DOM-дерево (точнее minidom), для извлечения текста применяется тривиальный рекурсивный обход узлов:

from html5lib import treebuilders

IGNORED_ELEMENTS = ('script')

...

def build_dom(fileobj):
 """
 Читает fileobj и возвращает дерево minidom.
 """
 #HTMLSanitizer дает странные результаты
 #parser = html5lib.HTMLParser(tree=treebuilders.getTreeBuilder('dom'),
 #                             tokenizer=sanitizer.HTMLSanitizer)
 parser = html5lib.HTMLParser(tree=treebuilders.getTreeBuilder('dom'))
 return parser.parse(fileobj)


def extract_text(fileobj):
 """
 Извлекает текст из HTML-страницы. Результат в кодировке utf-8.
 fileobj -- файло-подобный объект.
 """
 def visit(node):
     if node.nodeType == node.TEXT_NODE:
         return node.data.strip()
     elif node.nodeType == node.ELEMENT_NODE \
          and not node.tagName in IGNORED_ELEMENTS \
          and node.hasChildNodes():

         resulttext = ''
         for child in node.childNodes:
             subtext = visit(child)
             if subtext:
                 resulttext = '%s %s' % (resulttext, subtext)
         return resulttext
     return None

 dom = build_dom(fileobj)

 text = visit(dom.getElementsByTagName('body')[0])
 dom.unlink()
 return text

DOM-дерево получается тем же способом, что и при извлечении ссылок. Поэтому я вынес парсинг в отдельную функцию 'build_dom'. Только от Sanitizer-а пришлось отказаться (см. закомментированные строки) -- с ним в результат, помимо чистого текста попадали HTML-теги, уж не знаю, почему.
Поиск начинается с содержимого элемента 'body'.
Если текущий узел -- текстовый (node.TEXT_NODE), возвращается его содержимое.
Если текущий узел -- элемент (node.ELEMENT_NODE), имеющий потомков и не относящийся к числу игнорируемых элементов, потомки проверяются один за другим. Текст, добытый из каждой дочерней ветки, добавляется через пробел к уже собранному тексту.

Получается одна длинная строка.
Вот простейший тест:

class TestTextExtractor(unittest.TestCase):
 def setUp(self):
     self.user_agent = crawler.UserAgent()

 def test_utf8_source(self):
     page_url = 'http://krushinsky.blogspot.com/'
     fileobj = self.user_agent.open(page_url)
     txt = extract_text(fileobj)
     print txt
     self.assertTrue(txt, 'No text was extracted from %s' % page_url)

Результаты выглядят неплохо:

Фото -субъектив четверг, Декабрь 18, 2008 Вторая Табачная Экспедиция Утром отправился в экспедицию за табаком. Шла метель, дороги стали скользкими. Я впервые познакомился с заносами. Ехал предельно осторожно, на поворотах замедлялся и страховался ногами...

Функцию извлечения текста из HTML наверняка придется еще совершенствовать, как и тесты, но главное: с этим уже можно работать.

Pi-code

10 янв. 2009 г.

Краулер своими руками. Часть 8

Извлечение текста из HTML

1 комментарий:

10 янв. 2009 г.

Краулер своими руками. Часть 8

Извлечение текста из HTML

1 комментарий:

10 янв. 2009 г.