green-spider/checks/charset.py

"""
Checks which character set a page has.

TODO: Check for http-equiv meta tags like
      <meta http-equiv="content-type" content="text/html; charset=iso-8859-1" />
"""

import logging

from bs4 import BeautifulSoup

from checks.abstract_checker import AbstractChecker

class Checker(AbstractChecker):
    def __init__(self, config, previous_results=None):
        super().__init__(config, previous_results)
    
    def run(self):
        assert 'page_content' in self.previous_results
        
        results = {}

        for url in self.config.urls:
            results[url] = self.get_charset(url)

        return results
    
    def get_charset(self, url):
        """
        Expects page_content_dict['content'] to carry the HTML content
        """
        page_content = self.previous_results['page_content'][url]
        assert 'content' in page_content
        assert 'response_headers' in page_content
        logging.debug("%r", page_content['response_headers'])
        assert 'content-type' in page_content['response_headers']

        if page_content['content'] is None:
            return

        result = {
            'meta_charset_tag': None,
            'content_type_header_charset': None,
            'charset': 'iso-8859-1', # ISO-8859-1 is the default according to https://www.w3.org/International/articles/http-charset/index
            'valid': None,
            'exception': None,
        }

        soup = BeautifulSoup(page_content['content'], 'html.parser')

        # get response header charset
        if ('content-type' in page_content['response_headers']
            and 'charset=' in page_content['response_headers']['content-type']):
            parts = page_content['response_headers']['content-type'].split("charset=", 1)
            result['content_type_header_charset'] = parts[1].lower()
            result['charset'] = parts[1].lower()

        # get meta tag charset
        metatags = soup.find_all('meta')
        for tag in metatags:
            if 'charset' in tag.attrs:
                result['meta_charset_tag'] = tag['charset'].lower()
                # meta tag overrules any previous value
                result['charset'] = tag['charset'].lower()
        
        # check for charset plausibility (only for most common ones)
        if result['charset'] in ('iso-8859-1', 'utf-8'):
            try:
                _ = page_content['content'].encode(result['charset'])
            except UnicodeEncodeError as e:
                result['valid'] = False
                result['exception'] = str(e)
            else:
                result['valid'] = True


        return result
Refactor and modularize spider (#70) See PR description for details 2018-10-03 11:05:42 +02:00			`"""`
			`Checks which character set a page has.`

			`TODO: Check for http-equiv meta tags like`
			`<meta http-equiv="content-type" content="text/html; charset=iso-8859-1" />`
			`"""`

			`import logging`

			`from bs4 import BeautifulSoup`

			`from checks.abstract_checker import AbstractChecker`

			`class Checker(AbstractChecker):`
			`def __init__(self, config, previous_results=None):`
			`super().__init__(config, previous_results)`

			`def run(self):`
			`assert 'page_content' in self.previous_results`

			`results = {}`

			`for url in self.config.urls:`
			`results[url] = self.get_charset(url)`

			`return results`

			`def get_charset(self, url):`
			`"""`
			`Expects page_content_dict['content'] to carry the HTML content`
			`"""`
			`page_content = self.previous_results['page_content'][url]`
			`assert 'content' in page_content`
			`assert 'response_headers' in page_content`
			`logging.debug("%r", page_content['response_headers'])`
			`assert 'content-type' in page_content['response_headers']`

			`if page_content['content'] is None:`
			`return`

			`result = {`
			`'meta_charset_tag': None,`
			`'content_type_header_charset': None,`
			`'charset': 'iso-8859-1', # ISO-8859-1 is the default according to https://www.w3.org/International/articles/http-charset/index`
			`'valid': None,`
			`'exception': None,`
			`}`

			`soup = BeautifulSoup(page_content['content'], 'html.parser')`

			`# get response header charset`
			`if ('content-type' in page_content['response_headers']`
			`and 'charset=' in page_content['response_headers']['content-type']):`
			`parts = page_content['response_headers']['content-type'].split("charset=", 1)`
			`result['content_type_header_charset'] = parts[1].lower()`
			`result['charset'] = parts[1].lower()`

			`# get meta tag charset`
			`metatags = soup.find_all('meta')`
			`for tag in metatags:`
			`if 'charset' in tag.attrs:`
			`result['meta_charset_tag'] = tag['charset'].lower()`
			`# meta tag overrules any previous value`
			`result['charset'] = tag['charset'].lower()`

			`# check for charset plausibility (only for most common ones)`
			`if result['charset'] in ('iso-8859-1', 'utf-8'):`
			`try:`
			`_ = page_content['content'].encode(result['charset'])`
			`except UnicodeEncodeError as e:`
			`result['valid'] = False`
			`result['exception'] = str(e)`
			`else:`
			`result['valid'] = True`


			`return result`