yt-dlp/youtube_dl/extractor/rutube.py

# coding: utf-8
from __future__ import unicode_literals

import re
import itertools

from .common import InfoExtractor
from ..compat import (
    compat_str,
)
from ..utils import (
    determine_ext,
    unified_strdate,
)


class RutubeIE(InfoExtractor):
    IE_NAME = 'rutube'
    IE_DESC = 'Rutube videos'
    _VALID_URL = r'https?://rutube\.ru/(?:video|play/embed)/(?P<id>[\da-z]{32})'

    _TESTS = [{
        'url': 'http://rutube.ru/video/3eac3b4561676c17df9132a9a1e62e3e/',
        'info_dict': {
            'id': '3eac3b4561676c17df9132a9a1e62e3e',
            'ext': 'mp4',
            'title': 'Раненный кенгуру забежал в аптеку',
            'description': 'http://www.ntdtv.ru ',
            'duration': 80,
            'uploader': 'NTDRussian',
            'uploader_id': '29790',
            'upload_date': '20131016',
            'age_limit': 0,
        },
        'params': {
            # It requires ffmpeg (m3u8 download)
            'skip_download': True,
        },
    }, {
        'url': 'http://rutube.ru/play/embed/a10e53b86e8f349080f718582ce4c661',
        'only_matching': True,
    }]

    def _real_extract(self, url):
        video_id = self._match_id(url)
        video = self._download_json(
            'http://rutube.ru/api/video/%s/?format=json' % video_id,
            video_id, 'Downloading video JSON')

        # Some videos don't have the author field
        author = video.get('author') or {}

        options = self._download_json(
            'http://rutube.ru/api/play/options/%s/?format=json' % video_id,
            video_id, 'Downloading options JSON')

        formats = []
        for format_id, format_url in options['video_balancer'].items():
            ext = determine_ext(format_url)
            if ext == 'm3u8':
                formats.extend(self._extract_m3u8_formats(
                    format_url, video_id, 'mp4', m3u8_id=format_id, fatal=False))
            elif ext == 'f4m':
                formats.extend(self._extract_f4m_formats(
                    format_url, video_id, f4m_id=format_id, fatal=False))
            else:
                formats.append({
                    'url': format_url,
                    'format_id': format_id,
                })
        self._sort_formats(formats)

        return {
            'id': video['id'],
            'title': video['title'],
            'description': video['description'],
            'duration': video['duration'],
            'view_count': video['hits'],
            'formats': formats,
            'thumbnail': video['thumbnail_url'],
            'uploader': author.get('name'),
            'uploader_id': compat_str(author['id']) if author else None,
            'upload_date': unified_strdate(video['created_ts']),
            'age_limit': 18 if video['is_adult'] else 0,
        }


class RutubeEmbedIE(InfoExtractor):
    IE_NAME = 'rutube:embed'
    IE_DESC = 'Rutube embedded videos'
    _VALID_URL = r'https?://rutube\.ru/(?:video|play)/embed/(?P<id>[0-9]+)'

    _TESTS = [{
        'url': 'http://rutube.ru/video/embed/6722881?vk_puid37=&vk_puid38=',
        'info_dict': {
            'id': 'a10e53b86e8f349080f718582ce4c661',
            'ext': 'mp4',
            'upload_date': '20131223',
            'uploader_id': '297833',
            'description': 'Видео группы ★http://vk.com/foxkidsreset★ музей Fox Kids и Jetix<br/><br/> восстановлено и сделано в шикоформате subziro89 http://vk.com/subziro89',
            'uploader': 'subziro89 ILya',
            'title': 'Мистический городок Эйри в Индиан 5 серия озвучка subziro89',
        },
        'params': {
            'skip_download': 'Requires ffmpeg',
        },
    }, {
        'url': 'http://rutube.ru/play/embed/8083783',
        'only_matching': True,
    }]

    def _real_extract(self, url):
        embed_id = self._match_id(url)
        webpage = self._download_webpage(url, embed_id)

        canonical_url = self._html_search_regex(
            r'<link\s+rel="canonical"\s+href="([^"]+?)"', webpage,
            'Canonical URL')
        return self.url_result(canonical_url, 'Rutube')


class RutubeChannelIE(InfoExtractor):
    IE_NAME = 'rutube:channel'
    IE_DESC = 'Rutube channels'
    _VALID_URL = r'https?://rutube\.ru/tags/video/(?P<id>\d+)'
    _TESTS = [{
        'url': 'http://rutube.ru/tags/video/1800/',
        'info_dict': {
            'id': '1800',
        },
        'playlist_mincount': 68,
    }]

    _PAGE_TEMPLATE = 'http://rutube.ru/api/tags/video/%s/?page=%s&format=json'

    def _extract_videos(self, channel_id, channel_title=None):
        entries = []
        for pagenum in itertools.count(1):
            page = self._download_json(
                self._PAGE_TEMPLATE % (channel_id, pagenum),
                channel_id, 'Downloading page %s' % pagenum)
            results = page['results']
            if not results:
                break
            entries.extend(self.url_result(result['video_url'], 'Rutube') for result in results)
            if not page['has_next']:
                break
        return self.playlist_result(entries, channel_id, channel_title)

    def _real_extract(self, url):
        mobj = re.match(self._VALID_URL, url)
        channel_id = mobj.group('id')
        return self._extract_videos(channel_id)


class RutubeMovieIE(RutubeChannelIE):
    IE_NAME = 'rutube:movie'
    IE_DESC = 'Rutube movies'
    _VALID_URL = r'https?://rutube\.ru/metainfo/tv/(?P<id>\d+)'
    _TESTS = []

    _MOVIE_TEMPLATE = 'http://rutube.ru/api/metainfo/tv/%s/?format=json'
    _PAGE_TEMPLATE = 'http://rutube.ru/api/metainfo/tv/%s/video?page=%s&format=json'

    def _real_extract(self, url):
        movie_id = self._match_id(url)
        movie = self._download_json(
            self._MOVIE_TEMPLATE % movie_id, movie_id,
            'Downloading movie JSON')
        movie_name = movie['name']
        return self._extract_videos(movie_id, movie_name)


class RutubePersonIE(RutubeChannelIE):
    IE_NAME = 'rutube:person'
    IE_DESC = 'Rutube person videos'
    _VALID_URL = r'https?://rutube\.ru/video/person/(?P<id>\d+)'
    _TESTS = [{
        'url': 'http://rutube.ru/video/person/313878/',
        'info_dict': {
            'id': '313878',
        },
        'playlist_mincount': 37,
    }]

    _PAGE_TEMPLATE = 'http://rutube.ru/api/video/person/%s/?page=%s&format=json'
Unify coding cookie 2016-10-02 07:39:18 -04:00			`# coding: utf-8`
[rutube] Add support for channels and movies 2014-01-27 18:56:09 -05:00			`from __future__ import unicode_literals`

Add an extractor for rutube.ru (closes #1136) It downloads with a m3u8 manifest, requires ffmpeg. 2013-10-16 10:57:40 -04:00			`import re`
[rutube] Add support for channels and movies 2014-01-27 18:56:09 -05:00			`import itertools`
Add an extractor for rutube.ru (closes #1136) It downloads with a m3u8 manifest, requires ffmpeg. 2013-10-16 10:57:40 -04:00
			`from .common import InfoExtractor`
Fix imports and general cleanup · Import from compat what comes from compat. Yes, some names are available in utils too, but that's an implementation detail. · Use _match_id consistently whenever possible · Fix some outdated tests · Use consistent valid URL (always match the whole protocol, no ^ at start required) · Use modern test definitions 2014-12-13 06:24:42 -05:00			`from ..compat import (`
Add an extractor for rutube.ru (closes #1136) It downloads with a m3u8 manifest, requires ffmpeg. 2013-10-16 10:57:40 -04:00			`compat_str,`
Fix imports and general cleanup · Import from compat what comes from compat. Yes, some names are available in utils too, but that's an implementation detail. · Use _match_id consistently whenever possible · Fix some outdated tests · Use consistent valid URL (always match the whole protocol, no ^ at start required) · Use modern test definitions 2014-12-13 06:24:42 -05:00			`)`
			`from ..utils import (`
[rutube] Extract all formats 2015-11-21 07:02:52 -05:00			`determine_ext,`
Fix imports and general cleanup · Import from compat what comes from compat. Yes, some names are available in utils too, but that's an implementation detail. · Use _match_id consistently whenever possible · Fix some outdated tests · Use consistent valid URL (always match the whole protocol, no ^ at start required) · Use modern test definitions 2014-12-13 06:24:42 -05:00			`unified_strdate,`
Add an extractor for rutube.ru (closes #1136) It downloads with a m3u8 manifest, requires ffmpeg. 2013-10-16 10:57:40 -04:00			`)`


			`class RutubeIE(InfoExtractor):`
[rutube] Add support for channels and movies 2014-01-27 18:56:09 -05:00			`IE_NAME = 'rutube'`
[rutube] Simplify 2014-01-27 21:32:07 -05:00			`IE_DESC = 'Rutube videos'`
[rutube] Extend _VALID_URL 2015-12-15 17:44:17 -05:00			`_VALID_URL = r'https?://rutube\.ru/(?:video\|play/embed)/(?P<id>[\da-z]{32})'`
Add an extractor for rutube.ru (closes #1136) It downloads with a m3u8 manifest, requires ffmpeg. 2013-10-16 10:57:40 -04:00
[rutube] Extend _VALID_URL 2015-12-15 17:44:17 -05:00			`_TESTS = [{`
[rutube] Add support for channels and movies 2014-01-27 18:56:09 -05:00			`'url': 'http://rutube.ru/video/3eac3b4561676c17df9132a9a1e62e3e/',`
			`'info_dict': {`
[rutube] Modernize 2014-03-30 04:35:07 -04:00			`'id': '3eac3b4561676c17df9132a9a1e62e3e',`
			`'ext': 'mp4',`
[rutube] Add support for channels and movies 2014-01-27 18:56:09 -05:00			`'title': 'Раненный кенгуру забежал в аптеку',`
[rutube] Update test 2014-01-27 21:31:14 -05:00			`'description': 'http://www.ntdtv.ru ',`
			`'duration': 80,`
[rutube] Add support for channels and movies 2014-01-27 18:56:09 -05:00			`'uploader': 'NTDRussian',`
			`'uploader_id': '29790',`
[rutube] Update test 2014-01-27 21:31:14 -05:00			`'upload_date': '20131016',`
[rutube] Add age_limit to test 2015-08-08 12:11:06 -04:00			`'age_limit': 0,`
Add an extractor for rutube.ru (closes #1136) It downloads with a m3u8 manifest, requires ffmpeg. 2013-10-16 10:57:40 -04:00			`},`
[rutube] Add support for channels and movies 2014-01-27 18:56:09 -05:00			`'params': {`
Add an extractor for rutube.ru (closes #1136) It downloads with a m3u8 manifest, requires ffmpeg. 2013-10-16 10:57:40 -04:00			`# It requires ffmpeg (m3u8 download)`
[rutube] Add support for channels and movies 2014-01-27 18:56:09 -05:00			`'skip_download': True,`
Add an extractor for rutube.ru (closes #1136) It downloads with a m3u8 manifest, requires ffmpeg. 2013-10-16 10:57:40 -04:00			`},`
[rutube] Extend _VALID_URL 2015-12-15 17:44:17 -05:00			`}, {`
			`'url': 'http://rutube.ru/play/embed/a10e53b86e8f349080f718582ce4c661',`
			`'only_matching': True,`
			`}]`
Add an extractor for rutube.ru (closes #1136) It downloads with a m3u8 manifest, requires ffmpeg. 2013-10-16 10:57:40 -04:00
			`def _real_extract(self, url):`
Fix imports and general cleanup · Import from compat what comes from compat. Yes, some names are available in utils too, but that's an implementation detail. · Use _match_id consistently whenever possible · Fix some outdated tests · Use consistent valid URL (always match the whole protocol, no ^ at start required) · Use modern test definitions 2014-12-13 06:24:42 -05:00			`video_id = self._match_id(url)`
[rutube] Use _download_json 2014-03-30 05:26:35 -04:00			`video = self._download_json(`
[rutube] Modernize 2014-03-30 04:35:07 -04:00			`'http://rutube.ru/api/video/%s/?format=json' % video_id,`
			`video_id, 'Downloading video JSON')`
[rutube] Use _download_json 2014-03-30 05:26:35 -04:00
Add an extractor for rutube.ru (closes #1136) It downloads with a m3u8 manifest, requires ffmpeg. 2013-10-16 10:57:40 -04:00			`# Some videos don't have the author field`
[rutube] Fix extraction 2014-04-19 04:59:12 -04:00			`author = video.get('author') or {}`

			`options = self._download_json(`
[rutube] Add missing whitespace 2014-04-21 08:04:11 -04:00			`'http://rutube.ru/api/play/options/%s/?format=json' % video_id,`
[rutube] Fix extraction 2014-04-19 04:59:12 -04:00			`video_id, 'Downloading options JSON')`

[rutube] Extract all formats 2015-11-21 07:02:52 -05:00			`formats = []`
			`for format_id, format_url in options['video_balancer'].items():`
			`ext = determine_ext(format_url)`
			`if ext == 'm3u8':`
Simplify formats accumulation for f4m/m3u8/smil formats Now all _extract_*_formats routines return a list 2015-12-28 13:58:24 -05:00			`formats.extend(self._extract_m3u8_formats(`
			`format_url, video_id, 'mp4', m3u8_id=format_id, fatal=False))`
[rutube] Extract all formats 2015-11-21 07:02:52 -05:00			`elif ext == 'f4m':`
Simplify formats accumulation for f4m/m3u8/smil formats Now all _extract_*_formats routines return a list 2015-12-28 13:58:24 -05:00			`formats.extend(self._extract_f4m_formats(`
			`format_url, video_id, f4m_id=format_id, fatal=False))`
[rutube] Extract all formats 2015-11-21 07:02:52 -05:00			`else:`
			`formats.append({`
			`'url': format_url,`
			`'format_id': format_id,`
			`})`
			`self._sort_formats(formats)`
Add an extractor for rutube.ru (closes #1136) It downloads with a m3u8 manifest, requires ffmpeg. 2013-10-16 10:57:40 -04:00
			`return {`
[rutube] Improve video extractor 2014-01-27 20:19:45 -05:00			`'id': video['id'],`
			`'title': video['title'],`
			`'description': video['description'],`
			`'duration': video['duration'],`
			`'view_count': video['hits'],`
[rutube] Extract m3u8 formats (fixes #3984) 2014-12-01 12:20:36 -05:00			`'formats': formats,`
[rutube] Improve video extractor 2014-01-27 20:19:45 -05:00			`'thumbnail': video['thumbnail_url'],`
Add an extractor for rutube.ru (closes #1136) It downloads with a m3u8 manifest, requires ffmpeg. 2013-10-16 10:57:40 -04:00			`'uploader': author.get('name'),`
			`'uploader_id': compat_str(author['id']) if author else None,`
[rutube] Improve video extractor 2014-01-27 20:19:45 -05:00			`'upload_date': unified_strdate(video['created_ts']),`
			`'age_limit': 18 if video['is_adult'] else 0,`
Add an extractor for rutube.ru (closes #1136) It downloads with a m3u8 manifest, requires ffmpeg. 2013-10-16 10:57:40 -04:00			`}`
[rutube] Add support for channels and movies 2014-01-27 18:56:09 -05:00

[vk] Add support for rutube embeds (Fixes #4514) 2015-01-03 21:15:27 -05:00			`class RutubeEmbedIE(InfoExtractor):`
			`IE_NAME = 'rutube:embed'`
			`IE_DESC = 'Rutube embedded videos'`
Add missing r prefix for _VALID_URLs 2016-09-08 06:04:57 -04:00			`_VALID_URL = r'https?://rutube\.ru/(?:video\|play)/embed/(?P<id>[0-9]+)'`
[vk] Add support for rutube embeds (Fixes #4514) 2015-01-03 21:15:27 -05:00
[rutube:embed] Extend _VALID_URL (Closes #7588) 2015-11-21 06:39:24 -05:00			`_TESTS = [{`
[vk] Add support for rutube embeds (Fixes #4514) 2015-01-03 21:15:27 -05:00			`'url': 'http://rutube.ru/video/embed/6722881?vk_puid37=&vk_puid38=',`
			`'info_dict': {`
			`'id': 'a10e53b86e8f349080f718582ce4c661',`
			`'ext': 'mp4',`
			`'upload_date': '20131223',`
			`'uploader_id': '297833',`
			`'description': 'Видео группы ★http://vk.com/foxkidsreset★ музей Fox Kids и Jetix<br/><br/> восстановлено и сделано в шикоформате subziro89 http://vk.com/subziro89',`
			`'uploader': 'subziro89 ILya',`
			`'title': 'Мистический городок Эйри в Индиан 5 серия озвучка subziro89',`
			`},`
			`'params': {`
			`'skip_download': 'Requires ffmpeg',`
			`},`
[rutube:embed] Extend _VALID_URL (Closes #7588) 2015-11-21 06:39:24 -05:00			`}, {`
			`'url': 'http://rutube.ru/play/embed/8083783',`
			`'only_matching': True,`
			`}]`
[vk] Add support for rutube embeds (Fixes #4514) 2015-01-03 21:15:27 -05:00
			`def _real_extract(self, url):`
			`embed_id = self._match_id(url)`
			`webpage = self._download_webpage(url, embed_id)`

			`canonical_url = self._html_search_regex(`
			`r'<link\s+rel="canonical"\s+href="([^"]+?)"', webpage,`
			`'Canonical URL')`
			`return self.url_result(canonical_url, 'Rutube')`


[rutube] Add support for channels and movies 2014-01-27 18:56:09 -05:00			`class RutubeChannelIE(InfoExtractor):`
			`IE_NAME = 'rutube:channel'`
[rutube] Simplify 2014-01-27 21:32:07 -05:00			`IE_DESC = 'Rutube channels'`
Add support for https for all extractors as preventive and future-proof measure 2016-03-21 11:36:32 -04:00			`_VALID_URL = r'https?://rutube\.ru/tags/video/(?P<id>\d+)'`
Move playlist tests to extractors. From now on, test_download will run these tests. That means we benefit not only from the networking setup in there, but also from the other tests (for example test_all_urls to find problems with _VALID_URLs). 2014-08-27 18:58:24 -04:00			`_TESTS = [{`
			`'url': 'http://rutube.ru/tags/video/1800/',`
			`'info_dict': {`
			`'id': '1800',`
			`},`
			`'playlist_mincount': 68,`
			`}]`
[rutube] Add support for channels and movies 2014-01-27 18:56:09 -05:00
			`_PAGE_TEMPLATE = 'http://rutube.ru/api/tags/video/%s/?page=%s&format=json'`

			`def _extract_videos(self, channel_id, channel_title=None):`
			`entries = []`
			`for pagenum in itertools.count(1):`
[rutube] Use _download_json 2014-03-30 05:26:35 -04:00			`page = self._download_json(`
[rutube] Simplify 2014-01-27 21:32:07 -05:00			`self._PAGE_TEMPLATE % (channel_id, pagenum),`
			`channel_id, 'Downloading page %s' % pagenum)`
[rutube] Add support for channels and movies 2014-01-27 18:56:09 -05:00			`results = page['results']`
[rutube] Simplify 2014-01-27 21:32:07 -05:00			`if not results:`
			`break`
[rutube] Improve video extractor 2014-01-27 20:19:45 -05:00			`entries.extend(self.url_result(result['video_url'], 'Rutube') for result in results)`
[rutube] Simplify 2014-01-27 21:32:07 -05:00			`if not page['has_next']:`
			`break`
[rutube] Add support for channels and movies 2014-01-27 18:56:09 -05:00			`return self.playlist_result(entries, channel_id, channel_title)`

			`def _real_extract(self, url):`
			`mobj = re.match(self._VALID_URL, url)`
			`channel_id = mobj.group('id')`
			`return self._extract_videos(channel_id)`


			`class RutubeMovieIE(RutubeChannelIE):`
			`IE_NAME = 'rutube:movie'`
[rutube] Simplify 2014-01-27 21:32:07 -05:00			`IE_DESC = 'Rutube movies'`
Add support for https for all extractors as preventive and future-proof measure 2016-03-21 11:36:32 -04:00			`_VALID_URL = r'https?://rutube\.ru/metainfo/tv/(?P<id>\d+)'`
Move playlist tests to extractors. From now on, test_download will run these tests. That means we benefit not only from the networking setup in there, but also from the other tests (for example test_all_urls to find problems with _VALID_URLs). 2014-08-27 18:58:24 -04:00			`_TESTS = []`
[rutube] Add support for channels and movies 2014-01-27 18:56:09 -05:00
			`_MOVIE_TEMPLATE = 'http://rutube.ru/api/metainfo/tv/%s/?format=json'`
			`_PAGE_TEMPLATE = 'http://rutube.ru/api/metainfo/tv/%s/video?page=%s&format=json'`

			`def _real_extract(self, url):`
Fix imports and general cleanup · Import from compat what comes from compat. Yes, some names are available in utils too, but that's an implementation detail. · Use _match_id consistently whenever possible · Fix some outdated tests · Use consistent valid URL (always match the whole protocol, no ^ at start required) · Use modern test definitions 2014-12-13 06:24:42 -05:00			`movie_id = self._match_id(url)`
[rutube] Use _download_json 2014-03-30 05:26:35 -04:00			`movie = self._download_json(`
[rutube] Simplify 2014-01-27 21:32:07 -05:00			`self._MOVIE_TEMPLATE % movie_id, movie_id,`
			`'Downloading movie JSON')`
[rutube] Add support for channels and movies 2014-01-27 18:56:09 -05:00			`movie_name = movie['name']`
[rutube] Add support for user videos 2014-01-27 20:47:17 -05:00			`return self._extract_videos(movie_id, movie_name)`


			`class RutubePersonIE(RutubeChannelIE):`
			`IE_NAME = 'rutube:person'`
			`IE_DESC = 'Rutube person videos'`
Add support for https for all extractors as preventive and future-proof measure 2016-03-21 11:36:32 -04:00			`_VALID_URL = r'https?://rutube\.ru/video/person/(?P<id>\d+)'`
Move playlist tests to extractors. From now on, test_download will run these tests. That means we benefit not only from the networking setup in there, but also from the other tests (for example test_all_urls to find problems with _VALID_URLs). 2014-08-27 18:58:24 -04:00			`_TESTS = [{`
			`'url': 'http://rutube.ru/video/person/313878/',`
			`'info_dict': {`
			`'id': '313878',`
			`},`
			`'playlist_mincount': 37,`
			`}]`
[rutube] Add support for user videos 2014-01-27 20:47:17 -05:00
[rutube] Simplify 2014-01-27 21:32:07 -05:00			`_PAGE_TEMPLATE = 'http://rutube.ru/api/video/person/%s/?page=%s&format=json'`