大數(shù)據(jù)之用戶視頻觀看時長的數(shù)據(jù)統(tǒng)計(一)

最近接手了一個關(guān)于中學(xué)生家庭視頻教育的項目寺渗,其中核心的部分要求統(tǒng)計用戶的視頻看時長,并且管理員可以分別查看某一地區(qū)或者學(xué)校總的觀看時長以及上月或上周的觀看時長叮盘,并且視頻的觀看時間要求合并及去重復(fù)猜绣,也就是說一個用戶如果多次不同時間重復(fù)觀看同一視頻灰殴,是不計入總的觀看時間的。業(yè)務(wù)復(fù)雜的地方在于統(tǒng)計觀看時間的合并以及去重掰邢,以及實時視頻觀看數(shù)據(jù)上報平臺的搭建以及數(shù)據(jù)統(tǒng)計服務(wù)的搭建(客戶端每5S上報一次請求數(shù)會很大)牺陶。

對于某一用戶視頻觀看時長的合并及去重可以簡化為時間區(qū)間的合并以及去重,客戶端每次上報辣之,都會在服務(wù)端記下本次上報的視頻開始時間以及結(jié)束時間掰伸,那么就可以看成一個數(shù)字區(qū)間,比如第一次上報的是[0, 10] 第二次用戶拖動了一點觀看怀估,上報的區(qū)間是[2,11]狮鸭,第三次[11,23] ,第四次[13,45] 多搀,那么最終的觀看時間區(qū)間為 [0,45]歧蕉,考慮到極端上報情況,區(qū)間可能是間斷的[0,5] [15,21] [9, 20] 這時最終去得合并后得到[0,5] [9,21]康铭,這么來看的話我們就需要找到一個最優(yōu)的算法來解決區(qū)間的去重及合并廊谓。由于每5S上報一次 所以一個視頻看完時可能最終會報出成百上千個時間區(qū)間。這時候就要求算法的復(fù)雜度越小越好麻削。

如果把所有的上報區(qū)間看成一個二維數(shù)組蒸痹。先將區(qū)間數(shù)組排序按開始時間排序 比如[0,5] [15,21] [9, 20]排序后是[0,5] [9, 20][15,21] 然后再將第一個區(qū)間的結(jié)束時間與第二區(qū)間的開始時間進行比較,如果第一個比第二個大就合并呛哟,然后將第一個區(qū)間剔除叠荠,依次類推直到合并到?jīng)]有重復(fù)的區(qū)間為止,那么算法就很明顯了這其實是一個遞歸問題 扫责。

下面給出算法代碼示例榛鼎,算法的關(guān)鍵在于getUniqueList方法,大神們?nèi)绻懈玫慕鉀Q方案也可以在文章下評論,指導(dǎo)一下者娱,哈哈抡笼。

<?php
/**
 * Created by PhpStorm.
 * User: Administrator
 * Date: 2017/6/23
 * Time: 11:41
 */
$test = new Test();
print_r($test->actionTest());

class Test
{
    public function actionTest()
    {
        $data = [[0,9],[439,539],[439,539],[439,539],[439,539],[439,539],[439,569],[439,569],[439,569],[439,569],[439,569],[439,569],[439,569],[439,569],[439,569],[479,539],[479,539],[479,539],[479,539],[479,539],[479,539],[479,539],[479,599],[639,869],[639,869],[639,869]];

        $uList = $this->getUniqueList($data, $uniqueList);
        return $uList;
    }

    /**
     * 獲取不重復(fù)的觀看時間區(qū)間
     * @param $list
     * @param $uniqueList
     * @return array
     */
    public function getUniqueList($list, &$uniqueList)
    {
        if(empty($list)) return $uniqueList;
        $first = array_shift($list);
        $newList = [];
        $hasRepeat = false;
        for($i = 0; $i < count($list); $i++)
        {
            $current = $list[$i];
            //結(jié)束時間比當(dāng)前開始時間大,合并時間區(qū)間
            if(($first[1] + 1) >= $current[0])
            {
                $hasRepeat = true;
                $row[0] = min($first[0], $current[0]);
                $row[1] = max($first[1], $current[1]);
                $first = $row;
            }
            else
            {
                $newList[] = $list[$i];
            }
        }

        $uniqueList[] = $first;
        //沒有重復(fù)區(qū)間返回
        if(!$hasRepeat && empty($list))
        {
            if(!empty($newList)) $uniqueList = array_merge($uniqueList, $newList);
            return $uniqueList;
        }

        return $this->getUniqueList($newList, $uniqueList);
    }

    /**
     * 二維數(shù)組按某個字段排序
     * @param $data
     * @param $field
     * @param string $sort
     * @return mixed
     */
    protected function sortByField($data, $field, $sort = 'SORT_DESC')
    {
        if (empty($data))
            return [];

        $arrSort = array();
        foreach ($data as $id => $row) {
            foreach ($row as $key => $value) {
                $arrSort[$key][$id] = $value;
            }
        }

        array_multisort($arrSort[$field], constant($sort), $data);
        return $data;
    }
}

運行結(jié)果如下

Array
(
    [0] => Array
        (
            [0] => 0
            [1] => 9
        )

    [1] => Array
        (
            [0] => 439
            [1] => 599
        )

    [2] => Array
        (
            [0] => 639
            [1] => 869
        )

)

最終結(jié)果是滿足我們需求的黄鳍,不重復(fù)的區(qū)間得到之后再循環(huán)數(shù)組相減推姻,就可以得到這個用戶總的不重復(fù)觀看時間了,算法的復(fù)雜度為n的二次方框沟,如果n是小于100的話藏古,循環(huán)次數(shù)不超過1萬次,如果將統(tǒng)計的定時任務(wù)設(shè)定為每隔5分鐘(n = 60)統(tǒng)計一次觀看時間忍燥,下次統(tǒng)計代入上次不重復(fù)區(qū)間n肯定是小于100的拧晕,所以總體算法復(fù)雜度還是不錯的。

下篇文章中我將會給出視頻統(tǒng)計平臺的架構(gòu)設(shè)計梅垄,如何在請求數(shù)較高的情況下低延時統(tǒng)計用戶每天的不重復(fù)看視頻時長厂捞,敬請期待哦。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末队丝,一起剝皮案震驚了整個濱河市蔫敲,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌炭玫,老刑警劉巖奈嘿,帶你破解...
    沈念sama閱讀 206,214評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異吞加,居然都是意外死亡裙犹,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,307評論 2 382
  • 文/潘曉璐 我一進店門衔憨,熙熙樓的掌柜王于貴愁眉苦臉地迎上來叶圃,“玉大人,你說我怎么就攤上這事践图〔艄冢” “怎么了?”我有些...
    開封第一講書人閱讀 152,543評論 0 341
  • 文/不壞的土叔 我叫張陵码党,是天一觀的道長德崭。 經(jīng)常有香客問我,道長揖盘,這世上最難降的妖魔是什么眉厨? 我笑而不...
    開封第一講書人閱讀 55,221評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮兽狭,結(jié)果婚禮上憾股,老公的妹妹穿的比我還像新娘鹿蜀。我一直安慰自己,他們只是感情好服球,可當(dāng)我...
    茶點故事閱讀 64,224評論 5 371
  • 文/花漫 我一把揭開白布茴恰。 她就那樣靜靜地躺著,像睡著了一般斩熊。 火紅的嫁衣襯著肌膚如雪往枣。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,007評論 1 284
  • 那天座享,我揣著相機與錄音婉商,去河邊找鬼似忧。 笑死渣叛,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的盯捌。 我是一名探鬼主播淳衙,決...
    沈念sama閱讀 38,313評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼饺著!你這毒婦竟也來了箫攀?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,956評論 0 259
  • 序言:老撾萬榮一對情侶失蹤幼衰,失蹤者是張志新(化名)和其女友劉穎靴跛,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體渡嚣,經(jīng)...
    沈念sama閱讀 43,441評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡梢睛,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,925評論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了识椰。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片绝葡。...
    茶點故事閱讀 38,018評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖腹鹉,靈堂內(nèi)的尸體忽然破棺而出藏畅,到底是詐尸還是另有隱情,我是刑警寧澤功咒,帶...
    沈念sama閱讀 33,685評論 4 322
  • 正文 年R本政府宣布愉阎,位于F島的核電站,受9級特大地震影響力奋,放射性物質(zhì)發(fā)生泄漏诫硕。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,234評論 3 307
  • 文/蒙蒙 一刊侯、第九天 我趴在偏房一處隱蔽的房頂上張望章办。 院中可真熱鬧,春花似錦、人聲如沸藕届。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,240評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽休偶。三九已至梁厉,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間踏兜,已是汗流浹背词顾。 一陣腳步聲響...
    開封第一講書人閱讀 31,464評論 1 261
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留碱妆,地道東北人肉盹。 一個月前我還...
    沈念sama閱讀 45,467評論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像疹尾,于是被迫代替她去往敵國和親上忍。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,762評論 2 345

推薦閱讀更多精彩內(nèi)容