十二、淘寶用戶行為數(shù)據(jù)示例

測試數(shù)據(jù)

User Behavior Data from Taobao for Recommendation

import lombok.Data;
import org.apache.flink.api.common.functions.AggregateFunction;
import org.apache.flink.api.common.functions.FilterFunction;
import org.apache.flink.api.common.state.ListState;
import org.apache.flink.api.common.state.ListStateDescriptor;
import org.apache.flink.api.java.io.PojoCsvInputFormat;
import org.apache.flink.api.java.tuple.Tuple;
import org.apache.flink.api.java.tuple.Tuple1;
import org.apache.flink.api.java.typeutils.PojoTypeInfo;
import org.apache.flink.api.java.typeutils.TypeExtractor;
import org.apache.flink.configuration.Configuration;
import org.apache.flink.core.fs.Path;
import org.apache.flink.streaming.api.TimeCharacteristic;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.KeyedProcessFunction;
import org.apache.flink.streaming.api.functions.timestamps.AscendingTimestampExtractor;
import org.apache.flink.streaming.api.functions.windowing.WindowFunction;
import org.apache.flink.streaming.api.windowing.time.Time;
import org.apache.flink.streaming.api.windowing.windows.TimeWindow;
import org.apache.flink.util.Collector;

import java.io.File;
import java.net.URL;
import java.sql.Timestamp;
import java.util.ArrayList;
import java.util.Comparator;
import java.util.List;

@Data
public class HotItems {

    public static void main(String[] args) throws Exception {

        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime);
        // 為了打印到控制臺的結(jié)果不亂序农尖,我們配置全局的并發(fā)為1朱躺,這里改變并發(fā)對結(jié)果正確性沒有影響
        env.setParallelism(1);

        // UserBehavior.csv 的本地文件路徑
        URL fileUrl = HotItems.class.getClassLoader().getResource("User.csv");
        Path filePath = Path.fromLocalFile(new File(fileUrl.toURI()));
        // 抽取 UserBehavior 的 TypeInformation,是一個 PojoTypeInfo
        PojoTypeInfo<UserBehavior> pojoType = (PojoTypeInfo<UserBehavior>) TypeExtractor.createTypeInfo(UserBehavior.class);
        // 由于 Java 反射抽取出的字段順序是不確定的卑吭,需要顯式指定下文件中字段的順序
        String[] fieldOrder = new String[]{"userId", "itemId", "categoryId", "behavior", "timestamp"};
        // 創(chuàng)建 PojoCsvInputFormat
        PojoCsvInputFormat<UserBehavior> csvInput = new PojoCsvInputFormat<>(filePath, pojoType, fieldOrder);

        env.createInput(csvInput, pojoType)
                .assignTimestampsAndWatermarks(new AscendingTimestampExtractor<UserBehavior>() {
                    @Override
                    public long extractAscendingTimestamp(UserBehavior userBehavior) {
                        // 原始數(shù)據(jù)單位秒哲虾,將其轉(zhuǎn)成毫秒
                        return userBehavior.timestamp * 1000;
                    }
                }).filter(new FilterFunction<UserBehavior>() {
            @Override
            public boolean filter(UserBehavior userBehavior) throws Exception {
                // 過濾出只有點擊的數(shù)據(jù)
                return userBehavior.behavior.equals("pv");
            }
        }).keyBy("itemId")
                .timeWindow(Time.minutes(60), Time.minutes(5))
                .aggregate(new CountAgg(), new WindowResultFunction())
                .keyBy("windowEnd")
                .process(new TopNHotItems(3))
                .print();
        env.execute("Hot Items Job");
    }

    /**
     * 求某個窗口中前 N 名的熱門點擊商品丙躏,key 為窗口時間戳,輸出為 TopN 的結(jié)果字符串
     */
    public static class TopNHotItems extends KeyedProcessFunction<Tuple, ItemViewCount, String> {

        private final int topSize;

        public TopNHotItems(int topSize) {
            this.topSize = topSize;
        }

        // 用于存儲商品與點擊數(shù)的狀態(tài)束凑,待收齊同一個窗口的數(shù)據(jù)后晒旅,再觸發(fā) TopN 計算
        private ListState<ItemViewCount> itemState;

        @Override
        public void open(Configuration parameters) throws Exception {
            super.open(parameters);
            ListStateDescriptor<ItemViewCount> itemsStateDesc = new ListStateDescriptor<>(
                    "itemState-state",
                    ItemViewCount.class);
            itemState = getRuntimeContext().getListState(itemsStateDesc);
        }

        @Override
        public void processElement(
                ItemViewCount input,
                Context context,
                Collector<String> collector) throws Exception {

            // 每條數(shù)據(jù)都保存到狀態(tài)中
            itemState.add(input);
            // 注冊 windowEnd+1 的 EventTime Timer, 當(dāng)觸發(fā)時,說明收齊了屬于windowEnd窗口的所有商品數(shù)據(jù)
            context.timerService().registerEventTimeTimer(input.windowEnd + 1);
        }

        @Override
        public void onTimer(
                long timestamp, OnTimerContext ctx, Collector<String> out) throws Exception {
            // 獲取收到的所有商品點擊量
            List<ItemViewCount> allItems = new ArrayList<>();
            for (ItemViewCount item : itemState.get()) {
                allItems.add(item);
            }
            // 提前清除狀態(tài)中的數(shù)據(jù)汪诉,釋放空間
            itemState.clear();
            // 按照點擊量從大到小排序
            allItems.sort(new Comparator<ItemViewCount>() {
                @Override
                public int compare(ItemViewCount o1, ItemViewCount o2) {
                    return (int) (o2.viewCount - o1.viewCount);
                }
            });
            // 將排名信息格式化成 String, 便于打印
            StringBuilder result = new StringBuilder();
            result.append("====================================\n");
            result.append("時間: ").append(new Timestamp(timestamp - 1)).append("\n");
            for (int i = 0; i < allItems.size() && i < topSize; i++) {
                ItemViewCount currentItem = allItems.get(i);
                // No1:  商品ID=12224  瀏覽量=2413
                result.append("No").append(i).append(":")
                        .append("  商品ID=").append(currentItem.itemId)
                        .append("  瀏覽量=").append(currentItem.viewCount)
                        .append("\n");
            }
            result.append("====================================\n\n");

            // 控制輸出頻率废恋,模擬實時滾動結(jié)果
            Thread.sleep(1000);

            out.collect(result.toString());
        }
    }


    /**
     * 商品點擊量(窗口操作的輸出類型)
     */
    public static class ItemViewCount {
        public long itemId;     // 商品ID
        public long windowEnd;  // 窗口結(jié)束時間戳
        public long viewCount;  // 商品的點擊量

        public static ItemViewCount of(long itemId, long windowEnd, long viewCount) {
            ItemViewCount result = new ItemViewCount();
            result.itemId = itemId;
            result.windowEnd = windowEnd;
            result.viewCount = viewCount;
            return result;
        }
    }

    /**
     * 用于輸出窗口的結(jié)果
     */
    public static class WindowResultFunction implements WindowFunction<Long, ItemViewCount, Tuple, TimeWindow> {

        @Override
        public void apply(Tuple key,  // 窗口的主鍵,即 itemId
                          TimeWindow window,  // 窗口
                          Iterable<Long> aggregateResult, // 聚合函數(shù)的結(jié)果摩瞎,即 count 值
                          Collector<ItemViewCount> collector  // 輸出類型為 ItemViewCount
        ) throws Exception {
            Long itemId = ((Tuple1<Long>) key).f0;
            Long count = aggregateResult.iterator().next();
            collector.collect(ItemViewCount.of(itemId, window.getEnd(), count));
        }
    }

    /**
     * 用戶行為數(shù)據(jù)結(jié)構(gòu)
     **/
    @Data
    public static class UserBehavior {
        public long userId;         // 用戶ID
        public long itemId;         // 商品ID
        public int categoryId;      // 商品類目ID
        public String behavior;     // 用戶行為, 包括("pv", "buy", "cart", "fav")
        public long timestamp;      // 行為發(fā)生的時間戳拴签,單位秒
    }

    /**
     * COUNT 統(tǒng)計的聚合函數(shù)實現(xiàn),每出現(xiàn)一條記錄加一
     */
    public static class CountAgg implements AggregateFunction<UserBehavior, Long, Long> {

        @Override
        public Long createAccumulator() {
            return 0L;
        }

        @Override
        public Long add(UserBehavior userBehavior, Long acc) {
            return acc + 1;
        }

        @Override
        public Long getResult(Long acc) {
            return acc;
        }

        @Override
        public Long merge(Long acc1, Long acc2) {
            return acc1 + acc2;
        }
    }
}
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末旗们,一起剝皮案震驚了整個濱河市蚓哩,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌上渴,老刑警劉巖岸梨,帶你破解...
    沈念sama閱讀 219,188評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異稠氮,居然都是意外死亡曹阔,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,464評論 3 395
  • 文/潘曉璐 我一進(jìn)店門隔披,熙熙樓的掌柜王于貴愁眉苦臉地迎上來赃份,“玉大人,你說我怎么就攤上這事∽ズ” “怎么了纠永?”我有些...
    開封第一講書人閱讀 165,562評論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長谒拴。 經(jīng)常有香客問我尝江,道長,這世上最難降的妖魔是什么英上? 我笑而不...
    開封第一講書人閱讀 58,893評論 1 295
  • 正文 為了忘掉前任炭序,我火速辦了婚禮,結(jié)果婚禮上苍日,老公的妹妹穿的比我還像新娘惭聂。我一直安慰自己,他們只是感情好易遣,可當(dāng)我...
    茶點故事閱讀 67,917評論 6 392
  • 文/花漫 我一把揭開白布彼妻。 她就那樣靜靜地躺著嫌佑,像睡著了一般豆茫。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上屋摇,一...
    開封第一講書人閱讀 51,708評論 1 305
  • 那天揩魂,我揣著相機與錄音,去河邊找鬼炮温。 笑死火脉,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的柒啤。 我是一名探鬼主播倦挂,決...
    沈念sama閱讀 40,430評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼担巩!你這毒婦竟也來了方援?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,342評論 0 276
  • 序言:老撾萬榮一對情侶失蹤涛癌,失蹤者是張志新(化名)和其女友劉穎犯戏,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體拳话,經(jīng)...
    沈念sama閱讀 45,801評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡先匪,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,976評論 3 337
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了弃衍。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片呀非。...
    茶點故事閱讀 40,115評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖镜盯,靈堂內(nèi)的尸體忽然破棺而出岸裙,到底是詐尸還是另有隱情坦冠,我是刑警寧澤,帶...
    沈念sama閱讀 35,804評論 5 346
  • 正文 年R本政府宣布哥桥,位于F島的核電站辙浑,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏拟糕。R本人自食惡果不足惜判呕,卻給世界環(huán)境...
    茶點故事閱讀 41,458評論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望送滞。 院中可真熱鬧侠草,春花似錦、人聲如沸犁嗅。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,008評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽褂微。三九已至功蜓,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間宠蚂,已是汗流浹背式撼。 一陣腳步聲響...
    開封第一講書人閱讀 33,135評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留求厕,地道東北人著隆。 一個月前我還...
    沈念sama閱讀 48,365評論 3 373
  • 正文 我出身青樓,卻偏偏與公主長得像呀癣,于是被迫代替她去往敵國和親美浦。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,055評論 2 355

推薦閱讀更多精彩內(nèi)容