【畢設(shè)進(jìn)行時-工業(yè)大數(shù)據(jù)，數(shù)據(jù)挖掘】一種基于熵的連續(xù)屬性離散化算法（EADC）Java實現(xiàn)你画！

正文之前

事情是這樣的抵碟，我前面說過了桃漾。。立磁。呈队。就是我的畢業(yè)論文字?jǐn)?shù)寫到14200的時候就感覺有點寫不動了，雖然還有性能度量和致謝和一大批的文獻(xiàn)參考沒寫唱歧，但是我總感覺這樣不妥宪摧，所以就特地的又加了點東西。在后剪枝方法和連續(xù)值離散化之間颅崩，我選擇了離散化這個相對好點的東西几于。后剪枝感覺沒什么好補充的。沿后。

超喜歡的長腿跳舞小姐姐

正文

從不廢話沿彭，先放代碼！

/* *********************
 * Author   :   HustWolf --- 張照博

 * Time     :   2018.1-2018.5

 * Address  :   HUST

 * Version  :   1.0

 * 定義一些靜態(tài)的數(shù)值尖滚，并且提供getter
 ********************* */

import java.text.NumberFormat;
import java.util.*;

class Alone_Value_Category  implements Comparable<Alone_Value_Category>{
    private float sensor;
    private float category;
    //    private float[] range = new float[2];
    Alone_Value_Category(float a, float b){
        super();
        this.sensor = a;
        this.category = b;
    }

    float getSensor(){
        return  sensor;
    }
    float getCategory(){
        return category;
    }
    //    void setRange(float a, float b){
//        range[0] = a;
//        range[1] =b;
//    }
    @Override
    public String toString() {
        return "\n[Sensor:" + sensor + ", category=" + category + "]";
    }
    @Override
    public int compareTo(Alone_Value_Category o) {
        return Float.compare(this.sensor,o.sensor);
    }
}

上面這個是??定義的一個存儲數(shù)據(jù)的地方喉刘，這個類用來分割數(shù)據(jù)，做到單屬性對分類的格式漆弄。一條4 Sensor 1Category 一共會被拆解為4個這種類的實例分別參與EADC離散化的過程睦裳。

class Interval{
    private float top;
    private float bottom;
    public Map<Float,List<Alone_Value_Category> > sample = new HashMap<Float, List<Alone_Value_Category>>();
    Interval(){};
    Interval(Interval b){
        top = b.top;
        bottom = b.bottom;
        sample = b.sample;
    }
    Interval(float a, float b, float c, List<Alone_Value_Category> d){
        this.top = a;
        this.bottom = b;
        sample.put(c,d);
    }

    public float getTop() {
        return top;
    }

    public float getBottom() {
        return bottom;
    }

    public void setTop(float top) {
        this.top = top;
    }

    public void setBottom(float bottom) {
        this.bottom = bottom;
    }

    public void setSample(Map<Float, List<Alone_Value_Category>> sample) {
        this.sample = sample;
    }

    public Interval addTmp(Interval b){
        Interval re = new Interval(b);
        if (top>b.top) re.setTop(top);
        else re.setTop(b.top);
        if (bottom<b.bottom) re.setBottom(bottom);
        else re.setBottom(b.bottom);
        re.sample.putAll(sample);
        return re;
    }
    public void merge(Interval b){
        if (top<b.top)
            top = b.top;
        if (bottom>b.bottom)
            bottom = b.bottom;
        sample.putAll(b.sample);
    }
    public int getCount(){
        int count = 0;
        for(List<Alone_Value_Category> s:sample.values()){
            count+=s.size();
        }
        return count;
    }
    @Override
    public String toString() {
        return "bottom:"+bottom+" top:"+top+" size:"+getCount();
    }
}

區(qū)間類，每一個區(qū)間有上界撼唾，下界廉邑，還有對應(yīng)的Alone_Value_Category集合。不過這里面的集合是按照類別-->List的模式存儲倒谷。按照我的數(shù)據(jù)蛛蒙，應(yīng)該是每一個Interval都有兩個List

public class Parameter {
    private static int rate = 2;
    private static int trainNum = 40000;
    private static int testNum = trainNum/rate;
    public static int getTrainNum(){
        return trainNum;
    }
    public static int getRate(){
        return rate;
    }
    public static int getTestNum(){
        return testNum;
    }
    public static int getTestDistance(){
        return 2000000/testNum;
    }
    public static int getTrainDistance(){
        return 2000000/trainNum;
    }
    public static void setRate(int r){
        rate = r;
        testNum = trainNum / rate;
    }   
    public static void setTrainNum(int t){
        trainNum = t;
        testNum = trainNum / rate;
    }
    public static void setTestNum(int t){
        testNum = t;
        trainNum = testNum * rate;
    }


    public static void Clear(ArrayList<Interval> allInterval){
        ArrayList<Interval> del = new ArrayList<>();
        for (int s = 0;s<allInterval.size();++s) {
            if (allInterval.get(s).getCount() == 0){
                if (s>0) {
                    allInterval.get(s - 1).merge(allInterval.get(s));
                    del.add(allInterval.get(s));
                }
                continue;
            }
        }
        allInterval.removeAll(del);
    }
    static double Entropy(ArrayList<Interval> set, int size){
        double shang = 0;
        NumberFormat nf = NumberFormat.getNumberInstance();
        nf.setMaximumFractionDigits(4);
        for (Interval x:set){
            double p =(double)x.getCount()/(double)size;
            shang  -= p*(Math.log(p)/Math.log(2));
        }
        return  Double.parseDouble(nf.format(shang));
    }
    public static ArrayList<List<Float>> EADC(float[][] dat) {
        ArrayList<List<Float>> re = new  ArrayList<>();
        for (int valueindex = 0; valueindex< dat[0].length-1;++valueindex) {
            ArrayList<Alone_Value_Category> LIST = new ArrayList<>();
            for (int i = 0; i < dat.length; ++i) {
                LIST.add(new Alone_Value_Category(dat[i][valueindex], dat[i][dat[valueindex].length - 1]));
                //便利舊集合沒有就添加到新集合
            }
            Collections.sort(LIST);
            float len = LIST.get(LIST.size() - 1).getSensor() - LIST.get(0).getSensor();
            int k = 40;
            float gap = (len + 1) / k;
            float Lowest = LIST.get(0).getSensor() - 0.50f;
            float Highest = LIST.get(LIST.size()-1).getSensor() + 0.50f;
            NumberFormat nf = NumberFormat.getNumberInstance();
            nf.setMaximumFractionDigits(1);
            List<Float> range = new LinkedList<>();
            for (int x = 0; x <= k; ++x) {
                range.add(Float.parseFloat(nf.format(Lowest + x * gap)));
            }
            ArrayList<Interval> allInterval = new ArrayList<>();
            for (int i = 0; i < k; ++i) {
                Interval newarea = new Interval();
                newarea.setBottom(range.get(i));
                newarea.setTop(range.get(i + 1));
                for (Alone_Value_Category s : LIST) {
                    if (s.getSensor() > range.get(i) && s.getSensor() < range.get(i + 1)) {
                        if (!newarea.sample.containsKey(s.getCategory())) {
                            newarea.sample.put(s.getCategory(), new LinkedList<>());
                        }
                        newarea.sample.get(s.getCategory()).add(s);
                    }
                }
                allInterval.add(newarea);
            }
            int size = 0;
            Clear(allInterval);
            for (Interval s : allInterval) {
                size += s.getCount();
            }
            k = allInterval.size();
            int k0 = k;
            double Ck0 = 0.5;
            boolean Loop = true;
            double Hpk_1 = 0;
            while (Loop && k >= 10) {
                double minD = 1000;
                int mergePoint = 0;
                double Hp0 = Entropy(allInterval, size);
                double Hpk;
                ArrayList<Interval> newA = new ArrayList<>();
                for (int i = 0; i < allInterval.size() - 1; ++i) {
                    newA.addAll(allInterval);
                    newA.get(i).merge(newA.get(i + 1));
                    newA.remove(i + 1);
                    Hpk = Entropy(newA, size);
                    if (Hpk - Hp0 < minD) {
                        Hpk_1 = Hpk;
                        minD = Hpk - Hp0;
                        mergePoint = i;
                    }
                    newA.clear();
                }
                allInterval.get(mergePoint).merge(allInterval.get(mergePoint + 1));
                allInterval.remove(allInterval.get(mergePoint + 1));
                double Ck_1 = (k0 - 1) * Hpk_1 - Hp0 * (k - 2);
                if (Ck_1 > Ck0) {
                    --k;
                } else {
                    Loop = false;
                    --k;
                }
//                Ck = Ck_1;
            }
            range.clear();
            range.add(-100f);
            for (Interval s:allInterval) {
                range.add(s.getTop());
            }
            range.add(100f);
            re.add(range);
//        long endTime=System.currentTimeMillis(); //獲取結(jié)束時間
//        System.out.println("\n程序運行時間： "+(endTime-startTime)+"ms");
        }
        return re;
    }
}

主體類，也是EADC算法的（一種基于熵的連續(xù)屬性離散化算法）的Java實現(xiàn)渤愁！我是三天曬網(wǎng)牵祟，一天打漁，不過終于今天還是肝出來了抖格。诺苹。這就意味著差不多要收工了！美滋滋QＫ妗ｓ菸病！

具體來說其實還好吧办桨。筹淫。。等后面畢業(yè)了我把我的畢業(yè)論文寫成簡書發(fā)出來，大家伙就看的明白了咯损姜！現(xiàn)在先上數(shù)學(xué)表達(dá)饰剥！

最后得到的偽代碼就是下面的了：

當(dāng)然，他這個有點看不明白摧阅，看我的解釋吧汰蓉！

整個離散化的過程如下：
（1）從數(shù)據(jù)庫讀取數(shù)據(jù)，傳入到離散化方法中棒卷；
（2）先針對單一的屬性顾孽，取出所有的值，并且對其進(jìn)行排序比规；
（3）排序后劃分區(qū)間若厚，并且利用熵的計算公式計算出初始熵，設(shè)置度量數(shù)值Ck = 0 蜒什；
（4）合并兩個相鄰區(qū)間测秸，使合并前后的熵差最小，并且重置劃分點，保存合并后的熵值；
（5）根據(jù)上面的度量公式計算出Ck-1 = h妒貌；
（6）如果Ck-1 > Ck ,那么k = k -1，回到第(4)步沈撞；
（7）如果Ck-1 < Ck ,保存當(dāng)前的區(qū)間劃分，結(jié)束區(qū)間劃分進(jìn)程仔戈；
（8）將傳入的數(shù)據(jù)根據(jù)當(dāng)前區(qū)間劃分進(jìn)行離散化关串。
離散化流程圖如下：

上面這圖花了好久拧廊。才算是理清了监徘。。吧碾。不容易啊不容易；丝！

正文之后

爭取今晚寫完論文倦春，明天排版完畢户敬，最好事明天先自查，然后大后天上知網(wǎng)查重睁本。尿庐。。大大后天呢堰，要給某人一個驚喜抄瑟，就是不知道她能不能看到了！枉疼！

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末皮假，一起剝皮案震驚了整個濱河市鞋拟，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌惹资，老刑警劉巖贺纲，帶你破解...
沈念sama閱讀 206,723評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異褪测，居然都是意外死亡猴誊，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,485評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門侮措，熙熙樓的掌柜王于貴愁眉苦臉地迎上來稠肘，“玉大人，你說我怎么就攤上這事萝毛∠钜酰” “怎么了？”我有些...
開封第一講書人閱讀 152,998評論 0贊 344
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵笆包，是天一觀的道長环揽。經(jīng)常有香客問我，道長庵佣，這世上最難降的妖魔是什么歉胶？我笑而不...
開封第一講書人閱讀 55,323評論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮巴粪，結(jié)果婚禮上通今，老公的妹妹穿的比我還像新娘。我一直安慰自己肛根，他們只是感情好辫塌，可當(dāng)我...
茶點故事閱讀 64,355評論 5贊 374
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著派哲，像睡著了一般臼氨。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上芭届，一...
開封第一講書人閱讀 49,079評論 1贊 285
城市分裂傳說
那天储矩，我揣著相機與錄音，去河邊找鬼褂乍。笑死持隧，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的逃片。我是一名探鬼主播屡拨，決...
沈念sama閱讀 38,389評論 3贊 400
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了洁仗？” 一聲冷哼從身側(cè)響起层皱，我...
開封第一講書人閱讀 37,019評論 0贊 259
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎赠潦，沒想到半個月后叫胖，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 43,519評論 1贊 300
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡她奥，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 35,971評論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年瓮增，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片哩俭。...
茶點故事閱讀 38,100評論 1贊 333
活死人
序言：一個原本活蹦亂跳的男人離奇死亡绷跑，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出凡资，到底是詐尸還是另有隱情砸捏，我是刑警寧澤，帶...
沈念sama閱讀 33,738評論 4贊 324
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布隙赁，位于F島的核電站垦藏，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏伞访。R本人自食惡果不足惜掂骏，卻給世界環(huán)境...
茶點故事閱讀 39,293評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望厚掷。院中可真熱鬧弟灼，春花似錦、人聲如沸冒黑。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,289評論 0贊 19
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽薛闪。三九已至辛馆，卻和暖如春俺陋，著一層夾襖步出監(jiān)牢的瞬間豁延，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,517評論 1贊 262
情欲美人皮
我被黑心中介騙來泰國打工腊状，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留诱咏，地道東北人。一個月前我還...
沈念sama閱讀 45,547評論 2贊 354
代替公主和親
正文我出身青樓缴挖，卻偏偏與公主長得像袋狞，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 42,834評論 2贊 345

【畢設(shè)進(jìn)行時-工業(yè)大數(shù)據(jù)滔以，數(shù)據(jù)挖掘】一種基于熵的連續(xù)屬性離散化算法（EADC）Java實現(xiàn)捉腥！

【畢設(shè)進(jìn)行時-工業(yè)大數(shù)據(jù)，數(shù)據(jù)挖掘】一種基于熵的連續(xù)屬性離散化算法（EADC）Java實現(xiàn)你画！

正文之前

正文

正文之后

推薦閱讀更多精彩內(nèi)容