接入es數(shù)據(jù)到hdfs

最近接到一個(gè)需求桦他,需要接入es日志數(shù)據(jù)到hdfs蔫巩,進(jìn)行分析,網(wǎng)上查找了一下資料瞬铸,總結(jié)一下方法大致有如下幾種

  1. hive本身直接支持連接es
    可直接參考鏈接 http://lxw1234.com/archives/2015/12/585.htm
    說一下這種方式的弊端:

    • (a)批幌、es集群通常會為了安全考慮加入用戶認(rèn)證和證書認(rèn)證础锐,上述方式不支持
    • (b)嗓节、hive定義表結(jié)構(gòu)的時(shí)候字段類型映射必須與es匹配,而當(dāng)es文檔type有字段類型變更之后皆警,hive無法很好的識別拦宣,這就會hive報(bào)類似類型轉(zhuǎn)換的錯(cuò)
  2. es提供了兩種java api用來操作es
    es的官方api地址:https://www.elastic.co/guide/en/elasticsearch/client/index.html

    • (a)、transport接口即為TCP連接
      因?yàn)榧鹤隽擞脩粽J(rèn)證和證書認(rèn)證信姓,采用如下方式連接es鸵隧,遺憾的是一直連不上
      因?yàn)闀r(shí)間問題,暫時(shí)沒解決這個(gè)問題意推,希望有同學(xué)有空能幫忙解決豆瘫,謝謝了

Exception in thread "main" NoNodeAvailableException[None of the configured nodes are available: [{#transport#-1}{3HUrRF8JQGCz_TlwhQOFiA}{10.17.2.79}{10.17.2.79:9305}]]

Settings settings = Settings.builder()
                .put("cluster.name", esDataToText.cluster)
                .put("xpack.security.user", esDataToText.userPw)
                .put("xpack.ssl.key", esDataToText.keyPath)
                .put("xpack.ssl.certificate", esDataToText.crtPath)
                .put("xpack.ssl.certificate_authorities", esDataToText.cacrtPath)
                .put("xpack.security.transport.ssl.enabled", true)
                .put("client.transport.ping_timeout", "100s")
                .build();
        try {
            TransportClient client = new PreBuiltXPackTransportClient(settings)
                    .addTransportAddress(new InetSocketTransportAddress(InetAddress.getByName(esDataToText.urls), esDataToText.port));
            SearchResponse response = client.prepareSearch("ndf.dlp")
                    .setQuery(QueryBuilders.matchAllQuery())
                    .execute().actionGet();
            SearchHits resultHits = response.getHits();
            Long result_cnt = resultHits.totalHits;
            logger.info("數(shù)據(jù)量為:" + result_cnt);
        } catch (UnknownHostException e) {
            e.printStackTrace();
        }
  • (b)、rest接口訪問es即為http接口
    這種方式以http接口的形式訪問菊值,因?yàn)閑s集群是采用ssl認(rèn)證外驱,所以我們先進(jìn)行認(rèn)證
    • (1) 將證書文件合成jks文件,es官網(wǎng)API是操作KeyStore
      keytool -import -v -trustcacerts -file niudingfeng.crt -keystore my_keystore.jks -keypass password -storepass password
    • (2) 用戶密碼驗(yàn)證以及https認(rèn)證
        //用戶密碼驗(yàn)證
        final CredentialsProvider credentialsProvider = new BasicCredentialsProvider();
        credentialsProvider.setCredentials(AuthScope.ANY,
                new UsernamePasswordCredentials("bigdata", "123456qwerty"));

        //ssl證書驗(yàn)證
        SSLContextBuilder sslBuilder = null;
        try {
            sslBuilder = SSLContexts.custom().loadTrustMaterial(truststore, null);
        } catch (KeyStoreException e) {
            e.printStackTrace();
        }

以上為認(rèn)證代碼

  • (3) 連接es獲取數(shù)據(jù)
    注意:http接口默認(rèn)返回十條數(shù)據(jù)腻窒,如需要返回更多則需要制定from size
    因?yàn)閑s版本問題昵宇,無法用到官方j(luò)ava high level rest client,最低版本要求為5.6,故不推薦使用這種方式
RestClient restClient = RestClient.builder(new HttpHost("testelk002.niudingfeng.com", 9205, "https"))
                .setHttpClientConfigCallback(new RestClientBuilder.HttpClientConfigCallback() {
                    @Override
                    public HttpAsyncClientBuilder customizeHttpClient(HttpAsyncClientBuilder httpClientBuilder) {
                        return httpClientBuilder.setSSLContext(sslContext).setDefaultCredentialsProvider(credentialsProvider);
                    }
                })
                .build();
        Response response = null;


        try {
            String method = "GET";
            String endpoint = "/ndf.dlp/_search";
            String queryStr = "{\n" +
                    "\t\t\"query\":{ \"range\": {\n" +
                    "      \t\t\t\t\t\"@timestamp\": {\n" +
                    "        \t\t\t\t\t\"gte\": \"2017-12-27\",\n" +
                    "        \t\t\t\t\t\"lte\": \"2017-12-28\"\n" +
                    "      \t\t\t\t\t\t\t}\n" +
                    "    \t\t\t\t\t\t}\n" +
                    "\t\t\t\t}\n" +
                    "}";
//            String queryStr = "{\"query\":{\"match_all\":{}}}";
            HttpEntity entity = new NStringEntity(queryStr, ContentType.APPLICATION_JSON);

            response = restClient.performRequest(method,endpoint,Collections.<String, String>emptyMap(),entity);
            String res = EntityUtils.toString(response.getEntity());
            String resFile = "D:\\java\\es\\res.txt";
            File file = new File(resFile);
            if(file.exists()){
                file.delete();
            }
            BufferedWriter bw = new BufferedWriter(new FileWriter(resFile));
            bw.write(res);
            bw.close();
            restClient.close();


            } catch (IOException e) {
                e.printStackTrace();
            }
  1. 最后我們采用Python api來實(shí)現(xiàn)

    Python查詢es也有兩種方式

  • (a)儿子、search
res = es.search(index='index_name', 
doc_type=’type_name’, body=es_query, request_timeout=999999,params={“search_type”:”query_and_fetch”}) 
 說明:search返回的結(jié)果為字典不是生成器瓦哎,和在sense上查詢返回的結(jié)果相同,信息比較全,
如果數(shù)據(jù)量大蒋譬,分頁用from size控制割岛,但是會排序,性能比較差
  • (b)犯助、helps.scan
es_client = es.Elasticsearch(
    [host],
    http_auth=(user, pswd),
    port=port,
    use_ssl=True,
    verify_certs=False,
    timeout=300)
res = helpers.scan(es_client, index=index, query=query, scroll='1m',request_timeout=999999,preserve_order=False)
說明:scan是對滿足語句的結(jié)果進(jìn)行掃描蜂桶,全部返回下來,結(jié)果為一個(gè)生成器需要解析也切,scroll為滾屏?xí)r間參數(shù)扑媚,不會進(jìn)行排序,建議使用這種方式
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末雷恃,一起剝皮案震驚了整個(gè)濱河市疆股,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌倒槐,老刑警劉巖旬痹,帶你破解...
    沈念sama閱讀 216,591評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異讨越,居然都是意外死亡两残,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,448評論 3 392
  • 文/潘曉璐 我一進(jìn)店門把跨,熙熙樓的掌柜王于貴愁眉苦臉地迎上來人弓,“玉大人,你說我怎么就攤上這事着逐〈薅模” “怎么了?”我有些...
    開封第一講書人閱讀 162,823評論 0 353
  • 文/不壞的土叔 我叫張陵耸别,是天一觀的道長健芭。 經(jīng)常有香客問我,道長秀姐,這世上最難降的妖魔是什么慈迈? 我笑而不...
    開封第一講書人閱讀 58,204評論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮省有,結(jié)果婚禮上痒留,老公的妹妹穿的比我還像新娘。我一直安慰自己锥咸,他們只是感情好狭瞎,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,228評論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著搏予,像睡著了一般熊锭。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,190評論 1 299
  • 那天碗殷,我揣著相機(jī)與錄音精绎,去河邊找鬼。 笑死锌妻,一個(gè)胖子當(dāng)著我的面吹牛代乃,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播仿粹,決...
    沈念sama閱讀 40,078評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼搁吓,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了吭历?” 一聲冷哼從身側(cè)響起堕仔,我...
    開封第一講書人閱讀 38,923評論 0 274
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎晌区,沒想到半個(gè)月后摩骨,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,334評論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡朗若,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,550評論 2 333
  • 正文 我和宋清朗相戀三年恼五,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片哭懈。...
    茶點(diǎn)故事閱讀 39,727評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡灾馒,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出银伟,到底是詐尸還是另有隱情你虹,我是刑警寧澤,帶...
    沈念sama閱讀 35,428評論 5 343
  • 正文 年R本政府宣布彤避,位于F島的核電站,受9級特大地震影響夯辖,放射性物質(zhì)發(fā)生泄漏琉预。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,022評論 3 326
  • 文/蒙蒙 一蒿褂、第九天 我趴在偏房一處隱蔽的房頂上張望圆米。 院中可真熱鬧,春花似錦啄栓、人聲如沸娄帖。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,672評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽近速。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間削葱,已是汗流浹背奖亚。 一陣腳步聲響...
    開封第一講書人閱讀 32,826評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留析砸,地道東北人昔字。 一個(gè)月前我還...
    沈念sama閱讀 47,734評論 2 368
  • 正文 我出身青樓,卻偏偏與公主長得像首繁,于是被迫代替她去往敵國和親作郭。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,619評論 2 354

推薦閱讀更多精彩內(nèi)容