強(qiáng)化學(xué)習(xí)筆記(2)-- 馬爾科夫決策過(guò)程

目錄:

  1. 馬爾科夫過(guò)程
  2. 馬爾科夫獎(jiǎng)勵(lì)過(guò)程
  3. 馬爾科夫決策過(guò)程
  4. MDPs的拓展

1.馬爾科夫過(guò)程

Markov decision processes formally describe an environment for reinforcement learning, where the environment is fully ovservable.

大部分的RL問(wèn)題都能用MDPs來(lái)描述

  • 最優(yōu)控制問(wèn)題可以描述成連續(xù)MDPs
  • 部分觀測(cè)環(huán)境可以轉(zhuǎn)化成POMDPs
  • 賭博機(jī)問(wèn)題是只有一個(gè)狀態(tài)的MDPs

1.1 馬爾科夫性質(zhì)(Markov Property)

"The future is independent of the past given the present".

下個(gè)狀態(tài)只與當(dāng)前狀態(tài)有關(guān),跟更前面的狀態(tài)無(wú)關(guān)。
定義:

如果在t時(shí)刻的狀態(tài)S_t滿(mǎn)足如下燈飾泽谨,那么這個(gè)狀態(tài)被稱(chēng)為馬爾科夫狀態(tài),或者說(shuō)該狀態(tài)滿(mǎn)足馬爾科夫性
A state S_t is Markov if and only if
\mathbb{P}[S_{t+1} | S_t] = \mathbb{P}[S_{t+1} | S_1,...,S_t]

  • 狀態(tài)S_t包含了所有歷史相關(guān)信息筒捺,所以無(wú)需再去了解之前的S_1,...,S_{t-1}
  • 數(shù)學(xué)上可以認(rèn)為坯门,當(dāng)前狀態(tài)是將來(lái)的充分統(tǒng)計(jì)量
    所以,這里要求環(huán)境全觀測(cè)
    舉例:
  • 下棋時(shí)颅眶,只用關(guān)心當(dāng)前局面(直接解殘局油讯,不需要)
  • 打俄羅斯方塊時(shí)详民,只用關(guān)心當(dāng)前屏幕

有了馬爾科夫狀態(tài)之后延欠,我們可以

  • 定義狀態(tài)轉(zhuǎn)移矩陣
  • 忽略時(shí)間的影響
    PS:馬爾科夫性和狀態(tài)的定義息息相關(guān)

1.2狀態(tài)轉(zhuǎn)移矩陣(State Transition Matrix)

狀態(tài)轉(zhuǎn)移概率只從一個(gè)馬爾科夫狀態(tài)s跳轉(zhuǎn)到后繼狀態(tài)s'的概率
For a Markov state s and successor states', the state transition probability is defined by
\mathcal{P}_{ss'} = \mathbb{P}[S_{t+1} = s' | S_t = s]

所有的狀態(tài)組成行,所有的后繼狀態(tài)(successor)組成列阐斜,我們就可以得到狀態(tài)轉(zhuǎn)移矩陣
\left[ \begin{matrix} P_{11} & \cdots & P_{1n} \\ \vdots & \ddots & \vdots \\ P_{n1} & \cdots & P_{nn} \\ \end{matrix} \right]

  • n表示狀態(tài)的個(gè)數(shù)
  • 每行元素相加等于1

當(dāng)然如果狀態(tài)太多衫冻,或者是無(wú)窮大(連續(xù)狀態(tài))時(shí),更適合用狀態(tài)轉(zhuǎn)移函數(shù)谒出,
P(s'|s) = \mathbb{P}[S_{t+1} = s' | S_t = s]

此時(shí)隅俘,\int_{s'}P(s'|s) = 1\sum_{s'}P(s'|s) = 1

重要的事情說(shuō)三遍:
轉(zhuǎn)移矩陣在MDP中被認(rèn)為是環(huán)境的一部分!s栽为居!
轉(zhuǎn)移矩陣在MDP中被認(rèn)為是環(huán)境的一部分!I苯啤蒙畴!
轉(zhuǎn)移矩陣在MDP中被認(rèn)為是環(huán)境的一部分!N叵蟆膳凝!

1.3 馬爾科夫過(guò)程

A Markov Process(or Markov Chain) is a memoryless random process, i.e. a sequence of random state S_1,S_2,... with the Markov property
馬爾科夫過(guò)程可以由一個(gè)二元組來(lái)定義<S, P>
S代表了狀態(tài)的集合
P描述了狀態(tài)轉(zhuǎn)移矩陣

P_{ss'} = \mathbb{P}[S_{t+1} = s' | S_t = s]

我們有時(shí)候并一定知道P的具體值,但是通常我們假設(shè)P存在且穩(wěn)定(即恭陡,從s轉(zhuǎn)移到s'的概率任何時(shí)候都是一樣的)

PS:當(dāng)P不穩(wěn)定時(shí)蹬音,不穩(wěn)定環(huán)境,在線(xiàn)學(xué)習(xí)休玩,快速學(xué)習(xí)

Student Markov Chain Transition Matrix

  • 橢圓:普通狀態(tài)
  • 有向線(xiàn):從這個(gè)狀態(tài)跳轉(zhuǎn)到另一個(gè)狀態(tài)的概率
  • 方塊:表示終止?fàn)顟B(tài)

1.4 片段(episode)

定義

episode = one a sequence of states, actions and rewards, which ends with terminal state
強(qiáng)化學(xué)習(xí)中著淆,從初始狀態(tài)S_1到最終狀態(tài)的序列過(guò)程,被稱(chēng)為一個(gè)片段(episode)
S_1,S_2,..,S_T

  • 如果一個(gè)任務(wù)總以終止?fàn)顟B(tài)結(jié)束拴疤,那么這個(gè)任務(wù)被稱(chēng)為片段任務(wù)(episodic task).
  • 如果一個(gè)任務(wù)沒(méi)有終止?fàn)顟B(tài)永部,會(huì)被無(wú)線(xiàn)執(zhí)行下去,則被稱(chēng)為連續(xù)性任務(wù)(continuing task).
    episodes example

2.馬爾科夫獎(jiǎng)勵(lì)過(guò)程(Markov reward process)

A Markov reward process is a Markov chain with values.
馬爾可夫過(guò)程主要描述的是狀態(tài)之間的轉(zhuǎn)移關(guān)系呐矾,在這個(gè)轉(zhuǎn)移關(guān)系上 賦予不同的獎(jiǎng)勵(lì)值即得到了馬爾可夫獎(jiǎng)勵(lì)過(guò)程苔埋。

馬爾科夫獎(jiǎng)勵(lì)過(guò)程有一個(gè)四元組組成<\mathcal{S},\mathcal{P},\mathcal{R},\gamma>
\mathcal{S}代表了狀態(tài)的集合
\mathcal{P}描述了狀態(tài)轉(zhuǎn)移矩陣
\mathcal{R}表示獎(jiǎng)勵(lì)函數(shù),R(s)描述了在狀態(tài)s的獎(jiǎng)勵(lì).
\mathcal{R}(s) = \mathbb{E}[R_{t+1} | S_t = s]
\gamma \in [0,1]蜒犯, 表示衰減因子

敲黑板W殚稀!
注意區(qū)別\mathcal{R}\text{和}R\text{的區(qū)別}
R:在t+1時(shí)刻愧薛,所獲得的隨機(jī)變量的值
\mathcal{R}:一個(gè)函數(shù)

Student MRP

2.1 回報(bào)值

  • 獎(jiǎng)勵(lì)值:對(duì)每一個(gè)狀態(tài)的評(píng)價(jià)
  • 回報(bào)值:對(duì)每一個(gè)片段的評(píng)價(jià)

定義
回報(bào)值(return G_t)是從時(shí)間t處開(kāi)始的累計(jì)衰減獎(jiǎng)勵(lì)
對(duì)于片段任務(wù):
G_t = R_{t+1} + \gamma*R_{t+2} + ... + \gamma^{T-t-1}*R_{T} = \sum^{T-t-1}_{k=0} \gamma^k*R_{t+k+1}
對(duì)于連續(xù)性任務(wù):
G_t = R_{t+1} + \gamma*R_{t+2} + ... = \sum^{\infty}_{k=0} \gamma^k*R_{t+k+1}

2.2 再聊片段


可以這么理解,終止?fàn)顟B(tài)等價(jià)于自身轉(zhuǎn)移概率為1衫画,獎(jiǎng)勵(lì)為0的一個(gè)狀態(tài)毫炉。
因此,我們可以能夠?qū)⑵涡匀蝿?wù)和連續(xù)性任務(wù)進(jìn)行統(tǒng)一表達(dá)
G_t = \sum^{T-t-1}_{k=0} \gamma^k*R_{t+k+1}

當(dāng)
T = \infty
時(shí)削罩,表示連續(xù)性任務(wù)瞄勾,否則為片段性任務(wù)

2.3 再聊衰減值

為什么我們要使用這樣的指數(shù)衰減值费奸?

  • 直觀感受

    1. 影響未來(lái)的因素不僅僅包含當(dāng)前
    2. 我們對(duì)未來(lái)的把我也是逐漸衰減的
    3. 一般情況下,我們更關(guān)注短時(shí)間的反饋
  • 數(shù)學(xué)便利

    1. 一個(gè)參數(shù)就描述了整個(gè)衰減過(guò)程进陡,只需要調(diào)節(jié)這一個(gè)參數(shù) γ 即可以調(diào)節(jié)長(zhǎng)時(shí)獎(jiǎng)勵(lì)和短時(shí)獎(jiǎng)勵(lì)的權(quán)衡 (trade-off)
    2. 指數(shù)衰減形式又很容易進(jìn)行數(shù)學(xué)分析
    3. 指數(shù)衰減是對(duì)回報(bào)值的有界保證愿阐,避免了循環(huán) MRP 和連續(xù)性 MRP 情況下回報(bào)值變成無(wú)窮

2.4 回報(bào)值vs值函數(shù)

  • 回報(bào)值: the discounted sum of rewards in one whole episode(一次片段的結(jié)果, 每次都不同趾疚,存在很大的樣本偏差)
  • 值函數(shù): the expected discounted sum of rewards from a certain state/ an expectation over all possible episodes and can start from any state(關(guān)注的是狀態(tài)s)

The state value function v(s) of an MRP is the expected return starting from state s
v(s) = \mathbb{E}[G_t | S_t = s]

回報(bào)值的計(jì)算過(guò)程很簡(jiǎn)單


2.4.1MRP中的貝爾曼方程(Bellman Equation)

值函數(shù)的表達(dá)式可以分解成兩部分:

  1. 瞬時(shí)獎(jiǎng)勵(lì)(immediate reward)R_{t+1}
  2. 后繼狀態(tài)S_{t+1}的值函數(shù)乘上一個(gè)衰減系數(shù)
    下面是推導(dǎo)過(guò)程:
    \begin{equation} \begin{aligned} v(s) &= \mathbb{E}[G_t|S_t = s]\\ &= \mathbb{E}[R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... |S_t = s]\\&= \mathbb{E}[R_{t+1} + \gamma (R_{t+2} + \gamma R_{t+3} + ... )|S_t = s] \\&=\mathbb{E}[R_{t+1} + \gamma G_{t+1} | S_t = s] \\&\text{求和的期望等價(jià)于求期望的和}\\&R_{t+1} \text{的期望仍是} R_{t+1} \\&G_{t+1}\text{的期望就是}v(S_{t+1})\\&= \mathbb{E}[R_{t+1} + \gamma v(S_{t+1})|S_t = s] \end{aligned} \end{equation}
    體現(xiàn)了v(s)v(S_{t+1})之間的迭代關(guān)系

2.4.2 解貝爾曼方程

矩陣-向量形式表達(dá)貝爾曼方程
v = \mathcal{R} + \gamma \mathcal{P}v
假設(shè)狀態(tài)集合為\mathcal{S} = {s_1,s_2,...,s_n}缨历,那么
\left[\begin{matrix} v(s_1) \\ \vdots \\ v(s_n)\end{matrix}\right] = \left[\begin{matrix} \mathcal{R}(s_1) \\ \vdots \\ \mathcal{R}(s_n)\end{matrix}\right] + \gamma\left[ \begin{matrix} P_{11} & \cdots & P_{1n} \\ \vdots & \ddots & \vdots \\ P_{n1} & \cdots & P_{nn} \\ \end{matrix} \right] \left[\begin{matrix} v(s_1) \\ \vdots \\ v(s_n)\end{matrix}\right]

貝爾曼方程本質(zhì)上是一個(gè)線(xiàn)性方程,可以直接解
\begin{equation} \begin{aligned} v &= \mathcal{R} + \gamma \mathcal{P}v \\ (I - \gamma \mathcal{P})v &= \mathcal{R} \\v &=(I - \gamma \mathcal{P})^{-1} \mathcal{R} \end{aligned} \end{equation}

  • Computational complexity is O(n^3) for n states.
  • State Transition Matrix\mathcal{P} is required.
  • Direct solution only possible for small MRPs.
  • There are many iterative methods for large MRPs, e.g:
    1. Dynamic programming
    2. Monte-Carlo evaluation
    3. Temporal-Difference learning

3.馬爾科夫決策過(guò)程

我們把動(dòng)作(Action)引入到MRPs中糙麦,就得到了馬爾可夫決策過(guò)程(Markov Decision Processes, MDPs)

一個(gè)馬爾科夫決策過(guò)程(MDPs)由一個(gè)五元組構(gòu)成<\mathcal{S}, \mathcal{A}, \mathcal{P}, \mathcal{R}, \gamma>
\mathcal{S}代表了狀態(tài)的集合
\mathcal{A}代表了動(dòng)作的集合
\mathcal{P}描述了狀態(tài)轉(zhuǎn)移矩陣 \mathcal{P}^a_{ss'} = \mathbb{P}[\mathcal{S}_{t+1} = s' | S_t = s, A_t = a]
\mathcal{R}表示獎(jiǎng)勵(lì)函數(shù)辛孵,\mathcal{R}(s,a)描述了在狀態(tài)s做動(dòng)作a的獎(jiǎng)勵(lì)\mathcal{R}(s,a) = \mathbb{E}[\mathcal{R}_{t+1} | \mathcal{S}_t = s, \mathcal{A}_t = a]
\gamma \in [0,1], 表示衰減因子

3.1 策略(Policy)

A policy \pi is a distribution over actions given states. 在MDPs中赡磅,一個(gè)策略\pi是在給定狀態(tài)下得動(dòng)作的概率分布
\pi(a|s) = \mathbb{P}[A_t = a | S_t = s]

  • 策略是對(duì)智能體行為的全部描述(智能體能夠控制的是策略)
  • MDPs中的策略是基于馬爾科夫狀態(tài)的(而不是基于歷史)
  • 策略是時(shí)間穩(wěn)定的魄缚,只與s有關(guān),與時(shí)間t無(wú)關(guān)
  • 策略的概率分布輸出都是獨(dú)熱的(one-hot)焚廊,那么成為確定性策略冶匹,否則即為隨機(jī)策略

3.2 MDPs和MRPs之間的關(guān)系

對(duì)于一個(gè)MDP問(wèn)題<\mathcal{S}, \mathcal{A}, \mathcal{P}, \mathcal{R}, \gamma>,如果給定了策略\pi, MDP將會(huì)退化成MRP<\mathcal{S}, \mathcal{P}^{\pi}, \mathcal{R}^{\pi}, \gamma>
此時(shí)咆瘟,
\mathcal{P}^{\pi} = \sum_{a \in \mathcal{A}} \pi(a|s)\mathcal{P}^a_{ss'}
\mathcal{R}^{\pi}_s = \sum_{a \in \mathcal{A}} \pi(a|s)\mathcal{R}^a_{s}

3.3 值函數(shù)

在MDPs問(wèn)題中嚼隘,由于動(dòng)作的引入,值函數(shù)分為了兩種:

  1. 狀態(tài)值函數(shù)(V函數(shù))
  2. 狀態(tài)動(dòng)作值函數(shù) (Q函數(shù))

V函數(shù)
MDPs中的狀態(tài)值函數(shù)是從狀態(tài)s開(kāi)始搞疗,使用策略\pi得到的期望回報(bào)值
v_{\pi}(s)=\mathbb{E}_{\pi}[G_t | S_t = s]

Q函數(shù)
MDPs中的狀態(tài)動(dòng)作值函數(shù)是從狀態(tài)s開(kāi)始嗓蘑,執(zhí)行動(dòng)作a,然后使用策略\pi得到的期望回報(bào)值
q_{\pi}(s,a) = \mathbb{E}_{\pi}[G_t | S_t = s, A_t = a]

Q函數(shù)中匿乃,之所以強(qiáng)調(diào)“然后”的意思是桩皿, 在狀態(tài)s下,智能體的動(dòng)作a是隨機(jī)選擇的(不一定按策略來(lái))幢炸,之后的動(dòng)作才是按策略來(lái)做選擇泄隔。

MDPs中,任何不說(shuō)明策略\pi的情況下宛徊,討論值函數(shù)都是在耍流氓佛嬉!

3.4 貝爾曼方程

和MRP相似,MDPs中的值函數(shù)也能分解成瞬時(shí)獎(jiǎng)勵(lì)后繼狀態(tài)的值函數(shù)兩部分
狀態(tài)值函數(shù)
v_{\pi}(s) = \mathbb{E}_{\pi}[R_{t+1} + \gamma v_{\pi}(S_{t+1}) | S_t = s]
狀態(tài)動(dòng)作值函數(shù)
q_{\pi}(s) = \mathbb{E}_{\pi}[R_{t+1} + \gamma q_{\pi}(S_{t+1}, A_{t+1}) | S_t = s, A_t = a]


其中空心節(jié)點(diǎn)代表了state闸天,實(shí)心點(diǎn)代表了state-action pair暖呕,從根節(jié)點(diǎn)
s
出發(fā),它在policy
\pi
以一定概率選擇圖中action
a
苞氮,然后environment會(huì)做出反饋以概率
p
達(dá)到下一個(gè)state
s'
以及對(duì)應(yīng)的reward湾揽,再對(duì)每一種可能求和,就得到了Bellman equation。

3.4.1 V函數(shù)與Q函數(shù)之間的相互轉(zhuǎn)化

Q轉(zhuǎn)V

這個(gè)本質(zhì)上是全概率

V轉(zhuǎn)Q
貝爾曼期望方程-V函數(shù)

貝爾曼期望方程-Q函數(shù)

貝爾曼方程矩陣形式
MDPs 下的貝爾曼期望方程和 MRP 的形式相同
v_{\pi} = \mathcal{R}^{\pi} + \gamma \mathcal{P}^{\pi}v_{\pi}

同樣地库物,可以直接求解
v_{\pi} = (I -\gamma \mathcal{P}^{\pi})^{-1} \mathcal{R}^{\pi}

求解要求:

  • 已知策略\pi(a|s)
  • 已知狀態(tài)轉(zhuǎn)移矩陣\mathcal{P}^{a}_{ss'}

3.5 最優(yōu)值函數(shù)

之前值函數(shù)霸旗,以及貝爾曼期望方程針對(duì)的都是給定策略\pi的情況,是一個(gè)評(píng)價(jià)問(wèn)題戚揭。
現(xiàn)在我們來(lái)考慮強(qiáng)化學(xué)習(xí)中的優(yōu)化問(wèn)題(找出最好的策略)

最優(yōu)質(zhì)函數(shù)值得是在所有策略中的值函數(shù)最大值诱告,其中包括最優(yōu)V函數(shù)和最優(yōu)Q函數(shù)
v_{*}(s) = \max_{\pi} v_{\pi}(s)
q_{*}(s,a) = \max_{\pi} q_{\pi}(s,a)

最優(yōu)值函數(shù)值的是一個(gè)MDP中所能達(dá)到的最佳性能

3.6 最優(yōu)策略

為了比較不同策略的好壞,我們首先應(yīng)該定義策略的比較關(guān)系

\pi \geq \pi' if v_{\pi}(s) \geq v_{\pi'}(s), \forall{s}

對(duì)于任何MDPs問(wèn)題

  • 總存在一個(gè)策略 \pi_? 要好于或等于其他所有的策略\pi_? \geq \pi, \forall\pi
  • 所有的最優(yōu)策略都能夠?qū)崿F(xiàn)最優(yōu)的 V 函數(shù) v_{\pi_?} = v_*(s)
  • 所有的最優(yōu)策略都能夠?qū)崿F(xiàn)最優(yōu)的 Q 函數(shù) q_{\pi_?} = q_*(s,a)

怎么得到最優(yōu)策略民晒?

  • 已知 q_*
    當(dāng)我們已知了最優(yōu) Q 函數(shù)后精居,我們能夠馬上求出最優(yōu)策略,只要根據(jù) q_?(s, a) 選擇相應(yīng)的動(dòng)作即可

\pi_*(a|s) = \begin{equation} \begin{aligned} \left\{ \begin{array}{**lr**} 1, if \ a = \arg\max_{a \in \mathcal{A}}q_*(s,a) \\ 0, otherwise \end{array} \right. \end{aligned} \end{equation}

可以看出對(duì)于任何MDPs問(wèn)題镀虐,總存在一個(gè)確定性的最優(yōu)策略箱蟆。

  • 已知 v_*
    為了求解最優(yōu)策略,只需要做一步搜索就行刮便。也就是在s對(duì)于不同的a \in \mathcal{A}(s)空猜,計(jì)算\sum_{s',r}p(s',r|s,a)[r + \gamma v_*(s')],獲得最大值對(duì)應(yīng)的a就是我們的最優(yōu)策略

同樣地恨旱,v_*(s)q_*(s,q)也存在遞歸的關(guān)系辈毯,也可以相互轉(zhuǎn)換

最優(yōu)v函數(shù)轉(zhuǎn)最優(yōu)q函數(shù)

最優(yōu)q函數(shù)轉(zhuǎn)最優(yōu)v函數(shù)

同樣根據(jù)上面的兩個(gè)圖,我們可以推導(dǎo)出:


貝爾曼最優(yōu)方程——V函數(shù)
貝爾曼最優(yōu)方程——Q函數(shù)
  • 貝爾曼最優(yōu)方程本質(zhì)上就是利用了\pi_{*}的特點(diǎn)搜贤,將其期望的算子轉(zhuǎn)化成了max
  • 在貝爾曼期望方程中谆沃, \pi是已知的,而在貝爾曼最有方程仪芒, \pi_{*}是未知的
  • 解貝爾曼期望方程的過(guò)程即對(duì)應(yīng)了評(píng)價(jià)唁影,解貝爾曼最優(yōu)方程的過(guò) 程即對(duì)應(yīng)了優(yōu)化

貝爾曼最優(yōu)方程是非線(xiàn)性的,一般很難有閉式的解(closed-form solution)掂名,可以使用迭代優(yōu)化的方法去解:

  • Value Iteration
  • Policy Iteration
  • Q-learning
  • Sarsa
    ...

4.MDPs的拓展

4.1 無(wú)窮或連續(xù) MDPs

  • 動(dòng)作空間或狀態(tài)空間無(wú)限可數(shù)
  • 動(dòng)作空間或狀態(tài)空無(wú)限不可數(shù)(連續(xù))
  • 時(shí)間連續(xù)

4.2 部分可觀測(cè) MDPs(Partially observable MDPs, POMDPs)

  • 此時(shí)觀測(cè)不等于狀態(tài)O_t \neq S_t
  • POMDPs由七元組<\mathcal{S}, \mathcal{A}, \mathcal{O}, \mathcal{P}, \mathcal{R}, \mathcal{Z}, \gamma>
  • \mathcal{Z} 是觀測(cè)函數(shù)
    \mathcal{Z}^{a}_{s'o} = \mathbb{P} [O_{t+1} = o | S_{t+1} = s', A_{t} = a]
  • 觀測(cè)不滿(mǎn)足馬爾可夫性据沈,因此也不滿(mǎn)足貝爾曼方程
  • 狀態(tài)未知,隱馬爾科夫過(guò)程
  • 又是對(duì)于POMDPs饺蔑,最優(yōu)的策略是隨機(jī)性

4.3 無(wú)衰減 MDPs

  • 用于各態(tài)經(jīng)歷(平穩(wěn)隨機(jī)過(guò)程的一種特性)馬爾科夫決策過(guò)程
  • 存在獨(dú)立于狀態(tài)的平均獎(jiǎng)上p*{\pi}
  • 求值函數(shù)時(shí)锌介,需要減去該平均獎(jiǎng)賞,否則有可能獎(jiǎng)賞爆炸

Reference

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末猾警,一起剝皮案震驚了整個(gè)濱河市孔祸,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌发皿,老刑警劉巖崔慧,帶你破解...
    沈念sama閱讀 207,113評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異穴墅,居然都是意外死亡惶室,警方通過(guò)查閱死者的電腦和手機(jī)匣屡,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,644評(píng)論 2 381
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)拇涤,“玉大人,你說(shuō)我怎么就攤上這事誉结《焓浚” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 153,340評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵惩坑,是天一觀的道長(zhǎng)掉盅。 經(jīng)常有香客問(wèn)我,道長(zhǎng)以舒,這世上最難降的妖魔是什么趾痘? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,449評(píng)論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮蔓钟,結(jié)果婚禮上永票,老公的妹妹穿的比我還像新娘。我一直安慰自己滥沫,他們只是感情好侣集,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,445評(píng)論 5 374
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著兰绣,像睡著了一般世分。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上缀辩,一...
    開(kāi)封第一講書(shū)人閱讀 49,166評(píng)論 1 284
  • 那天臭埋,我揣著相機(jī)與錄音,去河邊找鬼臀玄。 笑死瓢阴,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的镐牺。 我是一名探鬼主播炫掐,決...
    沈念sama閱讀 38,442評(píng)論 3 401
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼睬涧!你這毒婦竟也來(lái)了募胃?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 37,105評(píng)論 0 261
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤畦浓,失蹤者是張志新(化名)和其女友劉穎痹束,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體讶请,經(jīng)...
    沈念sama閱讀 43,601評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡祷嘶,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,066評(píng)論 2 325
  • 正文 我和宋清朗相戀三年屎媳,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片论巍。...
    茶點(diǎn)故事閱讀 38,161評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡烛谊,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出嘉汰,到底是詐尸還是另有隱情丹禀,我是刑警寧澤,帶...
    沈念sama閱讀 33,792評(píng)論 4 323
  • 正文 年R本政府宣布鞋怀,位于F島的核電站双泪,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏密似。R本人自食惡果不足惜焙矛,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,351評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望残腌。 院中可真熱鬧村斟,春花似錦、人聲如沸抛猫。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,352評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)邑滨。三九已至日缨,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間掖看,已是汗流浹背匣距。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,584評(píng)論 1 261
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留哎壳,地道東北人毅待。 一個(gè)月前我還...
    沈念sama閱讀 45,618評(píng)論 2 355
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像归榕,于是被迫代替她去往敵國(guó)和親尸红。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,916評(píng)論 2 344

推薦閱讀更多精彩內(nèi)容