躺不平的NLPer

IP屬地：浙江

ReFT論文淺讀
ReFT: Reasoning with Reinforced Fine-Tuning[https://arxiv.org/abs/2401.0...

29 0 0
DeepSeekMath論文淺讀(GRPO)
Group Relative Policy Optimization(GRPO) ，從DeepSeekMath[https://arxiv.or...

755 0 0

PPO（Proximal Policy Optimization）
PPO（Proximal Policy Optimization）是一種廣泛使用的強(qiáng)化學(xué)習(xí)算法，它通過優(yōu)化策略來訓(xùn)練智能體，旨在提升訓(xùn)練過程的穩(wěn)...

213 0 0
spacy安裝和使用
spacy是一個python的自然語言處理的包娜汁，可以做詞性分析枣宫、命名實(shí)體識別珠月、依賴關(guān)系刻畫懈费，embedding的計(jì)算以及可視化。直接清華源安裝...

28 0 0
rStar論文淺讀
來自：Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvers[https://...

29 0 0
位置編碼（Positional Encoding）
在大語言模型（LLM）中著榴，位置編碼（Positional Encoding）是用于表示輸入序列中詞匯或標(biāo)記相對位置的技術(shù)添履。由于Transform...

139 0 0
Linux cuda-toolkit安裝
查看系統(tǒng)信息下載工具包下載地址： https://developer.nvidia.com/cuda-toolkit-archive[htt...

69 0 0

Linux教程命令行運(yùn)行clash
clash (meta) 下載安裝包 linux x64下載 curl https://d2.duckgogo.net/mihomo/mihom...

1842 0 0
Python改變字符顏色
打印有顏色的字符串只改變顏色，不打印

60 0 0