人工智能 - 專題

投稿

人工智能

收錄了118篇文章 · 27人關(guān)注

直接偏好優(yōu)化技術(shù)DPO基礎(chǔ)理論及推導
論文標題：Direct Preference Optimization: Your Language Model is Secretly a R...

0.1 酷酷的群 0 1
自適應視圖增強的謠言檢測圖對比學習方法
論文標題：Propagation Tree Is Not Deep: Adaptive Graph Contrastive Learning A...

酷酷的群 0 0

生成式大模型的RLHF技術(shù)（一）：基礎(chǔ)
一、概述大語言模型（LLMs）在預訓練的過程中通常會捕捉數(shù)據(jù)的特征额港，而這些訓練數(shù)據(jù)通常既包含高質(zhì)量的也包含低質(zhì)量的蒿涎，因此模型有時會產(chǎn)生不被期望...

0.1 酷酷的群 0 1
LoRA：大模型下游任務的低秩適應
論文標題：LoRA: Low-Rank Adaptation of Large Language Models論文鏈接：https://arxi...

0.1 酷酷的群 0 1
Megatron-LM：Transformer模型專用分布式張量模型并行方法
論文標題：Megatron-LM: Training Multi-Billion Parameter Language Models Using...

酷酷的群 0 1
思維樹：大模型的復雜推理技術(shù)
論文標題：Tree of Thoughts: Deliberate Problem Solving with Large Language Mo...

0.1 酷酷的群 0 1
LIMA：小規(guī)模監(jiān)督數(shù)據(jù)指令微調(diào)
論文標題：LIMA: Less Is More for Alignment論文鏈接：https://arxiv.org/abs/2305.112...

0.1 酷酷的群 0 1

語言模型的自洽性思維鏈推理技術(shù)
論文標題：Self-Consistency Improves Chain of Thought Reasoning in Language Mo...

酷酷的群 0 1
GPipe：微批量流水線并行
論文標題：GPipe: Easy Scaling with Micro-Batch Pipeline Parallelism論文鏈接：https...

0.5 酷酷的群 0 2
InstructGPT：語言模型的人類反饋指令對齊
論文標題：Training language models to follow instructions with human feedback...

酷酷的群 0 2