Github: GitHub - QwenLM/Qwen-VL: The official repo of Qwen-VL (通義千問-VL) chat & pretrain...

MLLM模型基本范式: 1.主要調(diào)研InternVL 2.0-40B InternVL2-40B: 總計 40.07B; Vit: 5.54B; 143.17M;LLM: ...
簡單計劃: megatron deepspeed 代碼閱讀筆記(20230925更新中) - 知乎 (zhihu.com)[https://zhuanlan.zhihu.co...
tensorboard安裝pip install tensorboard然后安裝tensorboradx~~ pip install tensorboardx~~ pytor...
Visdom的安裝很簡單,直接使用命令pip install visdom安裝即可证芭。 在安裝完成后,使用命令python -m visdom.server 在本地啟動服務(wù)器担映,...
Paper Name: FLAT: Chinese NER Using Flat-Lattice Transformer論文鏈接https://arxiv.org/pdf/2...
文檔智能理解:通用文檔預(yù)訓(xùn)練模型與數(shù)據(jù)集[https://www.sohu.com/a/434296274_787107]附錄 [1 ]LayoutLM 論文:https:/...
Pytorch通過torch.utils.data對一般常用數(shù)據(jù)加載進(jìn)行封裝废士,可以容易的實(shí)現(xiàn)多線程數(shù)據(jù)預(yù)讀和批量加載,并且torchvision已經(jīng)預(yù)先實(shí)現(xiàn)了常用圖像數(shù)據(jù)集合...
模型壓縮和加速是兩個不同的話題蝇完,有時候壓縮并不一定能帶來加速的效果.壓縮重點(diǎn)在于較少網(wǎng)絡(luò)參數(shù)量官硝,加速則側(cè)重在降低計算復(fù)雜度,提升并行能力.模型壓縮和優(yōu)化可以從主要三個層次上來...
1. Softmax loss:鼓勵目標(biāo)類別的輸出比其他要大短蜕,但是從其公式圖像上可以看出氢架,Softmax鼓勵不同類別特征分開,但是并不鼓勵分開很多朋魔,所以會出現(xiàn)如下圖情況岖研, s...
pytorch 官方api[https://pytorch-cn.readthedocs.io/zh/latest/package_references/torch-nn/#...
這一講主要介紹如何使用DataParallel使用多GPU, 1. 導(dǎo)入和參數(shù) Device device = torch.device('cuda:0' if torch....
使用torch.nn包來構(gòu)建神經(jīng)網(wǎng)絡(luò)上一講是autograd,nn包以來autograd包來定義模型并求導(dǎo)警检,一個nn.Module包含各個層和一個forward(input)...
自動求導(dǎo)機(jī)制 PyTorch 中所有神經(jīng)網(wǎng)絡(luò)的核心是 autograd 包孙援。 我們先簡單介紹一下這個包,然后訓(xùn)練第一個簡單的神經(jīng)網(wǎng)絡(luò)扇雕。autograd包為張量上的所有操作提供...
1. 以_結(jié)尾操作 2. .size()和.view()方法類似與numpy里面的.shape和.reshape() 3.以結(jié)尾的操作都會用結(jié)果替換原來變量赃磨, 例如x.cop...
GPT-1 論文 Improving Language Understanding by Generative Pre-Training(2018) GPT-2 論文 Lan...
GPT-2是基于海量數(shù)據(jù)集上訓(xùn)練的基于Transformer的巨大模型。本文探索GPT-2模型架構(gòu)洼裤,重點(diǎn)闡述其中關(guān)鍵的自注意力(self-attention)層。 Part1...