1. 為了確定文件的字符編碼,我們使用一個(gè)名為 “file” 的命令行工具腋妙。因?yàn)?file 命令是一個(gè)標(biāo)準(zhǔn)的 UNIX 程序际歼,所以我們可以在所有...
在Python操作的時(shí)候茬射,沒有輸入Python命令進(jìn)入到Python命令操作界面 而是直接在Terminal下面直接輸入import導(dǎo)致鼠標(biāo)被鎖...
2022-03-08 女生節(jié)折晦,下午放半天假货抄,我開完會(huì)后教沾,大概3點(diǎn)半左右 出去溜達(dá)蒲跨。感受最深刻的就是 自由職業(yè)真好,工作日不上班真好授翻,一個(gè)人放空真...
make plan and execute the plan! 2021年 my plan 早起 6點(diǎn)起床-8點(diǎn)讀書完畢(1. 聽英語或悲,講英語,...
一. Transformer 模型火爆原因: 1. 模型簡(jiǎn)單易懂. encoder 和decoder 模塊高度相似且相通. 2. encoder...
本文參考pytorch官方文檔https://pytorch-cn.readthedocs.io/zh/latest/notes/extendi...
Attention: 把注意力集中放在重要的點(diǎn)上, 而忽略不重要的因素. 其中重要成都取決于應(yīng)用場(chǎng)景. 1. 為什么要用Attention機(jī)制?...
一 前言 從現(xiàn)在的大趨勢(shì)來看堪唐,使用某種模型預(yù)訓(xùn)練一個(gè)語言模型看起來是一種比較靠譜的方法巡语。從之前AI2的 ELMo,到 OpenAI的fine-t...
hidden_init hidden_repackaged(detach) model loss_fn(output淮菠,target) loss....