人工智能簡介
人工智能發(fā)展與數據量大小的關系
橫坐標為數據量种呐,縱坐標為模型的表現效果
About dataset
獲取數據的三種方法
人工標注
觀察行為數據
開源數據集&合作伙伴
數據集的常見問題
IT團隊產生的數據盡早和AI團隊溝通蔑祟,使產生的數據更符合AI的使用規(guī)范动壤,發(fā)揮更大的價值
觀點上錯誤:不是數據量大就一定能產生數據的價值
數據質量很差:garbage in garbage out eg. 數據錯誤、數據缺失、非結構化數據
專業(yè)術語
- Machine learning:機器學習-由輸入A得出輸出B的方法
- Data science:數據科學-更接近業(yè)務,通過一些數據挖掘无宿,發(fā)現貼近業(yè)務的規(guī)律
- Deep learning:深度學習-神經網絡(Neural network)含義可以互換日矫,輸入A通過一系列數學方程得到輸出B赂弓,DL相對于神經網絡只是一個更好聽的品牌
如何使你的公司擅長AI
互聯網時代:如何定義一家公司是互聯網公司-能通過互聯網業(yè)務為你賦能的公司
互聯網公司的特點:
A/B testing
快速的迭代周期
做決定的權利由CEO下放至工程師&產品經理
AI時代:公司+深度學習&人工智能并不是AI公司
AI公司是擅長使用人工智能做事情,并且把他們做的很好的公司 AI公司的特點:
策略性的數據采集(這是一個好的AI公司的關鍵)
統(tǒng)一的數據倉庫
善于捕捉將工作自動化的機會
有很多新的職位 例如MLE-機器學習工程師
如何使一個公司變成AI公司
啟動試點項目來獲得勢頭
建立人工智能團隊
提供廣泛的AI培訓(不僅僅是工程師哪轿,負責人還要包含高管盈魁,包含如何思考人工智能)
制定一個人工智能戰(zhàn)略
保證公司內部與外部的宣傳一致
What ML can and can not do
Can do
一瞬間可以完成的事情,即簡單概念窃诉,可以用監(jiān)督學習來完成
提供大量的學習數據
Can not do
需要經過思考一段時間的事情杨耙,即復雜概念 eg 寫一份市場調研報告
少量的學習數據
訓練數據集與驗證數據集類型出現不一致的情況,也會導致ML效果不理想
人類可以識別篩選出圖片中有用的信息飘痛,機器只能依靠大量的圖片從而收斂到某種信息中
Deep learning
- 神經網絡=深度學習
- 最簡單的神經網絡就是一個神經元珊膜,即一個函數公式-由輸入A得到輸出B
- 復雜神經網絡也是反應AB的映射關系
- 實際使用時,不需要考慮神經元需要計算什么宣脉,只需要給予足夠多的學習數據车柠,并且訓練一個足夠大的神經網絡,系統(tǒng)就能自動的學習出A到B的映射關系
- 神經網絡就是由大量神經元組成塑猖,每個神經元會生成一個簡單的函數竹祷,堆疊在一起可以表示極其復雜的函數,從而可以極其精準的自動的學習從輸入A到輸出B的映射(前提還是需要足夠的學習數據)