頭條
DeepMind 與 YouTube 合作開發(fā)合成音樂
https://deepmind.google/discover/blog/transforming-the-future-of-music-creation
DeepMind 多年來一直致力于音樂合成漾峡,現(xiàn)在剛剛發(fā)布了一個強大的新系統(tǒng)醋拧。 有趣的是麻掸,大部分增長來自于收入共享的數(shù)據(jù)合作伙伴關(guān)系。 這意味著它對藝術(shù)家的音樂進行訓(xùn)練博烂,以獲得更好的表演模型,同時確保藝術(shù)家得到補償。 該模型將以多種形式提供胀莹,其中之一是通過 YouTube Shorts Studio 提供绰更。
Meta 宣布視頻編輯和創(chuàng)建模型
https://ai.meta.com/blog/emu-text-to-video-Generation-image-editing-research
通常瞧挤,當人們使用生成模型生成輸出圖像時,它并不完全是人們想要的儡湾。 然而特恬,使用相同模型編輯該圖像極具挑戰(zhàn)性。 Meta 有一個重要的見解徐钠,即將所有g(shù)enerations 都視為指令癌刽,從而使編輯功能得以出現(xiàn)。 這與模型架構(gòu)的新的簡單性相結(jié)合丹皱,是向前邁出的相當好的一步妒穴。
微軟推出 Deepfake Creator
https://techcrunch.com/2023/11/15/microsoft-launches-a-deepfakes-creator
微軟在 Microsoft Ignite 2023 活動上推出了 Azure AI Speech 文本轉(zhuǎn)語音頭像,允許用戶創(chuàng)建逼真的頭像摊崭,可以使用文本轉(zhuǎn)語音技術(shù)以各種語言說出腳本文本讼油。
研究
大型文檔的句子對齊
https://arxiv.org/abs/2311.08982v1
SentAlign 是一種用于在大型并行文檔中對齊句子的新工具,能夠有效處理數(shù)千到數(shù)萬個句子呢簸。
用新方法改進視頻問答
https://arxiv.org/abs/2310.15747v1
研究人員發(fā)現(xiàn)矮台,大型語言模型有時會因過于依賴語言而忽略實際視頻內(nèi)容而在視頻問答(VideoQA)中出現(xiàn)錯誤乏屯。 為了解決這個問題,研究人員引入了一種名為 Flipped-VQA 的新方法瘦赫,該方法使這些模型更好地理解視頻辰晕、問題和答案之間的關(guān)系,從而獲得更準確的結(jié)果确虱。
理解學(xué)生行為的數(shù)據(jù)集
https://arxiv.org/abs/2310.16267v1
研究人員擴展了 SCB-ST-Dataset4含友,該數(shù)據(jù)集捕獲了舉手、閱讀和寫作等活動校辩,以便利用深度學(xué)習(xí)更好地理解和檢測學(xué)生的課堂行為窘问。
工程
深入探討:生產(chǎn) LLM 開發(fā)人員指南
https://buildingaistuff.com/p/the-developers-guide-to-product
使用語言模型構(gòu)建工具是一門新興的工程學(xué)科,涵蓋高性能計算宜咒、GPU 編排和監(jiān)控惠赫。
使用純 Pytorch 加速分段
https://pytorch.org/blog/acceleating-generative-ai
我們可以通過使用 Torch 編譯、Sparsity故黑、Triton 的客戶內(nèi)核以及許多其他 PyTorch 性能功能將 Segment Anything 加速 8 倍儿咱。
AI 漏洞利用 (GitHub 存儲庫)
https://github.com/protectai/ai-exploits
針對負責(zé)任地披露的漏洞的真實世界 AI/ML 漏洞利用的集合。
雜七雜八
音樂控制網(wǎng)
https://musiccontrolnet.github.io/web
ControlNet 是一種對圖像合成模型進行細粒度控制的新穎方法场晶。 現(xiàn)在有一個有點類似的音樂生成模型混埠,可以讓人們控制語音和音調(diào)等許多功能。
人工智能民主化有一個模型
https://www.programmablemutter.com/p/theres-a-model-for-making-ai-democratic
OpenAI 呼吁在人工智能決策中實施民主程序的提案似乎具有限制性峰搪,并且似乎更傾向于在不承擔責(zé)任的情況下處理敏感的政治問題岔冀,這可能會限制人工智能治理中民主的范圍和有效性。
Copilot 是一種現(xiàn)有的商業(yè)模式
https://matt-rickard.com/copilot-is-an-incumbent-business-model
Copilot AI 商業(yè)模式增強了現(xiàn)有工作流程以提高效率概耻,而無需創(chuàng)造新市場或擾亂低端市場使套,但其真正的顛覆性潛力在于重新構(gòu)想工作流程,這一挑戰(zhàn)可以釋放更大的市場機會鞠柄。
谷歌正在將聽不見的水印嵌入到其人工智能生成的音樂中
https://www.theverge.com/2023/11/16/23963607/google-deepmind-synthid-audio-watermarks
谷歌 DeepMind 的 AI Lyria 模型將使用 SynthID 為使用其技術(shù)生成的音軌添加水印侦高,使它們可以被識別為 AI 創(chuàng)建的,而不會影響聆聽體驗厌杜,即使在壓縮或其他修改之后也是如此奉呛。
GPT-4 Turbo Note Taker(新產(chǎn)品)
https://tactiq.io/ai-tools/gpt4-note-taker
讓 AI 使用 GPT-4 Turbo 自動化人們的會議記錄。