準確率97%的開源肺炎檢測模型:照搬PyTorch教程、50張圖片就完了!
最近,一名澳大利亞人工智能博士候選人在LinkedIn上發(fā)表了一篇關于新型冠狀病毒病毒的研究文章。由于其話題性和聲稱的97.5%的準確率,這篇文章迅速獲得了數(shù)萬條評論、點贊和轉(zhuǎn)發(fā)。但是,這樣的模型被拉出來,只用了50張圖片進行訓練。
一周內(nèi)建立一個準確率97%的模型。事實是什么?
此前,澳大利亞一名人工智能博士候選人宣布構建了一套深度學習模型,可以從肺部x光片中以97.5%的準確率檢測出患者是否感染了新冠肺炎病毒。因為國外疫情蔓延,醫(yī)療設施不足,所以人們對這個成績非常關注。短時間內(nèi),他們收到了數(shù)萬條評論、贊和轉(zhuǎn)發(fā)。他們還創(chuàng)建了Slack工作組,獲得了很多好評。
從目前發(fā)布的消息來看,整個項目有以下特點:一套訓練好的Python模型容器化應用代碼和一套GitHub庫,已經(jīng)翻譯成多種語言的正在開發(fā)的Web應用和正在開發(fā)的移動應用規(guī)劃藍圖,在AWS中托管這種無服務器架構的模型在營銷和贊助方面有大量的后續(xù)計劃。
而以上都是在一周內(nèi)快速完成的。隨后,Reddit用戶挑出了這個解決方案中的幾個嚴重問題,進行了整理和反駁。
只用50張圖片訓練?
首先,這些網(wǎng)絡的潛在神經(jīng)表示非常復雜,需要使用大量的訓練樣本來完成模型訓練。但是截止到提交,這個新冠肺炎測試工具只看到了50個肺部圖像。
對于這樣一個超過150層,超過2000萬個參數(shù)的網(wǎng)絡來說,如此有限的訓練樣本集顯然是可笑的。
該模型通過肺部X射線圖像來學習。
樣品有問題。
此外,樣本中可能存在巨大的數(shù)據(jù)偏差。這50張圖片并不包含相關人員是否感染病毒,只是根據(jù)新冠肺炎急性病例導致的肺部手術進行標注。除非肺部已經(jīng)被病毒破壞,否則模型根本檢測不出任何感染跡象。另外,即使肺炎的癥狀已經(jīng)出現(xiàn),如果不是急性癥狀,也無法證明這個模型的準確性。重復圖像、代碼混亂和模型問題。
最后,這個COVID模型基于流行的基準網(wǎng)絡ResNet-50。雖然后者確實是圖像識別和分類領域的常用方案,但ResNet的前期訓練一般只覆蓋日常環(huán)境中的物體。換句話說,ResNet網(wǎng)絡中的隱層更擅長識別幾何形狀和彩色圖像,而我們在x光圖像中顯然找不到這樣的模式。正因為如此,大多數(shù)醫(yī)學神經(jīng)網(wǎng)絡只能選擇從零開始構建。
對這個代碼庫的進一步觀察揭示了許多其他問題。訓練、驗證和測試數(shù)據(jù)集中存在重復圖像,訓練流程大多直接抄襲PyTorch教程,夾雜大量不必要的代碼;Hubissues也完全不可理解...
GitHub地址:https://github.com/elcronos/COVID-19項目負責人回應:我說項目不可用。
最初,當個別開發(fā)人員與項目負責人溝通并提出問題時,對方回應說:
你好,xxx,我們的成果得到了加拿大xxx研究所放射科醫(yī)生的支持和認可。
然而隨著越來越多的質(zhì)疑,項目負責人在GitHub中更新了介紹,說:
雖然這個項目的結果“看起來很有希望”,但我明確指出,這個模型還遠遠沒有,所以不應該用于診斷或任何醫(yī)療決策。這是一項正在進行的工作,我們需要有相關技能的人的幫助。我也在GitHub的資源庫中指出,我正在尋找能夠改進和收集更好數(shù)據(jù)集的開發(fā)者的幫助。
…
不幸的是,這個項目引起了相關專家的注意。他們沒有注意到模型還沒有準備好,需要更好的數(shù)據(jù)集并幫助創(chuàng)建更好的模型,也沒有閱讀我們所有的免責聲明。我指責這個項目有誤導性,甚至有人暗示我有商業(yè)意圖。這對我的個人生活造成了一些負面影響,所以我決定退一步,暫時退出社交媒體。至少接下來的幾天,我不會在這個群里活動。
完整版聲明參考:https://github.com/elcronos/COVID-19
然而,負責人仍在大力宣傳該項目,并開始籌集資金。項目負責人創(chuàng)建了一個Slack討論組,該討論組有幾個子渠道,包括一個專門用于溝通和籌款的#營銷渠道。此外,#保薦人頻道負責與潛在投資人溝通,報告其未來投資回報前景。
松弛討論組:https://app.slack.com/client/T010AJ5H31N/learning-slack
除此之外,名為#datascientists的頻道也沒有多少有用的內(nèi)容,里面全是熱情但缺乏經(jīng)驗的新手。同樣,#醫(yī)生頻道的情況也差不多。唯一有價值的內(nèi)容是來自專業(yè)醫(yī)療人員的反對意見,比如不建議使用肺部x光診斷新冠肺炎感染。最后一個子通道#研究人員幾乎是空的。
另一方面,UI/UX頻道制作的內(nèi)容相當豐富。目前,這個程序有五個不同的徽標,外加一組專用于移動和Web應用程序的界面。
所以,對于這種說法,大部分開發(fā)商并不買賬。很多人認為,在目前的特殊情況下,這種問題嚴重的項目不應該進行發(fā)布和宣傳(甚至有開發(fā)商調(diào)侃稱,宣傳的工作量是開發(fā)工作的20倍左右)。診斷中的醫(yī)學深度學習
深度卷積網(wǎng)絡在疾病的診斷和治療方面確實具有一系列潛在的優(yōu)勢。近年來,許多科學出版物都對這一新的發(fā)展方向給予了高度關注:2016年,來自倫敦的一組研究人員發(fā)表了一種新方法,基于包含8萬張眼底照片的數(shù)據(jù)集,可以以86%的準確率診斷糖尿病引起的視網(wǎng)膜病變。同年,來自烏干達的研究人員通過使用10,000個對象的數(shù)據(jù)集,評估了卷積神經(jīng)網(wǎng)絡(CNN)對微觀血液涂片的分析能力。兩名日本研究人員通過包含55萬張CT掃描圖像的數(shù)據(jù)集,對肺結節(jié)進行了大規(guī)模分類操作。
然而,前面提到的新冠肺炎測試完全不同。稍微瀏覽一下其公布的代碼庫,就能看出作者對深度學習和AI技術的認知嚴重不足。更糟糕的是,很多開發(fā)者都在質(zhì)疑,他們顯然是想利用這次爆發(fā)來推廣自己。說好的代碼改變世界?
深度學習絕不是最好的解決方案。近年來,無數(shù)毫無準備的企業(yè)匆忙組建數(shù)據(jù)團隊,卻發(fā)現(xiàn)成本在快速上升,卻沒有任何有意義的產(chǎn)出。
此前,李菲菲在一次采訪中提到:
泡沫確實存在。過度的夸張和炒作可以說是鋪天蓋地。作為科學家,我希望這些泡沫盡快消散。只有注重實芯的人,才能推動AI進步,帶來實實在在的收益,這一點在醫(yī)療醫(yī)療、醫(yī)藥等領域尤為重要。
此外,我們永遠不應該利用技術來制造不公正、偏見或擴大現(xiàn)有的不平等。對于AI技術,希望降低其接觸門檻,增加公平性,盡可能緩解各種相關矛盾。只要處理得當,我們完全有機會利用人工智能技術創(chuàng)造更美好的未來。當然,前提是我們要仔細梳理現(xiàn)有的AI成果,找出哪些是捏造的,哪些是真實的。
閱讀:李菲菲最新訪談:希望AI領域的泡沫盡快消散,尤其是醫(yī)療部分。
時至今日,AI技術仍在開拓前進。忽略了這一點,很容易陷入炒作的泥潭。
說了這么多,任何一個理性的開發(fā)商都不會貿(mào)然進入,把自己的命運交給運氣。相反,只有先建立一支在AI/ML、DataOps、架構、開發(fā)等領域有專長的團隊,才能打贏這場仗。
最后,代碼不能讓世界變得更好也沒關系,不要惹麻煩就好。
關注我,轉(zhuǎn)發(fā)這篇文章。如果你相信我“收到信息”,你可以免費獲得價值4999元的InfoQ迷你本!了解更多信息