反“低俗”從互聯網興起之初就是全球努力的關注點,但是即便是現在利用靈犬反低俗等app智能軟件,也只能說是在一定程度上讓互聯網環境較之以前大有改觀,而且反低俗的同時又不可避免地殺掉一些正常“細胞”。因爲低俗與否在一定程度上是很難界定的。
這裏我首先從界定的角度來仔細分析一下:
話不多說上圖,但需要先制作一下打上馬賽克,其實這真是正常的圖片,但如果不打上馬賽克,估計平台會自動識別那是低俗,你也就看不到我的這篇文章了。估計有過發文體驗的朋友一定會感同身受。
藝術也得這樣掩蓋,光馬賽克無法通過,影響您的體驗抱歉
機器的智能學習判斷爲網絡反低俗提供了更大可能
爲了深入了解靈犬反低俗app的發展曆程,我在網絡上查找了大量資料:
第一版靈犬,采用的是詞向量與CNN技術。詞向量是讓詞蘊含語義信息;CNN是卷曲神經網絡的縮寫,這種技術架構性能好、速度快。
第二版靈犬,用的是LSTM和 Attention技術。LSTM是“長短期記憶”的縮寫,這種神經網絡可以很好地對序列進行建模,對長句的識別非常好。Attention是注意力機制,可以結合詞與詞之間的信息,對句子有更全面的了解。
最新的版本,用的技術是Bert技術與半監督技術,Bert是當前最先進的自然語言理解技術,是這個領域進展的集大成者。Bert開展了新的更大規模的網絡結構,並且使用半監督學習技術,可以利用天然的超大規模的語料庫進行訓練,使得對語義的刻畫更精准。
靈犬運用的解決方案,不僅是“機器學習”,而且是機器“深度學習”。深度學習有三個要素:一是數據量,二是算力,三是模型。靈犬也在利用分布式訓練算法以及GPU訓練集群,加速模型的訓練和調試,利用模型壓縮技術,提升模型的預測速度。
但越來越先進的技術並不能完全取代人工鑒別。因爲機器模塊僅僅是判斷你設定的條件,一旦有類似正常圖片的介入,機器就會毫不猶豫地將其判定爲“低俗”,所以人工鑒別的參與就顯得極爲重要了。否則就極易産生誤傷的情況。不信,請看下圖,讓機器判斷肯定是果斷,但肯定會誤傷。
世界名畫對不起,我必須得把你塗掉,否則無法通過啊
據說Facebook 曾經因爲“裸露”,誤傷了一張著名的越戰新聞照片,照片裏一位小女孩遭到汽油彈炸傷、渾身赤裸奔跑。再比如很多塑像存在“露點”,但其實是名勝古迹;芭蕾舞蹈圖片,以機器的視角來看,它很類似于裙底偷拍。
在八十年代早期,鄧麗君的歌曲曾被認爲是“靡靡之音”。1982年,人民音樂出版社出版了《怎樣鑒別黃色歌曲》,裏面就批判了鄧麗君歌曲。但時至今日,鄧麗君演唱的歌曲,已經成爲了華語經典歌曲的一部分。
建議大家在發文前仔細檢查,以免反工。



