韩国的研究人员团队发表了一篇关于他们如何利用机器学习模型和暗网数据的论文。他们从Tor网络中收集了大量的暗网语料库,这些数据涵盖了加密社区、色情、黑客、武器等多个阴暗领域。尽管这些数据充满了道德问题,但该团队决定不以这种方式使用它们。
他们使用名为DarkBERT的机器学习模型进行了预训练,这个模型通过过滤和清洗数据来确保敏感信息不会被包含在训练中。研究人员认为DarkBERT不仅有助于打击网络犯罪,还能推动自然语言处理技术的发展。
DarkBERT通过Tor网络连接到暗网,这使得在不登录的情况下访问暗网成为可能。研究人员利用这一系统创建了一个原始数据库,并将其整合到搜索引擎中。
虽然市场上的大型语言模型数量激增,但DarkBERT的独特性在于其来源于暗网的数据。研究人员将原始数据用于训练,从而改进了DarkBERT模型。
DarkBERT是一个旨在保护和执行法律的系统,而不是用于邪恶目的。它可以帮助安全研究人员识别潜在的网络犯罪活动,并监控暗网论坛上的非法信息交流。
公众无法直接访问DarkBERT,因为它接受了敏感数据的培训,但研究人员并没有明确说明何时会发布预处理数据。
尽管有许多人工智能聊天机器人,但用户在使用时需要注意,避免从虚假的应用程序中下载恶意软件或暴露敏感数据。因此,确保使用官方和可信赖的应用程序是至关重要的。