这些公司被发现使用了超过173536个YouTube视频的字幕数据,而这些数据的获取并未得到视频创作者的许可。
这些公司所使用的数据集名为“YouTube Subtitles”,由非营利组织EleutherAI创建,该数据集包含了来自超过48000个频道的视频文本。
其中不乏知名教育机构和媒体公司的内容,例如可汗学院、麻省理工学院、哈佛大学等,此外,一些广受欢迎的YouTube创作者,如MrBeast等的视频也被包括在内。
此前,EleutherAI发布了名为“Pile”的数据汇编,其中的大部分数据集都是对公众开放的,包括YouTube Subtitles。
不过值得注意的是,苹果在使用Pile数据集训练OpenELM模型时,并未直接下载数据,因此在技术层面上,是EleutherAI违反了YouTube的使用条款。
YouTube明确禁止未经授权从平台获取素材,同时这些数据不仅用于训练AI,还可能涉及到版权和隐私问题。
创作者们也对此表示震惊和不满,因为他们并未被告知自己的作品被用于商业目的,更遑论从中获得任何补偿。

OPPO Find X8系列曝光:将是行业内第一款双潜望天玑9400旗舰
苹果在印度面临被调查:苹果销售额较上年同期增长约33%创下近80亿美元历史新高
徐起晒出真我GT6战绩,新品蝉联骁龙8 Gen3手机京东热卖榜榜首7天
IQOO Neo9S Pro+首销日销量创Pro版历史新高,成为Neo最强Pro
未来两年iPhone出货量将超5亿台,iPad市场也有望迎来升级潮
Redmi Note 14系列首度曝光:首发搭载高通骁龙7s Gen3处理器
全球智能手机市场连续三个季度反弹:出货量同比增长12%,达2.88亿台
手机拍月亮自动P纹理和细节:智能手机其实也早就将 AI 技术加入了相机中
三星Galaxy Z Flip6哆啦A梦版发布:全球限量800套,哆啦A梦为主题的包装设计



