CRATE:临床记录匿名化和文本提取
项目描述
目的
创建和使用用于研究去标识化数据库。
匿名化关系数据库。
从相关的二进制文件中提取和去标识化文本。
执行一些特定的预处理任务;例如
预处理一些特定的数据库(例如Servelec RiO EMR);
起草了一个用于匿名化的“数据字典”,具有一些数据库(例如TPP SystmOne)的专门知识;
获取一些单词列表,例如名字/姓氏/专有名词。
提供数据库链接工具,包括通过贝叶斯个人身份匹配,以可识别或去识别的方式。
提供自然语言处理(NLP)管道,包括内置NLP、外部工具支持以及客户端/服务器对自然语言处理请求协议(NLPRP)的支持。
Web应用程序用于
查询匿名化数据库;
提供去识别API;
管理联系同意流程。
文档
来源
许可证
版权(C)2015,剑桥大学,精神病学系。由Rudolf Cardinal创建(rnc1001@cam.ac.uk)。
根据GNU GPL v3+许可:请参阅LICENSE文件。
某些第三方库的许可证略有不同;请参阅文档。